Spaces:

souljoy
/

ChatPDF

Runtime error

App Files Files Community

souljoy commited on Oct 11, 2023

Commit

43f767e

1 Parent(s): 16653e3

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -15

app.py CHANGED Viewed

@@ -8,11 +8,11 @@ from cnocr import CnOcr
 import numpy as np
 import openai
 from llama_index import GPTVectorStoreIndex, SimpleDirectoryReader, Prompt
-from transformers import pipeline
 import opencc
 import scipy
 import torch
-import onnxruntime
 converter = opencc.OpenCC('t2s')  # 创建一个OpenCC实例，指定繁体字转为简体字
 ocr = CnOcr()  # 初始化ocr模型
@@ -21,8 +21,9 @@ all_max_len = 2000  # 输入的最大长度
 asr_model_id = "openai/whisper-tiny"  # 更新为你的模型ID
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 asr_pipe = pipeline("automatic-speech-recognition", model=asr_model_id, device=device)
-synthesiser = pipeline("text-to-speech", "suno/bark-small", device=device)
 def get_text_emb(open_ai_key, text):  # 文本向量化
     openai.api_key = open_ai_key  # 设置openai的key
@@ -145,14 +146,16 @@ def get_response_by_llama_index(open_ai_key, msg, bot, query_engine):  # 获取
     return bot[max(0, len(bot) - 3):]  # 返回最近3轮的历史记录
-import hashlib
-def get_audio_answer(answer):  # 获取语音回答
-    speech = synthesiser(answer, forward_params={"do_sample": True})  # 生成语音
-    md5 = hashlib.md5(answer.encode('utf-8')).hexdigest()  # 获取md5
-    scipy.io.wavfile.write("{}.wav".format(md5), rate=speech["sampling_rate"], data=speech["audio"]) # 保存语音
-    return "{}.wav".format(md5)
 def get_response(open_ai_key, msg, bot, doc_text_list, doc_embeddings, query_engine, index_type):  # 获取机器人回复
@@ -160,8 +163,7 @@ def get_response(open_ai_key, msg, bot, doc_text_list, doc_embeddings, query_eng
         bot = get_response_by_self(open_ai_key, msg, bot, doc_text_list, doc_embeddings)
     else:  # 如果是使用llama_index索引
         bot = get_response_by_llama_index(open_ai_key, msg, bot, query_engine)
-    audio_answer_dir = get_audio_answer(bot[-1][1])  # 获取语音回答
-    return bot, gr.Audio(audio_answer_dir)
 def up_file(files):  # 上传文件
@@ -268,7 +270,7 @@ with gr.Blocks() as demo:
     audio_inputs.change(transcribe_speech, [open_ai_key, audio_inputs, asr_type], [msg_txt])  # 录音输入
     chat_bu.click(get_response,
                   [open_ai_key, msg_txt, chat_bot, doc_text_state, doc_emb_state, query_engine, index_type],
-                  [chat_bot, audio_answer])  # 发送消息
 if __name__ == "__main__":
     demo.queue(concurrency_count=4).launch()

 import numpy as np
 import openai
 from llama_index import GPTVectorStoreIndex, SimpleDirectoryReader, Prompt
+from transformers import pipeline, BarkModel, BarkProcessor
 import opencc
 import scipy
 import torch
+import hashlib
 converter = opencc.OpenCC('t2s')  # 创建一个OpenCC实例，指定繁体字转为简体字
 ocr = CnOcr()  # 初始化ocr模型
 asr_model_id = "openai/whisper-tiny"  # 更新为你的模型ID
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 asr_pipe = pipeline("automatic-speech-recognition", model=asr_model_id, device=device)
+bark_model = BarkModel.from_pretrained("suno/bark-small")
+bark_processor = BarkProcessor.from_pretrained("suno/bark-small")
+sampling_rate = bark_model.generation_config.sample_rate
 def get_text_emb(open_ai_key, text):  # 文本向量化
     openai.api_key = open_ai_key  # 设置openai的key
     return bot[max(0, len(bot) - 3):]  # 返回最近3轮的历史记录
+def get_audio_answer(bot):  # 获取语音回答
+    answer = bot[-1][1]
+    inputs = bark_processor(
+        text=[answer],
+        return_tensors="pt",
+    )
+    speech_values = bark_model.generate(**inputs, do_sample=True)
+    au_dir = hashlib.md5(answer.encode('utf-8')).hexdigest() + '.wav'  # 获取md5
+    scipy.io.wavfile.write(au_dir, rate=sampling_rate, data=speech_values.cpu().numpy().squeeze())
+    return gr.Audio().update(au_dir, autoplay=True)
 def get_response(open_ai_key, msg, bot, doc_text_list, doc_embeddings, query_engine, index_type):  # 获取机器人回复
         bot = get_response_by_self(open_ai_key, msg, bot, doc_text_list, doc_embeddings)
     else:  # 如果是使用llama_index索引
         bot = get_response_by_llama_index(open_ai_key, msg, bot, query_engine)
+    return bot
 def up_file(files):  # 上传文件
     audio_inputs.change(transcribe_speech, [open_ai_key, audio_inputs, asr_type], [msg_txt])  # 录音输入
     chat_bu.click(get_response,
                   [open_ai_key, msg_txt, chat_bot, doc_text_state, doc_emb_state, query_engine, index_type],
+                  [chat_bot])# .then(get_audio_answer, [chat_bot], [audio_answer])  # 发送消息
 if __name__ == "__main__":
     demo.queue(concurrency_count=4).launch()