Spaces:

AIdsadong
/

my-voxcpm-app

Sleeping

AIdsadong commited on Sep 20

Commit

6f48662

verified ·

1 Parent(s): 67e7ff5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import torch
-from transformers import AutoProcessor, AutoModel
 import scipy.io.wavfile
 import os
@@ -10,10 +11,9 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 # 模型 ID
 model_id = "openbmb/VoxCPM-0.5B"
-# 使用 trust_remote_code=True 加载模型和处理器
-# 这会自动处理背后所需的代码，无需我们手动添加 .py 文件
-model = AutoModel.from_pretrained(model_id, trust_remote_code=True).to(device)
-processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)
 def generate_speech(text):
     """
@@ -22,19 +22,20 @@ def generate_speech(text):
     if not text or text.strip() == "":
         return None
-    # 使用处理器准备输入
-    inputs = processor(text=text, return_tensors="pt").to(device)
-    # 生成语音波形
-    # 注意: .generate() 可能会返回一个包含波形的元组
-    output = model.generate(**inputs, cfg_value=2.0)
-    # 提取波形数据，它通常是输出的第一个元素
-    wav = output[0] if isinstance(output, tuple) else output
-    wav = wav.cpu().numpy()
-    # 从处理器获取采样率
-    sampling_rate = processor.sampling_rate
     # 将生成的波形保存为临时的 .wav 文件
     output_filename = "output.wav"

 import gradio as gr
 import torch
+# 使用 voxcpm 库中专属的类
+from voxcpm import VoxCPM, VoxCPMFeatureExtractor
 import scipy.io.wavfile
 import os
 # 模型 ID
 model_id = "openbmb/VoxCPM-0.5B"
+# 使用模型官方的 .from_pretrained 方法加载
+model = VoxCPM.from_pretrained(model_id).to(device)
+feature_extractor = VoxCPMFeatureExtractor.from_pretrained(model_id)
 def generate_speech(text):
     """
     if not text or text.strip() == "":
         return None
+    # 使用模型自带的 generate 方法生成语音波形
+    wav = model.generate(
+        text=text,
+        prompt_wav_path=None,
+        prompt_text=None,
+        cfg_value=2.0
+    )
+    # 从 feature_extractor 获取采样率
+    sampling_rate = feature_extractor.sampling_rate
+    # 确保波形数据是 CPU 上的 numpy 数组
+    if isinstance(wav, torch.Tensor):
+        wav = wav.cpu().numpy()
     # 将生成的波形保存为临时的 .wav 文件
     output_filename = "output.wav"