Spaces:

Opera8
/

Sada

Running on Zero

App Files Files Community

Opera8 commited on 22 days ago

Commit

c8c87cd

verified ·

1 Parent(s): 6517d62

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -4

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ import spaces
 import uuid
 import soundfile as sf
-# فقط منابع ضروری
 downloaded_resources = {
     "configs": False,
     "tokenizer_vq8192": False,
@@ -86,7 +86,7 @@ os.makedirs("ckpts/Vevo", exist_ok=True)
 from models.vc.vevo.vevo_utils import VevoInferencePipeline
-# تابع ذخیره سازی امن
 def my_save_audio(waveform, output_path, sample_rate=24000):
     try:
         if isinstance(waveform, torch.Tensor):
@@ -169,6 +169,7 @@ def get_pipeline():
 @spaces.GPU()
 def vevo_timbre(content_wav, reference_wav):
     session_id = str(uuid.uuid4())[:8]
     temp_content_path = f"wav/c_{session_id}.wav"
     temp_reference_path = f"wav/r_{session_id}.wav"
@@ -178,6 +179,7 @@ def vevo_timbre(content_wav, reference_wav):
         raise ValueError("Please upload audio files")
     try:
         if isinstance(content_wav, tuple):
             content_sr, content_data = content_wav if isinstance(content_wav[0], int) else (content_wav[1], content_wav[0])
         else:
@@ -187,12 +189,15 @@ def vevo_timbre(content_wav, reference_wav):
             content_data = np.mean(content_data, axis=1)
         content_tensor = torch.FloatTensor(content_data).unsqueeze(0)
         if content_sr != 24000:
             content_tensor = torchaudio.functional.resample(content_tensor, content_sr, 24000)
             content_sr = 24000
         content_tensor = content_tensor / (torch.max(torch.abs(content_tensor)) + 1e-6) * 0.95
         if isinstance(reference_wav, tuple):
             ref_sr, ref_data = reference_wav if isinstance(reference_wav[0], int) else (reference_wav[1], reference_wav[0])
         else:
@@ -208,11 +213,11 @@ def vevo_timbre(content_wav, reference_wav):
         ref_tensor = ref_tensor / (torch.max(torch.abs(ref_tensor)) + 1e-6) * 0.95
-        # استفاده از soundfile برای ذخیره موقت
         sf.write(temp_content_path, content_tensor.squeeze().cpu().numpy(), content_sr)
         sf.write(temp_reference_path, ref_tensor.squeeze().cpu().numpy(), ref_sr)
-        print(f"[{session_id}] Processing Audio...")
         pipeline = get_pipeline()
@@ -226,6 +231,7 @@ def vevo_timbre(content_wav, reference_wav):
             print("Warning: NaN fixed")
             gen_audio = torch.nan_to_num(gen_audio, nan=0.0, posinf=0.95, neginf=-0.95)
         my_save_audio(gen_audio, output_path=output_path)
         return output_path

 import uuid
 import soundfile as sf
+# منابع ضروری
 downloaded_resources = {
     "configs": False,
     "tokenizer_vq8192": False,
 from models.vc.vevo.vevo_utils import VevoInferencePipeline
+# تابع ذخیره سازی امن (جایگزین torchaudio)
 def my_save_audio(waveform, output_path, sample_rate=24000):
     try:
         if isinstance(waveform, torch.Tensor):
 @spaces.GPU()
 def vevo_timbre(content_wav, reference_wav):
+    # تولید نام فایل امن
     session_id = str(uuid.uuid4())[:8]
     temp_content_path = f"wav/c_{session_id}.wav"
     temp_reference_path = f"wav/r_{session_id}.wav"
         raise ValueError("Please upload audio files")
     try:
+        # --- پردازش صدای اصلی ---
         if isinstance(content_wav, tuple):
             content_sr, content_data = content_wav if isinstance(content_wav[0], int) else (content_wav[1], content_wav[0])
         else:
             content_data = np.mean(content_data, axis=1)
         content_tensor = torch.FloatTensor(content_data).unsqueeze(0)
+        # ریسمپل با torchaudio (اینجا ارور نمیده چون ذخیره نمیکنیم، فقط پردازش میکنیم)
         if content_sr != 24000:
             content_tensor = torchaudio.functional.resample(content_tensor, content_sr, 24000)
             content_sr = 24000
         content_tensor = content_tensor / (torch.max(torch.abs(content_tensor)) + 1e-6) * 0.95
+        # --- پردازش صدای رفرنس ---
         if isinstance(reference_wav, tuple):
             ref_sr, ref_data = reference_wav if isinstance(reference_wav[0], int) else (reference_wav[1], reference_wav[0])
         else:
         ref_tensor = ref_tensor / (torch.max(torch.abs(ref_tensor)) + 1e-6) * 0.95
+        # ذخیره موقت با soundfile (برای جلوگیری از ارور TorchCodec)
         sf.write(temp_content_path, content_tensor.squeeze().cpu().numpy(), content_sr)
         sf.write(temp_reference_path, ref_tensor.squeeze().cpu().numpy(), ref_sr)
+        print(f"[{session_id}] Processing...")
         pipeline = get_pipeline()
             print("Warning: NaN fixed")
             gen_audio = torch.nan_to_num(gen_audio, nan=0.0, posinf=0.95, neginf=-0.95)
+        # ذخیره نهایی با soundfile
         my_save_audio(gen_audio, output_path=output_path)
         return output_path