Spaces:

Opera8
/

Sada

Running on Zero

App Files Files Community

Opera8 commited on 22 days ago

Commit

82faa29

verified ·

1 Parent(s): 1c15946

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -32

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ from huggingface_hub import snapshot_download, hf_hub_download
 import subprocess
 import uuid
 import soundfile as sf
 # --- تنظیمات و نصب پیش‌نیازها ---
 downloaded_resources = {
@@ -174,9 +175,9 @@ def vevo_timbre(content_wav, reference_wav):
         # --- استراتژی Center-Only Processing (حذف لرزش) ---
         pipeline = get_pipeline()
-        # تنظیمات اصلی (به ثانیه)
-        CORE_CHUNK_SEC = 10.0  # مقداری که نهایتاً نگه می‌داریم
-        PADDING_SEC = 2.0      # مقداری که از هر طرف اضافه می‌خوانیم و دور می‌ریزیم
         core_samples = int(CORE_CHUNK_SEC * SR)
         padding_samples = int(PADDING_SEC * SR)
@@ -188,26 +189,23 @@ def vevo_timbre(content_wav, reference_wav):
         print(f"[{session_id}] Starting Center-Only processing...")
         while cursor < total_samples:
-            # محاسبه بازه خواندن از فایل اصلی (Source)
-            # ما PADDING را از عقب و جلو اضافه می‌کنیم
             read_start = max(0, cursor - padding_samples)
             read_end = min(total_samples, cursor + core_samples + padding_samples)
-            # اگر به ته فایل رسیدیم و چیزی برای پردازش نمانده
             if cursor >= total_samples:
                 break
-            # استخراج تکه "پد شده"
             chunk_input = content_full_np[read_start:read_end]
-            # اگر تکه خیلی کوچک است (انتهای فایل)، فقط پردازش کن
             if len(chunk_input) < SR * 0.5:
                  break
             save_audio_pcm16(torch.FloatTensor(chunk_input).unsqueeze(0), temp_content_path, SR)
             try:
-                # تولید صدا با حاشیه امن
                 gen = pipeline.inference_fm(
                     src_wav_path=temp_content_path,
                     timbre_ref_wav_path=temp_reference_path,
@@ -216,47 +214,34 @@ def vevo_timbre(content_wav, reference_wav):
                 if torch.isnan(gen).any(): gen = torch.nan_to_num(gen, nan=0.0)
                 gen_np = gen.detach().cpu().squeeze().numpy()
-                # --- برش هوشمند (Trimming) ---
-                # حالا باید حاشیه‌های ناپایدار (لرزش دار) را حذف کنیم
-                # 1. محاسبه مقدار برش از ابتدا (Front Trim)
-                # اگر اولین تکه است، ما PADDING نداشتیم (چون read_start=0 بود)
                 if cursor == 0:
-                    trim_front = 0
                 else:
-                    # در غیر این صورت، دقیقاً به اندازه PADDING از جلو می‌بریم
-                    trim_front = padding_samples
-                # 2. محاسبه مقدار برش از انتها (End Trim)
-                # ما می‌خواهیم فقط به اندازه CORE (10 ثانیه) نگه داریم
-                # اما باید مراقب انتهای فایل باشیم
-                # طول معتبر این تکه در خروجی نهایی
                 valid_length = min(core_samples, total_samples - cursor)
-                # استخراج بخش مرکزی (Stable Core)
-                # از trim_front شروع کن و به اندازه valid_length بردار
                 if len(gen_np) > trim_front:
                     core_audio = gen_np[trim_front : trim_front + valid_length]
-                    # --- اتصال میکروسکوپی (Micro Crossfade 50ms) ---
-                    # این فقط برای جلوگیری از کلیک دیجیتال است، نه برای تغییر لحن
-                    fade_len = int(0.05 * SR) # 50ms
                     if len(final_output) > 0 and len(core_audio) > fade_len:
-                        # نرم کردن اتصال
                         fade_out = np.linspace(1, 0, fade_len)
                         fade_in = np.linspace(0, 1, fade_len)
-                        # آخرین تکه لیست
                         prev_tail = final_output[-1][-fade_len:]
                         curr_head = core_audio[:fade_len]
-                        # اگر سایزها یکی بود میکس کن
                         if len(prev_tail) == fade_len:
                             mixed = (prev_tail * fade_out) + (curr_head * fade_in)
                             final_output[-1][-fade_len:] = mixed
-                            # حذف بخش میکس شده از تکه جدید
                             core_audio = core_audio[fade_len:]
                     final_output.append(core_audio)
@@ -266,7 +251,7 @@ def vevo_timbre(content_wav, reference_wav):
                 missing = min(core_samples, total_samples - cursor)
                 final_output.append(np.zeros(missing))
-            # جلو رفتن نشانگر به اندازه هسته اصلی (بدون هم‌پوشانی منطقی)
             cursor += core_samples
         # چسباندن نهایی
@@ -284,7 +269,7 @@ def vevo_timbre(content_wav, reference_wav):
 with gr.Blocks(title="Vevo-Timbre (Stable Core)") as demo:
     gr.Markdown("## Vevo-Timbre: Zero-Shot Voice Conversion")
-    gr.Markdown("Center-Only Processing Strategy: Generates extra padding and discards unstable edges to remove jitter.")
     with gr.Row():
         with gr.Column():

 import subprocess
 import uuid
 import soundfile as sf
+import spaces  # این خط برای ZeroGPU ضروری است
 # --- تنظیمات و نصب پیش‌نیازها ---
 downloaded_resources = {
         # --- استراتژی Center-Only Processing (حذف لرزش) ---
         pipeline = get_pipeline()
+        # تنظیمات: ۱۰ ثانیه تمیز نگه می‌داریم، ۲ ثانیه از هر طرف دور می‌ریزیم
+        CORE_CHUNK_SEC = 10.0
+        PADDING_SEC = 2.0
         core_samples = int(CORE_CHUNK_SEC * SR)
         padding_samples = int(PADDING_SEC * SR)
         print(f"[{session_id}] Starting Center-Only processing...")
         while cursor < total_samples:
+            # ۱. خواندن بازه وسیع‌تر (شامل پدینگ)
             read_start = max(0, cursor - padding_samples)
             read_end = min(total_samples, cursor + core_samples + padding_samples)
             if cursor >= total_samples:
                 break
             chunk_input = content_full_np[read_start:read_end]
+            # اگر تکه انتهایی خیلی کوچک است، بیخیال شو
             if len(chunk_input) < SR * 0.5:
                  break
             save_audio_pcm16(torch.FloatTensor(chunk_input).unsqueeze(0), temp_content_path, SR)
             try:
+                # ۲. تولید صدا
                 gen = pipeline.inference_fm(
                     src_wav_path=temp_content_path,
                     timbre_ref_wav_path=temp_reference_path,
                 if torch.isnan(gen).any(): gen = torch.nan_to_num(gen, nan=0.0)
                 gen_np = gen.detach().cpu().squeeze().numpy()
+                # ۳. حذف حاشیه‌های خراب (Trimming)
+                # محاسبه برش از جلو
                 if cursor == 0:
+                    trim_front = 0  # در اولین تکه، پدینگ جلو نداریم
                 else:
+                    trim_front = padding_samples # در بقیه، به اندازه پدینگ جلو می‌بریم
+                # محاسبه طول مفید
                 valid_length = min(core_samples, total_samples - cursor)
                 if len(gen_np) > trim_front:
+                    # استخراج فقط هسته مرکزی (بدون لرزش)
                     core_audio = gen_np[trim_front : trim_front + valid_length]
+                    # ۴. اتصال میکروسکوپی (۵۰ میلی ثانیه) فقط برای حذف کلیک
+                    fade_len = int(0.05 * SR)
                     if len(final_output) > 0 and len(core_audio) > fade_len:
                         fade_out = np.linspace(1, 0, fade_len)
                         fade_in = np.linspace(0, 1, fade_len)
                         prev_tail = final_output[-1][-fade_len:]
                         curr_head = core_audio[:fade_len]
                         if len(prev_tail) == fade_len:
                             mixed = (prev_tail * fade_out) + (curr_head * fade_in)
                             final_output[-1][-fade_len:] = mixed
                             core_audio = core_audio[fade_len:]
                     final_output.append(core_audio)
                 missing = min(core_samples, total_samples - cursor)
                 final_output.append(np.zeros(missing))
+            # ۵. جلو رفتن دقیق به اندازه ۱۰ ثانیه
             cursor += core_samples
         # چسباندن نهایی
 with gr.Blocks(title="Vevo-Timbre (Stable Core)") as demo:
     gr.Markdown("## Vevo-Timbre: Zero-Shot Voice Conversion")
+    gr.Markdown("Stable Core Logic: Removes generated artifacts at boundaries.")
     with gr.Row():
         with gr.Column():