f5-tts-DG-voice-cloner-easy

Sleeping

App Files Files Community

Borio047 commited on 28 days ago

Commit

ab49f1b

verified ·

1 Parent(s): a6968e6

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -51

app.py CHANGED Viewed

@@ -1,17 +1,15 @@
 import gradio as gr
 import numpy as np
-from f5_tts.api import F5TTS  # Official high-level API
 # -----------------------
-# Load model ONCE (global)
 # -----------------------
-# Use only one TTS model (F5-TTS) + vocoder, on CPU
 f5 = F5TTS(
-    model_type="F5-TTS",      # or "E2-TTS" if you prefer that model
-    vocoder_name="vocos",     # default vocoder used in examples
-    device="cpu",             # force CPU (free Space has no GPU)
 )
@@ -24,37 +22,28 @@ def clone_voice(
     target_rms,
 ):
     if ref_audio is None:
-        raise gr.Error("Please upload a short reference audio (5–15 seconds).")
-    if not gen_text.strip():
-        raise gr.Error("Please enter the text to generate.")
-    # Very important on CPU: avoid ASR.
-    # If ref_text is empty, F5-TTS may call a transcription model (slow + heavy).
     if not ref_text.strip():
         raise gr.Error(
-            "Please type the transcript of the reference audio (ref_text). "
-            "This avoids loading a heavy ASR model and keeps it faster on CPU."
         )
-    ref_path = ref_audio  # because we will use type='filepath' for Audio
-    # Call the F5TTS API.
-    # Key speed knobs:
-    # - nfe_step: fewer steps = faster, slightly lower quality
-    # - speed: >1.0 = faster speaking
     wav, sr, _ = f5.infer(
         ref_file=ref_path,
         ref_text=ref_text,
         gen_text=gen_text,
-        nfe_step=int(nfe_step),        # e.g. 12–24 is reasonable on CPU
-        speed=float(speed),            # speaking rate
-        target_rms=float(target_rms),  # audio loudness
-        sway_sampling_coef=-1,         # default
-        cfg_strength=2.0,              # default
     )
-    # Gradio expects (sample_rate, np.array)
     return sr, np.array(wav, dtype=np.float32)
@@ -64,32 +53,34 @@ def clone_voice(
 with gr.Blocks() as demo:
     gr.Markdown(
         """
-        # F5-TTS Voice Cloner – CPU Optimized
-        ⚠️ **Free CPU tip:**
-        - Use **5–15 seconds** of clean reference audio.
-        - **Always fill in the reference text** (what you said in that clip) to avoid slow ASR.
-        - Generate only **1–2 sentences** at a time.
-        - Lower **NFE steps** → faster, slightly lower quality.
         """
     )
     with gr.Row():
         with gr.Column():
             ref_audio = gr.Audio(
                 sources=["upload"],
-                type="filepath",
-                label="Reference audio (5–15s of your voice)",
             )
             ref_text = gr.Textbox(
-                label="Reference text (exact words in the reference audio)",
-                lines=2,
-                placeholder="Type exactly what you said in the reference clip...",
             )
             gen_text = gr.Textbox(
-                label="Text to generate in the same voice",
-                lines=3,
-                placeholder="Write 1–2 short sentences...",
             )
             nfe_step = gr.Slider(
@@ -97,8 +88,7 @@ with gr.Blocks() as demo:
                 maximum=32,
                 value=16,
                 step=2,
-                label="Quality vs Speed (NFE steps – lower = faster)",
-                info="Try 12–16 on CPU. Higher gives better quality but is slower.",
             )
             speed = gr.Slider(
@@ -106,7 +96,7 @@ with gr.Blocks() as demo:
                 maximum=1.4,
                 value=1.0,
                 step=0.05,
-                label="Speaking speed",
             )
             target_rms = gr.Slider(
@@ -114,23 +104,20 @@ with gr.Blocks() as demo:
                 maximum=0.3,
                 value=0.1,
                 step=0.01,
-                label="Volume target (RMS)",
             )
             generate_btn = gr.Button("Generate")
         with gr.Column():
-            output_audio = gr.Audio(
-                label="Cloned output",
-                autoplay=False,
-            )
     generate_btn.click(
         fn=clone_voice,
         inputs=[ref_audio, ref_text, gen_text, nfe_step, speed, target_rms],
-        outputs=output_audio,
     )
-# Entry point for Spaces
 if __name__ == "__main__":
-    demo.launch()

 import gradio as gr
 import numpy as np
+from f5_tts.api import F5TTS
 # -----------------------
+# Load model ONCE globally
 # -----------------------
+# This constructor works for f5-tts==1.1.10 (NO model_type argument).
 f5 = F5TTS(
+    vocoder_name="vocos",     # default vocoder
+    device="cpu"              # CPU only
 )
     target_rms,
 ):
     if ref_audio is None:
+        raise gr.Error("Please upload a 5–15 second reference audio.")
     if not ref_text.strip():
         raise gr.Error(
+            "Please enter the EXACT transcript of your reference audio.\n"
+            "This avoids using a slow ASR model on CPU."
         )
+    if not gen_text.strip():
+        raise gr.Error("Please enter the text you want to generate.")
+    ref_path = ref_audio  # because type='filepath'
     wav, sr, _ = f5.infer(
         ref_file=ref_path,
         ref_text=ref_text,
         gen_text=gen_text,
+        nfe_step=int(nfe_step),     # lower → faster
+        speed=float(speed),         # speaking speed
+        target_rms=float(target_rms)
     )
     return sr, np.array(wav, dtype=np.float32)
 with gr.Blocks() as demo:
     gr.Markdown(
         """
+        # F5-TTS Voice Cloner — Optimized for Free CPU
+        **Tips for best speed on CPU Spaces:**
+        - Upload **5–15 seconds** of clean speech.
+        - ALWAYS fill the **Reference Text** (do NOT let ASR run).
+        - Generate **1–2 sentences** at a time.
+        - Lower **NFE Steps** → faster (start with 12–16).
         """
     )
     with gr.Row():
         with gr.Column():
             ref_audio = gr.Audio(
+                label="Reference audio (5–15 seconds)",
                 sources=["upload"],
+                type="filepath"
             )
             ref_text = gr.Textbox(
+                label="Reference text (transcription of the reference audio)",
+                placeholder="Type EXACTLY what you said in the audio...",
+                lines=2
             )
             gen_text = gr.Textbox(
+                label="Text to synthesize",
+                placeholder="Enter 1–2 sentences...",
+                lines=3
             )
             nfe_step = gr.Slider(
                 maximum=32,
                 value=16,
                 step=2,
+                label="NFE steps (Lower = faster)",
             )
             speed = gr.Slider(
                 maximum=1.4,
                 value=1.0,
                 step=0.05,
+                label="Speaking speed"
             )
             target_rms = gr.Slider(
                 maximum=0.3,
                 value=0.1,
                 step=0.01,
+                label="Volume (RMS)"
             )
             generate_btn = gr.Button("Generate")
         with gr.Column():
+            output_audio = gr.Audio(label="Output audio")
     generate_btn.click(
         fn=clone_voice,
         inputs=[ref_audio, ref_text, gen_text, nfe_step, speed, target_rms],
+        outputs=output_audio
     )
 if __name__ == "__main__":
+    demo.launch()