Spaces:

SohomToom
/

DocToAudioConverted

Sleeping

App Files Files Community

SohomToom commited on May 6, 2025

Commit

9e3182d

verified ·

1 Parent(s): c849c89

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -82

app.py CHANGED Viewed

@@ -1,98 +1,160 @@
 import gradio as gr
 from TTS.api import TTS
 import tempfile
-import docx
-# Voice models dictionary with metadata on whether they support multi-speaker
-VOICE_MODELS = {
-    "LJSpeech (Standard Female)": {
-        "model_name": "tts_models/en/ljspeech/vits",
-        "multi_speaker": False
-    },
-    "VCTK (Multi-speaker English)": {
-        "model_name": "tts_models/en/vctk/vits",
-        "multi_speaker": True
-    }
-}
-# Embedded short speaker metadata (from your CSV)
-SPEAKER_METADATA = {
-    "225": {"age": 23, "gender": "F", "accent": "English"},
-    "226": {"age": 22, "gender": "M", "accent": "English"},
-    "227": {"age": 38, "gender": "M", "accent": "English"},
-    "228": {"age": 22, "gender": "F", "accent": "English"},
-    "229": {"age": 23, "gender": "F", "accent": "English"},
-    "230": {"age": 22, "gender": "F", "accent": "English"},
-    "231": {"age": 23, "gender": "F", "accent": "English"},
-    "232": {"age": 23, "gender": "M", "accent": "English"},
-    "233": {"age": 23, "gender": "F", "accent": "English"},
-    "234": {"age": 22, "gender": "F", "accent": "Scottish"}
-    # Add more as needed
-}
-# Pre-format speaker dropdown choices
-SPEAKER_CHOICES = [
-    (sid, f"p{sid} ({data['gender']}, {data['accent']}, {data['age']} yrs)")
-    for sid, data in SPEAKER_METADATA.items()
-]
-# Model cache
-MODEL_CACHE = {}
-def load_tts_model(model_key):
-    if model_key in MODEL_CACHE:
-        return MODEL_CACHE[model_key]
-    model_info = VOICE_MODELS[model_key]
-    tts = TTS(model_name=model_info["model_name"], gpu=False)
-    MODEL_CACHE[model_key] = tts
-    return tts
-def extract_text_from_docx(file):
-    doc = docx.Document(file)
-    return "\n".join([para.text for para in doc.paragraphs if para.text.strip()])
-def generate_audio(voice_key, speaker_id, docx_file):
-    text = extract_text_from_docx(docx_file)
-    tts = load_tts_model(voice_key)
-    kwargs = {}
-    if VOICE_MODELS[voice_key]["multi_speaker"]:
-        kwargs["speaker"] = speaker_id
-    output_path = tempfile.mktemp(suffix=".wav")
-    tts.tts_to_file(text=text, file_path=output_path, **kwargs)
-    return output_path
-def update_speaker_visibility(voice_key):
-    visible = VOICE_MODELS[voice_key]["multi_speaker"]
-    return gr.update(visible=visible)
-with gr.Blocks() as demo:
-    gr.Markdown("## DOCX to Speech with Speaker Selection")
-    with gr.Row():
-        voice_dropdown = gr.Dropdown(
-            choices=list(VOICE_MODELS.keys()),
-            value="LJSpeech (Standard Female)",
-            label="Select Voice"
-        )
-        speaker_dropdown = gr.Dropdown(
-            choices=SPEAKER_CHOICES,
-            label="Select Speaker",
-            visible=False
-        )
-    docx_input = gr.File(label="Upload .docx File", file_types=[".docx"])
-    generate_btn = gr.Button("Generate Audio")
-    audio_output = gr.Audio(label="Output Audio")
-    voice_dropdown.change(fn=update_speaker_visibility, inputs=voice_dropdown, outputs=speaker_dropdown)
     generate_btn.click(
-        fn=generate_audio,
-        inputs=[voice_dropdown, speaker_dropdown, docx_input],
-        outputs=audio_output
     )
-demo.launch()

+import os
+os.environ["NUMBA_DISABLE_CACHE"] = "1"
 import gradio as gr
+from docx import Document
 from TTS.api import TTS
 import tempfile
+# Voice model
+VOICE_MODEL = "tts_models/en/vctk/vits"
+# Embedded metadata (from your file)
+	SPEAKER_METADATA = {
+	    300: { "age": 23, "gender": "F", "accent": "American"},
+	    271: { "age": 19, "gender": "M", "accent": "Scottish"},
+	    287: { "age": 23, "gender": "M", "accent": "English"},
+	    262: { "age": 23, "gender": "F", "accent": "Scottish"},
+	    284: { "age": 20, "gender": "M", "accent": "Scottish"},
+	    297: { "age": 20, "gender": "F", "accent": "American"},
+	    227: { "age": 38, "gender": "M", "accent": "English"},
+	    246: { "age": 22, "gender": "M", "accent": "Scottish"},
+	    225: { "age": 23, "gender": "F", "accent": "English"},
+	    259: { "age": 23, "gender": "M", "accent": "English"},
+	    252: { "age": 22, "gender": "M", "accent": "Scottish"},
+	    231: { "age": 23, "gender": "F", "accent": "English"},
+	    266: { "age": 22, "gender": "F", "accent": "Irish"},
+	    241: { "age": 21, "gender": "M", "accent": "Scottish"},
+	    312: { "age": 19, "gender": "F", "accent": "Canadian"},
+	    329: { "age": 23, "gender": "F", "accent": "American"},
+	    232: { "age": 23, "gender": "M", "accent": "English"},
+	    305: { "age": 19, "gender": "F", "accent": "American"},
+	    311: { "age": 21, "gender": "M", "accent": "American"},
+	    301: { "age": 23, "gender": "F", "accent": "American"},
+	    304: { "age": 22, "gender": "M", "accent": "NorthernIrish"},
+	    310: { "age": 21, "gender": "F", "accent": "American"},
+	    260: { "age": 21, "gender": "M", "accent": "Scottish"},
+	    315: { "age": 18, "gender": "M", "accent": "American"},
+	    374: { "age": 28, "gender": "M", "accent": "Australian"},
+	    364: { "age": 23, "gender": "M", "accent": "Irish"},
+	    269: { "age": 20, "gender": "F", "accent": "English"},
+	    345: { "age": 22, "gender": "M", "accent": "American"},
+	    326: { "age": 26, "gender": "M", "accent": "Australian"},
+	    343: { "age": 27, "gender": "F", "accent": "Canadian"},
+	    230: { "age": 22, "gender": "F", "accent": "English"},
+	    376: { "age": 22, "gender": "M", "accent": "Indian"},
+	    240: { "age": 21, "gender": "F", "accent": "English"},
+	    298: { "age": 19, "gender": "M", "accent": "Irish"},
+	    272: { "age": 23, "gender": "M", "accent": "Scottish"},
+	    248: { "age": 23, "gender": "F", "accent": "Indian"},
+	    264: { "age": 23, "gender": "F", "accent": "Scottish"},
+	    250: { "age": 22, "gender": "F", "accent": "English"},
+	    292: { "age": 23, "gender": "M", "accent": "NorthernIrish"},
+	    237: { "age": 22, "gender": "M", "accent": "Scottish"},
+	    363: { "age": 22, "gender": "M", "accent": "Canadian"},
+	    313: { "age": 24, "gender": "F", "accent": "Irish"},
+	    285: { "age": 21, "gender": "M", "accent": "Scottish"},
+	    268: { "age": 23, "gender": "F", "accent": "English"},
+	    302: { "age": 20, "gender": "M", "accent": "Canadian"},
+	    261: { "age": 26, "gender": "F", "accent": "NorthernIrish"},
+	    336: { "age": 18, "gender": "F", "accent": "SouthAfrican"},
+	    288: { "age": 22, "gender": "F", "accent": "Irish"},
+	    226: { "age": 22, "gender": "M", "accent": "English"},
+	    277: { "age": 23, "gender": "F", "accent": "English"},
+	    360: { "age": 19, "gender": "M", "accent": "American"},
+	    257: { "age": 24, "gender": "F", "accent": "English"},
+	    254: { "age": 21, "gender": "M", "accent": "English"},
+	    339: { "age": 21, "gender": "F", "accent": "American"},
+	    323: { "age": 19, "gender": "F", "accent": "SouthAfrican"},
+	    255: { "age": 19, "gender": "M", "accent": "Scottish"},
+	    249: { "age": 22, "gender": "F", "accent": "Scottish"},
+	    293: { "age": 22, "gender": "F", "accent": "NorthernIrish"},
+	    244: { "age": 22, "gender": "F", "accent": "English"},
+	    245: { "age": 25, "gender": "M", "accent": "Irish"},
+	    361: { "age": 19, "gender": "F", "accent": "American"},
+	    314: { "age": 26, "gender": "F", "accent": "SouthAfrican"},
+	    308: { "age": 18, "gender": "F", "accent": "American"},
+	    229: { "age": 23, "gender": "F", "accent": "English"},
+	    341: { "age": 26, "gender": "F", "accent": "American"},
+	    275: { "age": 23, "gender": "M", "accent": "Scottish"},
+	    263: { "age": 22, "gender": "M", "accent": "Scottish"},
+	    253: { "age": 22, "gender": "F", "accent": "Welsh"},
+	    299: { "age": 25, "gender": "F", "accent": "American"},
+	    316: { "age": 20, "gender": "M", "accent": "Canadian"},
+	    282: { "age": 23, "gender": "F", "accent": "English"},
+	    362: { "age": 29, "gender": "F", "accent": "American"},
+	    294: { "age": 33, "gender": "F", "accent": "American"},
+	    274: { "age": 22, "gender": "M", "accent": "English"},
+	    279: { "age": 23, "gender": "M", "accent": "English"},
+	    281: { "age": 29, "gender": "M", "accent": "Scottish"},
+	    286: { "age": 23, "gender": "M", "accent": "English"},
+	    258: { "age": 22, "gender": "M", "accent": "English"},
+	    247: { "age": 22, "gender": "M", "accent": "Scottish"},
+	    351: { "age": 21, "gender": "F", "accent": "NorthernIrish"},
+	    283: { "age": 24, "gender": "F", "accent": "Irish"},
+	    334: { "age": 18, "gender": "M", "accent": "American"},
+	    333: { "age": 19, "gender": "F", "accent": "American"},
+	    295: { "age": 23, "gender": "F", "accent": "Irish"},
+	    330: { "age": 26, "gender": "F", "accent": "American"},
+	    335: { "age": 25, "gender": "F", "accent": "NewZealand"},
+	    228: { "age": 22, "gender": "F", "accent": "English"},
+	    267: { "age": 23, "gender": "F", "accent": "English"},
+	    273: { "age": 18, "gender": "F", "accent": "English"}
+	}
+# Return dropdown list like: "p225 - F, English"
+def get_speaker_dropdown_choices():
+    choices = []
+    for speaker_id, meta in SPEAKER_METADATA.items():
+        desc = f"p{speaker_id} - {meta['gender']}, {meta['accents']}"
+        choices.append((desc, f"p{speaker_id}"))
+    return choices
+# Cache TTS model
+MODEL_CACHE = {}
+def load_tts_model():
+    if VOICE_MODEL not in MODEL_CACHE:
+        MODEL_CACHE[VOICE_MODEL] = TTS(model_name=VOICE_MODEL, progress_bar=False, gpu=False)
+    return MODEL_CACHE[VOICE_MODEL]
+def docx_to_wav(doc_file, selected_desc):
+    speaker_id = next((sid for desc, sid in get_speaker_dropdown_choices() if desc == selected_desc), None)
+    if not speaker_id:
+        raise ValueError("Invalid speaker selection")
+    tts = load_tts_model()
+    document = Document(doc_file.name)
+    full_text = "\n".join([para.text for para in document.paragraphs if para.text.strip()])
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_wav:
+        wav_path = tmp_wav.name
+    tts.tts_to_file(text=full_text, file_path=wav_path, speaker=speaker_id)
+    return wav_path
+# Gradio UI
+with gr.Blocks() as interface:
+    gr.Markdown("# 🎤 English Voice Generator from DOCX")
+    gr.Markdown("Upload a `.docx` file and select a speaker to generate a WAV voiceover.")
+    doc_input = gr.File(label="Upload .docx File", type="filepath")
+    speaker_dropdown = gr.Dropdown(
+        choices=[desc for desc, _ in get_speaker_dropdown_choices()],
+        label="Select Speaker",
+        value=None
+    )
+    generate_btn = gr.Button("Generate WAV")
+    output_audio = gr.Audio(label="Generated Audio", type="filepath")
     generate_btn.click(
+        fn=docx_to_wav,
+        inputs=[doc_input, speaker_dropdown],
+        outputs=output_audio
     )
+if __name__ == "__main__":
+    interface.launch()