Spaces:

atalink
/

TTS-Talker

Runtime error

App Files Files Community

Quang Long commited on Sep 20

Commit

a3fd3c7

1 Parent(s): e578b02

update progress, save cache audio

Browse files

Files changed (3) hide show

.gitignore +1 -0
app.py +25 -5
app_tts.py +24 -6

.gitignore CHANGED Viewed

@@ -160,3 +160,4 @@ checkpoints/
 gradio_cached_examples/
 gfpgan/
 start.sh

 gradio_cached_examples/
 gfpgan/
 start.sh
+tts_cache/

app.py CHANGED Viewed

@@ -76,11 +76,26 @@ def generate_voice_and_video(
     length_of_audio,
     blink_every,
 ):
     # 1. Sinh audio từ TTS
     (final_sample_rate, final_wave), _ = infer_tts(ref_audio, ref_text, gen_text, speed)
-    # Lưu ra file tạm
     tmp_audio = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
     sf.write(tmp_audio.name, final_wave, final_sample_rate)
     # 2. Gọi SadTalker với audio vừa sinh ra
     sad_talker = SadTalker(lazy_load=True)
     video_path = sad_talker.test(
@@ -101,14 +116,18 @@ def generate_voice_and_video(
         length_of_audio,
         blink_every,
     )
-    return tmp_audio.name, video_path
 def sadtalker_demo():
     download_model()
     with gr.Blocks(
         analytics_enabled=False,
-        css="src/assets/css/atalink_theme.css",
     ) as sadtalker_interface:
         gr.Markdown(
             f"""
@@ -207,8 +226,9 @@ def sadtalker_demo():
             with gr.Row(elem_classes="gr-row"):
                 output_audio = gr.Audio(label="🎧 Audio đã tạo", type="filepath")
                 gen_video = gr.Video(
-                    label="Video đã tạo", format="mp4", scale=1, height=180, width=180
                 )
             def enable_generate(audio, text, image):
                 return gr.update(interactive=bool(audio and text and image))
@@ -246,7 +266,7 @@ def sadtalker_demo():
                     length_of_audio,
                     blink_every,
                 ],
-                outputs=[output_audio, gen_video],
             )
         with gr.Tab("Lịch sử video"):
             with gr.Row(elem_classes="gr-row"):

     length_of_audio,
     blink_every,
 ):
+    import gradio as gr
+    # Bắt đầu: Hiển thị trạng thái đang tạo audio
+    yield (
+        gr.update(value=None, visible=True, interactive=False),
+        gr.update(value=None, visible=True, interactive=False),
+        gr.update(value="⏳ Đang tạo âm thanh...", visible=True)
+    )
     # 1. Sinh audio từ TTS
     (final_sample_rate, final_wave), _ = infer_tts(ref_audio, ref_text, gen_text, speed)
     tmp_audio = tempfile.NamedTemporaryFile(suffix=".wav", delete=False)
+    import soundfile as sf
     sf.write(tmp_audio.name, final_wave, final_sample_rate)
+    # Audio xong, chuyển sang tạo video
+    yield (
+        gr.update(value=tmp_audio.name, visible=True, interactive=True),
+        gr.update(value=None, visible=True, interactive=False),
+        gr.update(value="⏳ Đang tạo video...", visible=True)
+    )
     # 2. Gọi SadTalker với audio vừa sinh ra
     sad_talker = SadTalker(lazy_load=True)
     video_path = sad_talker.test(
         length_of_audio,
         blink_every,
     )
+    # Cả audio và video đã xong
+    yield (
+        gr.update(value=tmp_audio.name, visible=True, interactive=True),
+        gr.update(value=video_path, visible=True, interactive=True),
+        gr.update(value="✅ Hoàn thành!", visible=True)
+    )
 def sadtalker_demo():
     download_model()
     with gr.Blocks(
         analytics_enabled=False,
     ) as sadtalker_interface:
         gr.Markdown(
             f"""
             with gr.Row(elem_classes="gr-row"):
                 output_audio = gr.Audio(label="🎧 Audio đã tạo", type="filepath")
                 gen_video = gr.Video(
+                    label="Video đã tạo", format="mp4", scale=1, width=180
                 )
+                status_box = gr.Textbox(label="Trạng thái tiến trình", interactive=False, value="", visible=True)
             def enable_generate(audio, text, image):
                 return gr.update(interactive=bool(audio and text and image))
                     length_of_audio,
                     blink_every,
                 ],
+                outputs=[output_audio, gen_video, status_box],
             )
         with gr.Tab("Lịch sử video"):
             with gr.Row(elem_classes="gr-row"):

app_tts.py CHANGED Viewed

@@ -8,8 +8,6 @@ from cached_path import cached_path
 import tempfile
 from vinorm import TTSnorm
 from importlib.resources import files
-# import sys
-# sys.path.append(os.path.join(os.path.dirname(__file__), 'src'))
 from f5_tts.model import DiT
 from f5_tts.infer.utils_infer import (
     preprocess_ref_audio_text,
@@ -35,6 +33,7 @@ from f5_tts.infer.utils_infer import (
 from pathlib import Path
 from omegaconf import OmegaConf
 from datetime import datetime
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
@@ -43,6 +42,13 @@ hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 if hf_token:
     login(token=hf_token)
 def post_process(text):
     text = " " + text + " "
     text = text.replace(" . . ", " . ")
@@ -168,12 +174,24 @@ def infer_tts(ref_audio_orig: str, ref_text_input: str, gen_text: str, speed: fl
         # Nếu người dùng nhập ref_text thì dùng, không thì để rỗng để tự động nhận diện
         ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text_input or "")
         gen_text_ = gen_text.strip()
-        final_wave, final_sample_rate, spectrogram = infer_process(
-            ref_audio, ref_text.lower(), gen_text_, ema_model, vocoder, speed=speed
-        )
         with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
             spectrogram_path = tmp_spectrogram.name
-            save_spectrogram(spectrogram, spectrogram_path)
         return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e:
         raise gr.Error(f"Error generating voice: {e}")

 import tempfile
 from vinorm import TTSnorm
 from importlib.resources import files
 from f5_tts.model import DiT
 from f5_tts.infer.utils_infer import (
     preprocess_ref_audio_text,
 from pathlib import Path
 from omegaconf import OmegaConf
 from datetime import datetime
+import hashlib
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 if hf_token:
     login(token=hf_token)
+# Hàm lấy đường dẫn file cache dựa trên text, ref_audio, model
+def get_audio_cache_path(text, ref_audio_path, model, cache_dir="tts_cache"):
+    os.makedirs(cache_dir, exist_ok=True)
+    hash_input = f"{text}|{ref_audio_path}|{model}"
+    hash_val = hashlib.sha256(hash_input.encode("utf-8")).hexdigest()
+    return os.path.join(cache_dir, f"{hash_val}.wav")
 def post_process(text):
     text = " " + text + " "
     text = text.replace(" . . ", " . ")
         # Nếu người dùng nhập ref_text thì dùng, không thì để rỗng để tự động nhận diện
         ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, ref_text_input or "")
         gen_text_ = gen_text.strip()
+        # --- BẮT ĐẦU: Thêm logic cache ---
+        cache_path = get_audio_cache_path(gen_text_, ref_audio_orig, model)
+        import soundfile as sf
+        if os.path.exists(cache_path):
+            print(f"Using cached audio: {cache_path}")
+            final_wave, final_sample_rate = sf.read(cache_path)
+            spectrogram = None
+        else:
+            final_wave, final_sample_rate, spectrogram = infer_process(
+                ref_audio, ref_text.lower(), gen_text_, ema_model, vocoder, speed=speed
+            )
+            print(f"[CACHE] Saved new audio to: {cache_path}")
+            sf.write(cache_path, final_wave, final_sample_rate)
+        # --- KẾT THÚC: Thêm logic cache ---
         with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
             spectrogram_path = tmp_spectrogram.name
+            if spectrogram is not None:
+                save_spectrogram(spectrogram, spectrogram_path)
         return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e:
         raise gr.Error(f"Error generating voice: {e}")