NOI_3_ZIP

Sleeping

App Files Files Community

hynt commited on Jul 18

Commit

efb70b3

1 Parent(s): 26c5857

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -14

app.py CHANGED Viewed

@@ -4,9 +4,10 @@ from huggingface_hub import login
 import gradio as gr
 from cached_path import cached_path
 import tempfile
 from vinorm import TTSnorm
 from infer_zipvoice import model, tokenizer, feature_extractor, device
-from utils import preprocess_ref_audio_text, save_spectrogram
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
@@ -39,21 +40,28 @@ def infer_tts(ref_audio_orig: str, gen_text: str, speed: float = 1.0, request: g
         raise gr.Error("Please enter text content with less than 1000 words.")
     try:
-        ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, "")
-        final_wave = generate_sentence(
-            ref_text.lower(),
-            ref_audio,
-            post_process(TTSnorm(gen_text)).lower(),
-            model=model,
-            vocoder=vocoder,
-            tokenizer=tokenizer,
-            feature_extractor=feature_extractor,
-            device=device,
-            speed=speed
-        )
         with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
             spectrogram_path = tmp_spectrogram.name
-            save_spectrogram(final_wave, spectrogram_path)
         return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e:

 import gradio as gr
 from cached_path import cached_path
 import tempfile
+import numpy as np
 from vinorm import TTSnorm
 from infer_zipvoice import model, tokenizer, feature_extractor, device
+from utils import preprocess_ref_audio_text, save_spectrogram, chunk_text
 # Retrieve token from secrets
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
         raise gr.Error("Please enter text content with less than 1000 words.")
     try:
+        gen_texts = chunk_text(gen_text)
+        final_wave_total = None
+        for i, gen_text in enumerate(gen_texts):
+            ref_audio, ref_text = preprocess_ref_audio_text(ref_audio_orig, "")
+            final_wave = generate_sentence(
+               ref_text.lower(),
+               ref_audio,
+               post_process(TTSnorm(gen_text)).lower(),
+               model=model,
+               vocoder=vocoder,
+               tokenizer=tokenizer,
+               feature_extractor=feature_extractor,
+               device=device,
+               speed=speed
+            )
+            if i == 0:
+                final_wave_total = final_wave
+            else:
+                final_wave_total = np.concatenate((final_wave_total, final_wave), axis=0)
         with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmp_spectrogram:
             spectrogram_path = tmp_spectrogram.name
+            save_spectrogram(final_wave_total, spectrogram_path)
         return (final_sample_rate, final_wave), spectrogram_path
     except Exception as e: