Spaces:

vihangp
/

marathi-park-speaker

Paused

App Files Files Community

vihangp commited on May 15, 2024

Commit

e69710d

verified ·

1 Parent(s): f922a17

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -23

app.py CHANGED Viewed

@@ -48,36 +48,14 @@ def generate_audio(text, model_id, language):
         pipe_dict["language"] = language
         pipe_dict["original_pipe"] = pipeline("text-to-speech", model=default_model_per_language[language], device=0)
-    # if pipe_dict["current_model"] != model_id:
-    #     gr.Warning("Model has changed - loading new model")
-    #     pipe_dict["pipe"] = pipeline("text-to-speech", model=model_id, device=0)
-    #     pipe_dict["current_model"] = model_id
     num_speakers = pipe_dict["pipe"].model.config.num_speakers
     out = []
-    # first generate original model result
     output = pipe_dict["original_pipe"](text)
     output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label=f"Finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
-#    out.extend([gr.Audio(visible=False)])
-    # if num_speakers>1:
-    #     for i in range(min(num_speakers, max_speakers - 1)):
-    #         forward_params = {"speaker_id": i}
-    #         output = pipe_dict["pipe"](text, forward_params=forward_params)
-    #         output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=False, label=f"Generated Audio - speaker {i}", show_label=True,
-    #                            visible=True)
-    #         out.append(output)
-    #     out.extend([gr.Audio(visible=False)]*(max_speakers-num_speakers))
-    # else:
-    #     output = pipe_dict["pipe"](text)
-    #     output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label="Generated Audio - Mono speaker", show_label=True,
-    #                            visible=True)
-    #     out.append(output)
-    #     out.extend([gr.Audio(visible=False)]*(max_speakers-2))
     return output

         pipe_dict["language"] = language
         pipe_dict["original_pipe"] = pipeline("text-to-speech", model=default_model_per_language[language], device=0)
     num_speakers = pipe_dict["pipe"].model.config.num_speakers
     out = []
     output = pipe_dict["original_pipe"](text)
     output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label=f"Finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
     return output