Spaces:

OOI-FrontierTech
/

tts_mockingbird

Paused

App Files Files Community

khof312 commited on Sep 20, 2024

Commit

b4c3706

1 Parent(s): 11b8286

Add fine-tuned Spanish and Lingala.

Browse files

Files changed (1) hide show

app.py +35 -3

app.py CHANGED Viewed

@@ -50,8 +50,13 @@ type=['wav'])
             base_mms = synth_mms(tts_text, models[tts_lang]['mms'])
             base_coqui= synth_coqui(tts_text, models[tts_lang]['coqui'])
             base_espeakng= synth_espeakng(tts_text, models[tts_lang]['espeakng'])
             base_toucan= synth_toucan(tts_text, models[tts_lang]['toucan'])
             if tts_lang=="swh":
                 finetuned_mms1 = synth_mms(tts_text, "khof312/mms-tts-swh-female-1")
                 finetuned_mms2 = synth_mms(tts_text, "khof312/mms-tts-swh-female-2")
@@ -59,6 +64,9 @@ type=['wav'])
                 finetuned_mms1 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-argentinian-monospeaker")
                 finetuned_mms2 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-chilean-monospeaker")
                 finetuned_mms3 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-colombian-monospeaker")
             #vc_mms
             #vc_coqui
@@ -70,6 +78,7 @@ type=['wav'])
             row3 = st.columns([1,1,2])
             row4 = st.columns([1,1,2])
             row5 = st.columns([1,1,2])
             row1[0].write("**Model**")
             row1[1].write("**Configuration**")
@@ -90,12 +99,15 @@ type=['wav'])
                 row4[1].write("default")
                 row4[2].audio(base_espeakng[0], sample_rate = base_espeakng[1])
             row5[0].write(f"[IMS-Toucan](https://github.com/DigitalPhonetics/IMS-Toucan)")
             row5[1].write("default")
             row5[2].audio(base_toucan[0], sample_rate = base_toucan[1])
             #################################################################
             if tts_lang == "swh":
                 "### Fine Tuned"
@@ -121,6 +133,7 @@ type=['wav'])
                 row2 = st.columns([1,1,2])
                 row3 = st.columns([1,1,2])
                 row4 = st.columns([1,1,2])
                 row1[0].write("**Model**")
                 row1[1].write("**Configuration**")
@@ -135,6 +148,22 @@ type=['wav'])
                 row4[0].write(f"Meta MMS")
                 row4[1].write("[ylacombe - Colombian](https://huggingface.co/ylacombe/mms-spa-finetuned-colombian-monospeaker)")
                 row4[2].audio(finetuned_mms3[0], sample_rate = finetuned_mms3[1])
             st.divider()
@@ -217,7 +246,8 @@ This page is a demo of the openly available Text to Speech models for various la
 - [**Meta's Massively Multilingual Speech (MMS)**](https://ai.meta.com/blog/multilingual-model-speech-recognition/) model, which supports over 1000 languages.[^1]
 - [**Coqui's TTS**](https://docs.coqui.ai/en/latest/#) package;[^2] while no longer supported, Coqui acted as a hub for TTS model hosting and these models are still available.
 - [**ESpeak-NG's**](https://github.com/espeak-ng/espeak-ng/tree/master)'s synthetic voices**[^3]
-- [**IMS Toucan**](https://github.com/DigitalPhonetics/IMS-Toucan), which supports 7000 languages. [^4]
 Voice conversion is currently achieved through Coqui.
@@ -237,5 +267,7 @@ Notes:
 [^2]: [Available models](https://github.com/coqui-ai/TTS/blob/dev/TTS/.models.json)
 [^3]: [Language list](https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md)
 [^4]: Language list is available in the Gradio API documentation [here](https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS).
 ''')

             base_mms = synth_mms(tts_text, models[tts_lang]['mms'])
             base_coqui= synth_coqui(tts_text, models[tts_lang]['coqui'])
             base_espeakng= synth_espeakng(tts_text, models[tts_lang]['espeakng'])
+            #models[tts_lang]['toucan']
             base_toucan= synth_toucan(tts_text, models[tts_lang]['toucan'])
+            #for m in  models[tts_lang]['toucan']:
+            #    base_toucan= synth_toucan(tts_text, models[tts_lang]['toucan'][0])
             if tts_lang=="swh":
                 finetuned_mms1 = synth_mms(tts_text, "khof312/mms-tts-swh-female-1")
                 finetuned_mms2 = synth_mms(tts_text, "khof312/mms-tts-swh-female-2")
                 finetuned_mms1 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-argentinian-monospeaker")
                 finetuned_mms2 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-chilean-monospeaker")
                 finetuned_mms3 = synth_mms(tts_text, "ylacombe/mms-spa-finetuned-colombian-monospeaker")
+                finetuned_mms4 = synth_mms(tts_text, "khof312/mms-tts-spa-female")
+            if tts_lang=="lin":
+                finetuned_mms1 = synth_mms(tts_text, "khof312/mms-tts-lin-female")
             #vc_mms
             #vc_coqui
             row3 = st.columns([1,1,2])
             row4 = st.columns([1,1,2])
             row5 = st.columns([1,1,2])
+            #row6 = st.columns([1,1,2])
             row1[0].write("**Model**")
             row1[1].write("**Configuration**")
                 row4[1].write("default")
                 row4[2].audio(base_espeakng[0], sample_rate = base_espeakng[1])
             row5[0].write(f"[IMS-Toucan](https://github.com/DigitalPhonetics/IMS-Toucan)")
             row5[1].write("default")
             row5[2].audio(base_toucan[0], sample_rate = base_toucan[1])
+            #if base_piper is not None:
+            #    row6[0].write(f"[Piper](https://github.com/rhasspy/piper)")
+            #    row6[1].write("default")
+            #    row6[2].audio(base_piper[0], sample_rate = base_piper[1])
             #################################################################
             if tts_lang == "swh":
                 "### Fine Tuned"
                 row2 = st.columns([1,1,2])
                 row3 = st.columns([1,1,2])
                 row4 = st.columns([1,1,2])
+                row5 = st.columns([1,1,2])
                 row1[0].write("**Model**")
                 row1[1].write("**Configuration**")
                 row4[0].write(f"Meta MMS")
                 row4[1].write("[ylacombe - Colombian](https://huggingface.co/ylacombe/mms-spa-finetuned-colombian-monospeaker)")
                 row4[2].audio(finetuned_mms3[0], sample_rate = finetuned_mms3[1])
+                row5[0].write(f"Meta MMS")
+                row5[1].write("[khof312 - female](https://huggingface.co/khof312/mms-tts-spa-female)")
+                row5[2].audio(finetuned_mms4[0], sample_rate = finetuned_mms4[1])
+            if tts_lang == "lin":
+                "### Fine Tuned"
+                row1 = st.columns([1,1,2])
+                row2 = st.columns([1,1,2])
+                row1[0].write("**Model**")
+                row1[1].write("**Configuration**")
+                row1[2].write("**Audio**")
+                row2[0].write(f"Meta MMS")
+                row2[1].write("[khof312 - femalehttps://huggingface.co/khof312/mms-tts-lin-female)")
+                row2[2].audio(finetuned_mms1[0], sample_rate = finetuned_mms1[1])
             st.divider()
 - [**Meta's Massively Multilingual Speech (MMS)**](https://ai.meta.com/blog/multilingual-model-speech-recognition/) model, which supports over 1000 languages.[^1]
 - [**Coqui's TTS**](https://docs.coqui.ai/en/latest/#) package;[^2] while no longer supported, Coqui acted as a hub for TTS model hosting and these models are still available.
 - [**ESpeak-NG's**](https://github.com/espeak-ng/espeak-ng/tree/master)'s synthetic voices**[^3]
+- [**IMS Toucan**](https://github.com/DigitalPhonetics/IMS-Toucan), which supports 7000 languages.[^4]
+- [**Piper**](https://github.com/rhasspy/piper), a TTS system that supports multiple voices per language and approximately 30 languages.[^5]
 Voice conversion is currently achieved through Coqui.
 [^2]: [Available models](https://github.com/coqui-ai/TTS/blob/dev/TTS/.models.json)
 [^3]: [Language list](https://github.com/espeak-ng/espeak-ng/blob/master/docs/languages.md)
 [^4]: Language list is available in the Gradio API documentation [here](https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS).
+[^5]: The list of available voices is [here](https://github.com/rhasspy/piper/blob/master/VOICES.md), model checkpoints are [here](https://huggingface.co/datasets/rhasspy/piper-checkpoints/tree/main), and they can be tested [here](https://rhasspy.github.io/piper-samples/).
 ''')