Spaces:

11mlabs
/

IndriVoice

Running

App Files Files Community

skriller18 commited on Nov 26, 2024

Commit

ae68901

1 Parent(s): 1a0027d

Used API backend

Browse files

Files changed (2) hide show

app.py +32 -13
output.wav +0 -0

app.py CHANGED Viewed

@@ -1,21 +1,18 @@
 import torch
 import torchaudio
-from transformers import pipeline
 import streamlit as st
 model_id = '11mlabs/indri-0.1-124m-tts'
 task = 'indri-tts'
-pipe = pipeline(
-    task,
-    model=model_id,
-    #device=torch.device('cuda:0'), # Update this based on your hardware,
-    trust_remote_code=True
-)
 st.title("Indri")
 st.subheader("Ultrafast multi-modal AI")
 speakers = {
     "[spkr_63]" : "🇬🇧 👨 book reader",
@@ -33,7 +30,6 @@ speakers = {
     "[spkr_66]" : "🇮🇳 👨 politician"
 }
-# Create a container for the speaker selection and text input
 with st.container():
     st.markdown("### Speaker Selection")
     speaker_id = st.selectbox("Select a speaker:", options=list(speakers.keys()), format_func=lambda x: speakers[x])
@@ -41,10 +37,33 @@ with st.container():
     st.markdown("### Text Input")
     text_input = st.text_area("Enter text for TTS (max 200 characters):", max_chars=200)
-if st.button("Generate Audio", key="generate_audio"):
     if text_input:
-        output = pipe([text_input], speaker=speaker_id)
-        torchaudio.save('output.wav', output[0]['audio'][0], sample_rate=24000)
-        st.audio('output.wav')
     else:
         st.warning("Please enter text to generate audio.")

 import torch
 import torchaudio
 import streamlit as st
+import requests
+import streamlit.components.v1 as components
+import asyncio
+import io
 model_id = '11mlabs/indri-0.1-124m-tts'
 task = 'indri-tts'
 st.title("Indri")
 st.subheader("Ultrafast multi-modal AI")
+baseUrl = "https://a8a9e62422722.notebooks.jarvislabs.net"
 speakers = {
     "[spkr_63]" : "🇬🇧 👨 book reader",
     "[spkr_66]" : "🇮🇳 👨 politician"
 }
 with st.container():
     st.markdown("### Speaker Selection")
     speaker_id = st.selectbox("Select a speaker:", options=list(speakers.keys()), format_func=lambda x: speakers[x])
     st.markdown("### Text Input")
     text_input = st.text_area("Enter text for TTS (max 200 characters):", max_chars=200)
+async def generate_audio():
     if text_input:
+        speaker_name = speakers[speaker_id]
+        response = requests.post(
+            f"{baseUrl}/tts",
+            json={
+                "text": text_input,
+                "speaker": speaker_name
+            },
+            headers={
+                "accept": "application/json",
+                "Content-Type": "application/json"
+            }
+        )
+        if response.ok:
+            audio_blob = response.content
+            audio_tensor, sample_rate = torchaudio.load(io.BytesIO(audio_blob))
+            torchaudio.save('output.wav', audio_tensor, sample_rate=sample_rate)
+            st.audio('output.wav')
+        else:
+            st.warning(f"Received invalid response format. Status Code: {response.status_code}, Response: {response.text}")
     else:
         st.warning("Please enter text to generate audio.")
+if st.button("Generate Audio", key="generate_audio"):
+    asyncio.run(generate_audio())

output.wav ADDED Viewed

Binary file (119 kB). View file