Spaces:

aar2dee2
/

chatty_vader

Runtime error

App Files Files Community

aar2dee2 commited on Sep 11, 2023

Commit

5a1ed1a

1 Parent(s): bf4c978

custom send_audio function

Browse files

Files changed (1) hide show

app.py +21 -4

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ from vocode import getenv
 import gradio as gr
 import os
 import logging
 from vocode.turn_based.agent.chat_gpt_agent import ChatGPTAgent
 from vocode.turn_based.synthesizer import CoquiSynthesizer
 from vocode.turn_based.transcriber.whisper_transcriber import WhisperTranscriber
@@ -56,6 +56,9 @@ Answer the question accurately in less than 150 words. Remember you are Darth Va
 # # 1. Setup Vocode
 # import env vars
 vocode.setenv(
     OPENAI_API_KEY=os.getenv("OPENAI_API_KEY"),
     COQUI_API_KEY=os.getenv("COQUI_API_KEY"),
@@ -67,6 +70,8 @@ logging.basicConfig()
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
 def convert_to_audio_segment(input_audio):
     sample_rate, audio_data = input_audio
@@ -80,6 +85,20 @@ def convert_to_audio_segment(input_audio):
     return audio_segment
 def main(input_audio):
     logger.info(f"Type of input_audio: {type(input_audio)}")
     logger.info(f"input_audio: {input_audio}")
@@ -98,8 +117,6 @@ def main(input_audio):
         api_key=getenv("COQUI_API_KEY"),
     )
-    speaker_output = SpeakerOutput.from_default_device()
     print("Starting conversation. Press Ctrl+C to exit.")
     while True:
         try:
@@ -113,7 +130,7 @@ def main(input_audio):
             response = agent.respond(transcript)
             logger.info(f"Agent response: {response}")
             output_audio = synthesizer.synthesize(response)
-            return speaker_output.send_audio(output_audio)
         except Exception as e:
             logger.error("Failed to synthesize response: %s", e)

 import gradio as gr
 import os
 import logging
+import sounddevice as sd
 from vocode.turn_based.agent.chat_gpt_agent import ChatGPTAgent
 from vocode.turn_based.synthesizer import CoquiSynthesizer
 from vocode.turn_based.transcriber.whisper_transcriber import WhisperTranscriber
 # # 1. Setup Vocode
 # import env vars
+if not os.getenv("OPENAI_API_KEY") or not os.getenv("COQUI_API_KEY"):
+    raise EnvironmentError("Required environment variables not set")
 vocode.setenv(
     OPENAI_API_KEY=os.getenv("OPENAI_API_KEY"),
     COQUI_API_KEY=os.getenv("COQUI_API_KEY"),
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
+DEFAULT_SAMPLING_RATE = 44100
 def convert_to_audio_segment(input_audio):
     sample_rate, audio_data = input_audio
     return audio_segment
+def send_audio(audio_segment: AudioSegment):
+    sampling_rate = DEFAULT_SAMPLING_RATE
+    stream = sd.OutputStream(
+        channels=1,
+        samplerate=sampling_rate,
+        dtype=np.int16,
+        device=None,
+    )
+    raw_data = audio_segment.raw_data
+    if audio_segment.frame_rate != sampling_rate:
+        raw_data = audio_segment.set_frame_rate(sampling_rate).raw_data
+    stream.write(np.frombuffer(raw_data, dtype=np.int16))
 def main(input_audio):
     logger.info(f"Type of input_audio: {type(input_audio)}")
     logger.info(f"input_audio: {input_audio}")
         api_key=getenv("COQUI_API_KEY"),
     )
     print("Starting conversation. Press Ctrl+C to exit.")
     while True:
         try:
             response = agent.respond(transcript)
             logger.info(f"Agent response: {response}")
             output_audio = synthesizer.synthesize(response)
+            return send_audio(output_audio)
         except Exception as e:
             logger.error("Failed to synthesize response: %s", e)