Spaces:

IliaLarchenko
/

interviewer

Sleeping

IliaLarchenko commited on Apr 17, 2024

Commit

855dfb9

1 Parent(s): 87ae702

Using whisper without saving file

Files changed (3) hide show

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ def hide_settings():
     audio_input = gr.Audio(
         label="Record audio",
         sources=["microphone"],
-        type="filepath",
         waveform_options={"show_controls": False},
         interactive=True,
         editable=False,
@@ -35,7 +35,7 @@ def hide_solution():
     audio_input = gr.Audio(
         label="Record audio",
         sources=["microphone"],
-        type="filepath",
         waveform_options={"show_controls": False},
         interactive=False,
         editable=False,
@@ -93,7 +93,7 @@ with gr.Blocks() as demo:
                     audio_input = gr.Audio(
                         label="Record audio",
                         sources=["microphone"],
-                        type="filepath",
                         waveform_options={"show_controls": False},
                         interactive=False,
                         editable=False,
@@ -124,11 +124,12 @@ with gr.Blocks() as demo:
     audio_input.stop_recording(fn=transcribe_audio, inputs=[audio_input], outputs=[message]).then(
         fn=return_none, inputs=None, outputs=[audio_input]
-    ).then(
-        fn=send_request,
-        inputs=[code, previous_code, message, chat_history, chat, model_select],
-        outputs=[chat_history, chat, message, previous_code],
     )
     chat.change(fn=read_last_message, inputs=[chat], outputs=[audio_output])

     audio_input = gr.Audio(
         label="Record audio",
         sources=["microphone"],
+        type="numpy",
         waveform_options={"show_controls": False},
         interactive=True,
         editable=False,
     audio_input = gr.Audio(
         label="Record audio",
         sources=["microphone"],
+        type="numpy",
         waveform_options={"show_controls": False},
         interactive=False,
         editable=False,
                     audio_input = gr.Audio(
                         label="Record audio",
                         sources=["microphone"],
+                        type="numpy",
                         waveform_options={"show_controls": False},
                         interactive=False,
                         editable=False,
     audio_input.stop_recording(fn=transcribe_audio, inputs=[audio_input], outputs=[message]).then(
         fn=return_none, inputs=None, outputs=[audio_input]
     )
+    # .then(
+    #     fn=send_request,
+    #     inputs=[code, previous_code, message, chat_history, chat, model_select],
+    #     outputs=[chat_history, chat, message, previous_code],
+    # )
     chat.change(fn=read_last_message, inputs=[chat], outputs=[audio_output])

audio.py ADDED Viewed

+import io
+import wave
+def numpy_audio_to_bytes(audio_data):
+    sample_rate = 44100
+    num_channels = 1
+    sampwidth = 2
+    buffer = io.BytesIO()
+    with wave.open(buffer, "wb") as wf:
+        wf.setnchannels(num_channels)
+        wf.setsampwidth(sampwidth)
+        wf.setframerate(sample_rate)
+        wf.writeframes(audio_data.tobytes())
+    return buffer.getvalue()

llm.py CHANGED Viewed

@@ -3,6 +3,7 @@ import json
 from dotenv import load_dotenv
 from openai import OpenAI
 from prompts import coding_interviewer_prompt, grading_feedback_prompt
 load_dotenv()
@@ -73,9 +74,10 @@ def send_request(code, previous_code, message, chat_history, chat_display, model
     return chat_history, chat_display, "", code
-def transcribe_audio(filename, client=client):
-    with open(filename, "rb") as audio_file:
-        transcription = client.audio.transcriptions.create(model="whisper-1", file=audio_file, response_format="text")
     return transcription

 from dotenv import load_dotenv
 from openai import OpenAI
+from audio import numpy_audio_to_bytes
 from prompts import coding_interviewer_prompt, grading_feedback_prompt
 load_dotenv()
     return chat_history, chat_display, "", code
+def transcribe_audio(audio, client=client):
+    transcription = client.audio.transcriptions.create(
+        model="whisper-1", file=("temp.wav", numpy_audio_to_bytes(audio[1]), "audio/wav"), response_format="text"
+    )
     return transcription