Spaces:

pourmand1376
/

Seamlessm4t_diarization_VAD

Runtime error

a.pourmand commited on Sep 13, 2023

Commit

1b6d8ab

1 Parent(s): d2fc75a

add file

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,11 +29,18 @@ To duplicate this repo, you have to give permission from three reopsitories and
 """
 from pyannote.audio import Pipeline
 pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization",use_auth_token=HF_API)
-def predict(target_language, number_of_speakers, final_audio):
     if number_of_speakers == 0:
-        diarization = pipeline(final_audio)
     else:
-        diarization = pipeline(final_audio, num_speakers=number_of_speakers)
     for turn, value, speaker in diarization.itertracks(yield_label=True):
         print(f"start={turn.start}s stop={turn.end}s speaker_{speaker}")
@@ -114,7 +121,7 @@ with gr.Blocks(css="style.css") as demo:
         submit = gr.Button("Submit")
         text_output = gr.Textbox(label="Transcribed Text", value="", interactive=False)
-        submit.click(fn=predict, inputs=[target_language,number_of_speakers, final_audio], outputs=[text_output],api_name="predict")
     gr.Markdown(DUPLICATE)

 """
 from pyannote.audio import Pipeline
 pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization",use_auth_token=HF_API)
+def predict(target_language, number_of_speakers, audio_source, input_audio_mic, input_audio_file):
+    if audio_source == "microphone":
+        input_data = input_audio_mic
+    else:
+        input_data = input_audio_file
+    print(input_data)
     if number_of_speakers == 0:
+        diarization = pipeline(input_data)
     else:
+        diarization = pipeline(input_data, num_speakers=number_of_speakers)
     for turn, value, speaker in diarization.itertracks(yield_label=True):
         print(f"start={turn.start}s stop={turn.end}s speaker_{speaker}")
         submit = gr.Button("Submit")
         text_output = gr.Textbox(label="Transcribed Text", value="", interactive=False)
+        submit.click(fn=predict, inputs=[target_language,number_of_speakers, audio_source,input_audio_mic, input_audio_file], outputs=[text_output],api_name="predict")
     gr.Markdown(DUPLICATE)