Spaces:

romas-458
/

acr

Sleeping

roman commited on May 27, 2024

Commit

7bd33ad

1 Parent(s): 7d4b95e

trying as for basic whisper

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,21 +54,23 @@ if uploaded_file is not None:
     st.write("Transcribing audio...")
-    # Load audio
-    audio_input = AudioSegment.from_file(temp_wav_path).set_frame_rate(16000).set_channels(1)
-    audio_input = np.array(audio_input.get_array_of_samples())
-    # Normalize audio
-    audio_input = (audio_input - np.mean(audio_input)) / np.std(audio_input)
-    # Process the audio
-    input_features = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values
-    # Generate transcription
-    with torch.no_grad():
-        predicted_ids = model.generate(input_features)
-    transcription = processor.batch_decode(predicted_ids)[0]
     st.write("Transcription:")
     st.write(transcription)

     st.write("Transcribing audio...")
+    # # Load audio
+    # audio_input = AudioSegment.from_file(temp_wav_path).set_frame_rate(16000).set_channels(1)
+    # audio_input = np.array(audio_input.get_array_of_samples())
+    #
+    # # Normalize audio
+    # audio_input = (audio_input - np.mean(audio_input)) / np.std(audio_input)
+    #
+    # # Process the audio
+    # input_features = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values
+    #
+    # # Generate transcription
+    # with torch.no_grad():
+    #     predicted_ids = model.generate(input_features)
+    #
+    # transcription = processor.batch_decode(predicted_ids)[0]
+    transcription = model.transcribe(temp_wav_path)
     st.write("Transcription:")
     st.write(transcription)