Spaces:

qgyd2021
/

cc_vad

Sleeping

HoneyTian commited on Nov 21

Commit

e7cad17

1 Parent(s): e027841

update

Files changed (3) hide show

examples/silero_vad_by_webrtcvad/run.sh CHANGED Viewed

@@ -4,7 +4,7 @@
 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
---final_model_name silero-vad-by-webrtcvad-nx2-dns3-20251119 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \

 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
+--final_model_name silero-vad-by-webrtcvad-nx2-dns3-20251120 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \

examples/silero_vad_by_webrtcvad/step_5_export_model.py CHANGED Viewed

@@ -81,18 +81,23 @@ def main():
                           "new_encoder_hidden_cache_list",
                           "new_lstm_hidden_state"
                       ],
-                      dynamic_axes={
-                          "inputs": {0: "batch_size", 2: "num_samples"},
-                          "encoder_in_cache": {1: "batch_size"},
-                          "encoder_hidden_cache_list": {1: "batch_size"},
-                          "lstm_hidden_state": {2: "batch_size"},
-                          "logits": {0: "batch_size"},
-                          "probs": {0: "batch_size"},
-                          "lsnr": {0: "batch_size"},
-                          "new_encoder_in_cache": {1: "batch_size"},
-                          "new_encoder_hidden_cache_list": {1: "batch_size"},
-                          "new_lstm_hidden_state": {2: "batch_size"},
-                      })
     ort_session = ort.InferenceSession(
         output_file.as_posix()

                           "new_encoder_hidden_cache_list",
                           "new_lstm_hidden_state"
                       ],
+                      dynamic_axes={"inputs": {2: "num_samples"}},
+                      # UserWarning: Exporting a model to ONNX with a batch_size other than 1,
+                      # with a variable length with LSTM can cause an error when running the ONNX model with a different batch size.
+                      # Make sure to save the model with a batch size of 1, or define the initial states (h0/c0) as inputs of the model.
+                      # dynamic_axes={
+                      #     "inputs": {0: "batch_size", 2: "num_samples"},
+                      #     "encoder_in_cache": {1: "batch_size"},
+                      #     "encoder_hidden_cache_list": {1: "batch_size"},
+                      #     "lstm_hidden_state": {2: "batch_size"},
+                      #     "logits": {0: "batch_size"},
+                      #     "probs": {0: "batch_size"},
+                      #     "lsnr": {0: "batch_size"},
+                      #     "new_encoder_in_cache": {1: "batch_size"},
+                      #     "new_encoder_hidden_cache_list": {1: "batch_size"},
+                      #     "new_lstm_hidden_state": {2: "batch_size"},
+                      # },
+                      )
     ort_session = ort.InferenceSession(
         output_file.as_posix()

examples/silero_vad_by_webrtcvad/yaml/config-256-0-20.yaml CHANGED Viewed

@@ -19,12 +19,12 @@ decoder_num_layers: 2
 # lsnr
 n_frame: 3
-min_local_snr_db: -5
 max_local_snr_db: 30
 norm_tau: 1.
 # data
-min_snr_db: 0
 max_snr_db: 20
 # train

 # lsnr
 n_frame: 3
+min_local_snr_db: -15
 max_local_snr_db: 30
 norm_tau: 1.
 # data
+min_snr_db: -10
 max_snr_db: 20
 # train