Spaces:

qgyd2021
/

cc_vad

Sleeping

App Files Files Community

HoneyTian commited on 11 days ago

Commit

0534cfa

1 Parent(s): 8a458a9

update

Browse files

Files changed (12) hide show

examples/fsmn_vad_by_webrtcvad/run.sh +2 -2
examples/silero_vad_by_webrtcvad/run.sh +2 -2
examples/silero_vad_by_webrtcvad/yaml/{config-240-80-4.yaml → config-240-80-h128-e4-d1.yaml} +2 -2
examples/silero_vad_by_webrtcvad/yaml/config-240-80-h64-e4-d1.yaml +43 -0
examples/silero_vad_by_webrtcvad/yaml/{config-256-128-4.yaml → config-256-128-h128-e4-d1.yaml} +2 -2
examples/silero_vad_by_webrtcvad/yaml/config-256-128-h128-e8-d2.yaml +43 -0
examples/silero_vad_by_webrtcvad/yaml/config-256-128-h64-e4-d1.yaml +43 -0
examples/silero_vad_by_webrtcvad/yaml/config-256-128-h64-e8-d2.yaml +43 -0
examples/silero_vad_by_webrtcvad/yaml/{config-512-256-4.yaml → config-512-256-h128-e4-d1.yaml} +2 -2
examples/silero_vad_by_webrtcvad/yaml/config-512-256-h256-e4-d1.yaml +43 -0
toolbox/torchaudio/models/vad/wav2vec2_vad/__init__.py +0 -6
toolbox/torchaudio/models/vad/wav2vec2_vad/modeling_wav2vec2.py +0 -6

examples/fsmn_vad_by_webrtcvad/run.sh CHANGED Viewed

@@ -4,11 +4,11 @@
 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
---final_model_name fsmn-vad-nx2-dns3-256-128-4-20251125 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \
---config_file yaml/config-256-128-4.yaml
 END

 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name fsmn-vad-by-webrtcvad-nx2-dns3 \
+--final_model_name fsmn-vad-nx2-dns3-240-80-4-20251125 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \
+--config_file yaml/config-240-80-4.yaml
 END

examples/silero_vad_by_webrtcvad/run.sh CHANGED Viewed

@@ -4,11 +4,11 @@
 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
---final_model_name silero-vad-nx2-dns3-512-256-4-20251125 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \
---config_file yaml/config-512-256-4.yaml
 END

 bash run.sh --stage 3 --stop_stage 5 --system_version centos \
 --file_folder_name silero-vad-by-webrtcvad-nx2-dns3 \
+--final_model_name silero-vad-nx2-dns3-256-128-h64-e8-d2-20251202 \
 --noise_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/noise/**/*.wav" \
 --speech_patterns "/data/tianxing/HuggingDatasets/nx_noise/data/speech/dns3-speech/**/*.wav \
 /data/tianxing/HuggingDatasets/nx_noise/data/speech/nx-speech2/**/*.wav" \
+--config_file yaml/config-256-128-h64-e8-d2.yaml
 END

examples/silero_vad_by_webrtcvad/yaml/{config-240-80-4.yaml → config-240-80-h128-e4-d1.yaml} RENAMED Viewed

@@ -8,14 +8,14 @@ hop_size: 80
 win_type: hann
 # model
-encoder_in_channels: 64
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
-decoder_num_layers: 2
 # lsnr
 n_frame: 3

 win_type: hann
 # model
+encoder_in_channels: 128
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
+decoder_num_layers: 1
 # lsnr
 n_frame: 3

examples/silero_vad_by_webrtcvad/yaml/config-240-80-h64-e4-d1.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+model_name: "silero_vad"
+# spec
+sample_rate: 8000
+nfft: 256
+win_size: 240
+hop_size: 80
+win_type: hann
+# model
+encoder_in_channels: 64
+encoder_hidden_channels: 64
+encoder_out_channels: 64
+encoder_kernel_size: 3
+encoder_num_layers: 4
+decoder_hidden_size: 64
+decoder_num_layers: 1
+# lsnr
+n_frame: 3
+min_local_snr_db: -15
+max_local_snr_db: 30
+norm_tau: 1.
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
+lr: 0.001
+lr_scheduler: "CosineAnnealingLR"
+lr_scheduler_kwargs:
+  T_max: 250000
+  eta_min: 0.0001
+max_epochs: 100
+clip_grad_norm: 10.0
+seed: 1234
+num_workers: 4
+batch_size: 128
+eval_steps: 25000

examples/silero_vad_by_webrtcvad/yaml/{config-256-128-4.yaml → config-256-128-h128-e4-d1.yaml} RENAMED Viewed

@@ -8,14 +8,14 @@ hop_size: 128
 win_type: hann
 # model
-encoder_in_channels: 64
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
-decoder_num_layers: 2
 # lsnr
 n_frame: 3

 win_type: hann
 # model
+encoder_in_channels: 128
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
+decoder_num_layers: 1
 # lsnr
 n_frame: 3

examples/silero_vad_by_webrtcvad/yaml/config-256-128-h128-e8-d2.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+model_name: "silero_vad"
+# spec
+sample_rate: 8000
+nfft: 256
+win_size: 256
+hop_size: 128
+win_type: hann
+# model
+encoder_in_channels: 128
+encoder_hidden_channels: 128
+encoder_out_channels: 128
+encoder_kernel_size: 3
+encoder_num_layers: 8
+decoder_hidden_size: 128
+decoder_num_layers: 2
+# lsnr
+n_frame: 3
+min_local_snr_db: -15
+max_local_snr_db: 30
+norm_tau: 1.
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
+lr: 0.001
+lr_scheduler: "CosineAnnealingLR"
+lr_scheduler_kwargs:
+  T_max: 250000
+  eta_min: 0.0001
+max_epochs: 100
+clip_grad_norm: 10.0
+seed: 1234
+num_workers: 4
+batch_size: 128
+eval_steps: 25000

examples/silero_vad_by_webrtcvad/yaml/config-256-128-h64-e4-d1.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+model_name: "silero_vad"
+# spec
+sample_rate: 8000
+nfft: 256
+win_size: 256
+hop_size: 128
+win_type: hann
+# model
+encoder_in_channels: 64
+encoder_hidden_channels: 64
+encoder_out_channels: 64
+encoder_kernel_size: 3
+encoder_num_layers: 4
+decoder_hidden_size: 64
+decoder_num_layers: 1
+# lsnr
+n_frame: 3
+min_local_snr_db: -15
+max_local_snr_db: 30
+norm_tau: 1.
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
+lr: 0.001
+lr_scheduler: "CosineAnnealingLR"
+lr_scheduler_kwargs:
+  T_max: 250000
+  eta_min: 0.0001
+max_epochs: 100
+clip_grad_norm: 10.0
+seed: 1234
+num_workers: 4
+batch_size: 128
+eval_steps: 25000

examples/silero_vad_by_webrtcvad/yaml/config-256-128-h64-e8-d2.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+model_name: "silero_vad"
+# spec
+sample_rate: 8000
+nfft: 256
+win_size: 256
+hop_size: 128
+win_type: hann
+# model
+encoder_in_channels: 64
+encoder_hidden_channels: 64
+encoder_out_channels: 64
+encoder_kernel_size: 3
+encoder_num_layers: 8
+decoder_hidden_size: 64
+decoder_num_layers: 2
+# lsnr
+n_frame: 3
+min_local_snr_db: -15
+max_local_snr_db: 30
+norm_tau: 1.
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
+lr: 0.001
+lr_scheduler: "CosineAnnealingLR"
+lr_scheduler_kwargs:
+  T_max: 250000
+  eta_min: 0.0001
+max_epochs: 100
+clip_grad_norm: 10.0
+seed: 1234
+num_workers: 4
+batch_size: 128
+eval_steps: 25000

examples/silero_vad_by_webrtcvad/yaml/{config-512-256-4.yaml → config-512-256-h128-e4-d1.yaml} RENAMED Viewed

@@ -8,14 +8,14 @@ hop_size: 256
 win_type: hann
 # model
-encoder_in_channels: 64
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
-decoder_num_layers: 2
 # lsnr
 n_frame: 3

 win_type: hann
 # model
+encoder_in_channels: 128
 encoder_hidden_channels: 128
 encoder_out_channels: 128
 encoder_kernel_size: 3
 encoder_num_layers: 4
 decoder_hidden_size: 128
+decoder_num_layers: 1
 # lsnr
 n_frame: 3

examples/silero_vad_by_webrtcvad/yaml/config-512-256-h256-e4-d1.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+model_name: "silero_vad"
+# spec
+sample_rate: 8000
+nfft: 512
+win_size: 512
+hop_size: 256
+win_type: hann
+# model
+encoder_in_channels: 256
+encoder_hidden_channels: 256
+encoder_out_channels: 256
+encoder_kernel_size: 3
+encoder_num_layers: 4
+decoder_hidden_size: 256
+decoder_num_layers: 1
+# lsnr
+n_frame: 3
+min_local_snr_db: -15
+max_local_snr_db: 30
+norm_tau: 1.
+# data
+min_snr_db: -10
+max_snr_db: 20
+# train
+lr: 0.001
+lr_scheduler: "CosineAnnealingLR"
+lr_scheduler_kwargs:
+  T_max: 250000
+  eta_min: 0.0001
+max_epochs: 100
+clip_grad_norm: 10.0
+seed: 1234
+num_workers: 4
+batch_size: 128
+eval_steps: 25000

toolbox/torchaudio/models/vad/wav2vec2_vad/__init__.py DELETED Viewed

@@ -1,6 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-if __name__ == "__main__":
-    pass

toolbox/torchaudio/models/vad/wav2vec2_vad/modeling_wav2vec2.py DELETED Viewed

@@ -1,6 +0,0 @@
-#!/usr/bin/python3
-# -*- coding: utf-8 -*-
-if __name__ == "__main__":
-    pass