gclose19 commited on 28 days ago

Commit

315f55a

verified ·

1 Parent(s): 315f936

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

.gitattributes +1 -0
1b/config.json +109 -0
1b/model.safetensors +3 -0
1b/preprocessor_config.json +8 -0
300m/config.json +109 -0
300m/model.safetensors +3 -0
300m/preprocessor_config.json +8 -0
3b/config.json +109 -0
3b/model-00001-of-00003.safetensors +3 -0
3b/model-00002-of-00003.safetensors +3 -0
3b/model-00003-of-00003.safetensors +3 -0
3b/model.safetensors.index.json +1013 -0
3b/preprocessor_config.json +8 -0
7b/config.json +109 -0
7b/model-00001-of-00006.safetensors +3 -0
7b/model-00002-of-00006.safetensors +3 -0
7b/model-00003-of-00006.safetensors +3 -0
7b/model-00004-of-00006.safetensors +3 -0
7b/model-00005-of-00006.safetensors +3 -0
7b/model-00006-of-00006.safetensors +3 -0
7b/model.safetensors.index.json +0 -0
hf_wav2vec2_features.png +3 -0
inference_hf.py +52 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+hf_wav2vec2_features.png filter=lfs diff=lfs merge=lfs -text

1b/config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1280,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 48,
+  "num_negatives": 100,
+  "output_hidden_size": 1280,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "4.57.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

1b/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4878ccac61364da98e2e579ce75fd1f587e3f23be3ef7bd1f1fd7d6abb395e97
+size 3860784616

1b/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

300m/config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 768,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "4.57.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

300m/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0de75980f4eb40f337277a136b4952aa3a71a5b2e574587c5d99f4f60097d6c
+size 1269615448

300m/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

3b/config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 60,
+  "num_negatives": 100,
+  "output_hidden_size": 2048,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "4.57.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

3b/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:088d9e81a8a0dd64dfd14d69628517ad2065f570df6ba316beb452143971b9d9
+size 4989745384

3b/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a591bfad83d4a57af087f57e03cd7ca275c13eaaff2dfd17d34a8f14c9d9781
+size 4968743656

3b/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c89afa8bb3851342f44a056d6e3bb7e958478e471cf848fa3affa8431375d2d1
+size 2296759504

3b/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1013 @@

+{
+  "metadata": {
+    "total_parameters": 3063780608,
+    "total_size": 12255122432
+  },
+  "weight_map": {
+    "project_hid.bias": "model-00003-of-00003.safetensors",
+    "project_hid.weight": "model-00003-of-00003.safetensors",
+    "project_q.bias": "model-00003-of-00003.safetensors",
+    "project_q.weight": "model-00003-of-00003.safetensors",
+    "quantizer.codevectors": "model-00003-of-00003.safetensors",
+    "quantizer.weight_proj.bias": "model-00003-of-00003.safetensors",
+    "quantizer.weight_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.10.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.11.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.12.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.13.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.14.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.15.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.16.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.17.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.18.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.19.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.2.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.20.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.21.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.22.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.23.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.24.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.25.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.26.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.27.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.28.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.29.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.3.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.30.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.31.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.32.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.33.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.34.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.35.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.36.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.37.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.38.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.39.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.4.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.40.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.41.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.42.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.43.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.44.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.45.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.46.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.feed_forward.output_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.feed_forward.output_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.final_layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.final_layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.47.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.k_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.k_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.out_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.out_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.q_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.q_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.v_proj.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.attention.v_proj.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.feed_forward.intermediate_dense.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.feed_forward.intermediate_dense.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.layer_norm.bias": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.48.layer_norm.weight": "model-00002-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.49.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.5.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.50.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.51.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.52.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.53.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.54.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.55.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.56.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.57.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.58.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.k_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.k_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.out_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.out_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.q_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.q_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.v_proj.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.attention.v_proj.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.feed_forward.intermediate_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.feed_forward.intermediate_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.feed_forward.output_dense.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.feed_forward.output_dense.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.final_layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.final_layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.layer_norm.bias": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.59.layer_norm.weight": "model-00003-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.6.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.7.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.8.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.k_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.k_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.out_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.out_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.q_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.q_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.v_proj.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.attention.v_proj.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.feed_forward.intermediate_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.feed_forward.intermediate_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.feed_forward.output_dense.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.feed_forward.output_dense.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.final_layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.final_layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.layers.9.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.pos_conv_embed.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.pos_conv_embed.conv.parametrizations.weight.original0": "model-00001-of-00003.safetensors",
+    "wav2vec2.encoder.pos_conv_embed.conv.parametrizations.weight.original1": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.0.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.0.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.0.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.0.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.1.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.1.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.1.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.1.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.2.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.2.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.2.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.2.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.3.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.3.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.3.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.3.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.4.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.4.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.4.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.4.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.5.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.5.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.5.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.5.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.6.conv.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.6.conv.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.6.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_extractor.conv_layers.6.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_projection.layer_norm.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_projection.layer_norm.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_projection.projection.bias": "model-00001-of-00003.safetensors",
+    "wav2vec2.feature_projection.projection.weight": "model-00001-of-00003.safetensors",
+    "wav2vec2.masked_spec_embed": "model-00001-of-00003.safetensors"
+  }
+}

3b/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

7b/config.json ADDED Viewed

	@@ -0,0 +1,109 @@

+{
+  "activation_dropout": 0.1,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForPreTraining"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.1,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 128,
+  "num_negatives": 100,
+  "output_hidden_size": 2048,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "4.57.1",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

7b/model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c83f6a36a469d135ef6f57b1dcc2581edca95a74b1fec8eb1392d2643f96df26
+size 4989745384

7b/model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d2f71044a1b7d631719d98c9780a650bbf501d322a41b6cac9c42cb90170200
+size 4968743656

7b/model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1338cf2169760cb4c7c9c741be51775582dd33d0e2e09910ce1f684fe0745466
+size 4968735696

7b/model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a78c4fa0810702a9449c97c089954101df5dbd1d57fa7a301f43c1b088766b5b
+size 4985504024

7b/model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:808893966b15e3b7ea1b8301994cc364c348dc427022cb5d1079ddfb4dbfc9ce
+size 4951958368

7b/model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f6667ccd0fda67e9c68e1e3004abbde7ac258300009f8817a8cfb731a3290ab
+size 1088148928

7b/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

hf_wav2vec2_features.png ADDED Viewed

Git LFS Details

SHA256: c9f5e7107877fe450bf458044d6bf241e4aba5b72d6dc961c698ebe3edd9a2fa
Pointer size: 131 Bytes
Size of remote file: 354 kB

inference_hf.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from transformers import  Wav2Vec2FeatureExtractor, Wav2Vec2Model
+import sys
+import torch
+import torchinfo
+hf_path = sys.argv[1]
+audio_file = sys.argv[2]
+extract = Wav2Vec2FeatureExtractor.from_pretrained(hf_path)
+hf_model = Wav2Vec2Model.from_pretrained(hf_path)
+torchinfo.summary(hf_model)
+hf_model.eval()
+import torchaudio
+waveform, sample_rate = torchaudio.load(audio_file)
+if waveform.shape[0] > 1:
+    waveform = torch.mean(waveform, dim=0, keepdim=True)
+with torch.no_grad():
+    feat = extract(waveform.squeeze().numpy(), sampling_rate=sample_rate, return_tensors="pt", padding=True)
+    out = hf_model(feat.input_values)
+    last_hidden_states = out.last_hidden_state
+    cnn_out = out.extract_features
+    print("Last hidden states shape:", last_hidden_states.shape)
+    print("CNN features shape:", cnn_out[-1].shape)
+#normalize features for visualization
+import numpy as np
+last_hidden_states = (last_hidden_states - last_hidden_states.min()) / (last_hidden_states.max() - last_hidden_states.min())
+cnn_out = [(feat - feat.min()) / (feat.max() - feat.min()) for feat in cnn_out]
+#apply log scaling
+last_hidden_states = torch.log1p(last_hidden_states * 100)
+cnn_out = [torch.log1p(feat * 100) for feat in cnn_out]
+#visualize output feature maps
+import matplotlib.pyplot as plt
+plt.figure(figsize=(12, 6))
+plt.subplot(2, 1, 1)
+plt.title("Last Hidden States")
+plt.imshow(last_hidden_states[0].cpu().numpy().T, aspect='auto', origin='lower')
+plt.colorbar()
+plt.subplot(2, 1, 2)
+plt.title("CNN Features")
+plt.imshow(cnn_out[-1].cpu().numpy().T, aspect='auto', origin='lower')
+plt.colorbar()
+plt.tight_layout()
+plt.savefig("hf_wav2vec2_features.png")
+plt.close()