Spaces:

LEMAS-Project
/

LEMAS-TTS

Running on Zero

App Files Files Community

Approximetal commited on 12 days ago

Commit

b56983e

verified ·

1 Parent(s): a73b16c

Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

pretrained_models/ckpts/prosody_encoder/expressivity_encoder_key.txt +403 -0
pretrained_models/ckpts/prosody_encoder/pretssel_cfg.json +822 -0
pretrained_models/ckpts/prosody_encoder/pretssel_model.pt +3 -0
pretrained_models/ckpts/prosody_encoder/prosody_UnitY2_keys.txt +1737 -0
pretrained_models/ckpts/prosody_encoder/prosody_encoder_UnitY2.pt +3 -0

pretrained_models/ckpts/prosody_encoder/expressivity_encoder_key.txt ADDED Viewed

	@@ -0,0 +1,403 @@

+encoder.pos_emb_alpha
+encoder.embed_tokens.weight
+encoder.embed_positions._float_tensor
+encoder.fft_layers.0.self_attn.k_proj.weight
+encoder.fft_layers.0.self_attn.k_proj.bias
+encoder.fft_layers.0.self_attn.v_proj.weight
+encoder.fft_layers.0.self_attn.v_proj.bias
+encoder.fft_layers.0.self_attn.q_proj.weight
+encoder.fft_layers.0.self_attn.q_proj.bias
+encoder.fft_layers.0.self_attn.out_proj.weight
+encoder.fft_layers.0.self_attn.out_proj.bias
+encoder.fft_layers.0.layer_norm.weight
+encoder.fft_layers.0.layer_norm.bias
+encoder.fft_layers.0.ffn.ffn.0.weight
+encoder.fft_layers.0.ffn.ffn.0.bias
+encoder.fft_layers.0.ffn.ffn.2.weight
+encoder.fft_layers.0.ffn.ffn.2.bias
+encoder.fft_layers.0.ffn.layer_norm.weight
+encoder.fft_layers.0.ffn.layer_norm.bias
+encoder.fft_layers.0.film.s_gamma
+encoder.fft_layers.0.film.s_beta
+encoder.fft_layers.0.film.proj.weight
+encoder.fft_layers.0.film.proj.bias
+encoder.fft_layers.1.self_attn.k_proj.weight
+encoder.fft_layers.1.self_attn.k_proj.bias
+encoder.fft_layers.1.self_attn.v_proj.weight
+encoder.fft_layers.1.self_attn.v_proj.bias
+encoder.fft_layers.1.self_attn.q_proj.weight
+encoder.fft_layers.1.self_attn.q_proj.bias
+encoder.fft_layers.1.self_attn.out_proj.weight
+encoder.fft_layers.1.self_attn.out_proj.bias
+encoder.fft_layers.1.layer_norm.weight
+encoder.fft_layers.1.layer_norm.bias
+encoder.fft_layers.1.ffn.ffn.0.weight
+encoder.fft_layers.1.ffn.ffn.0.bias
+encoder.fft_layers.1.ffn.ffn.2.weight
+encoder.fft_layers.1.ffn.ffn.2.bias
+encoder.fft_layers.1.ffn.layer_norm.weight
+encoder.fft_layers.1.ffn.layer_norm.bias
+encoder.fft_layers.1.film.s_gamma
+encoder.fft_layers.1.film.s_beta
+encoder.fft_layers.1.film.proj.weight
+encoder.fft_layers.1.film.proj.bias
+encoder.fft_layers.2.self_attn.k_proj.weight
+encoder.fft_layers.2.self_attn.k_proj.bias
+encoder.fft_layers.2.self_attn.v_proj.weight
+encoder.fft_layers.2.self_attn.v_proj.bias
+encoder.fft_layers.2.self_attn.q_proj.weight
+encoder.fft_layers.2.self_attn.q_proj.bias
+encoder.fft_layers.2.self_attn.out_proj.weight
+encoder.fft_layers.2.self_attn.out_proj.bias
+encoder.fft_layers.2.layer_norm.weight
+encoder.fft_layers.2.layer_norm.bias
+encoder.fft_layers.2.ffn.ffn.0.weight
+encoder.fft_layers.2.ffn.ffn.0.bias
+encoder.fft_layers.2.ffn.ffn.2.weight
+encoder.fft_layers.2.ffn.ffn.2.bias
+encoder.fft_layers.2.ffn.layer_norm.weight
+encoder.fft_layers.2.ffn.layer_norm.bias
+encoder.fft_layers.2.film.s_gamma
+encoder.fft_layers.2.film.s_beta
+encoder.fft_layers.2.film.proj.weight
+encoder.fft_layers.2.film.proj.bias
+encoder.fft_layers.3.self_attn.k_proj.weight
+encoder.fft_layers.3.self_attn.k_proj.bias
+encoder.fft_layers.3.self_attn.v_proj.weight
+encoder.fft_layers.3.self_attn.v_proj.bias
+encoder.fft_layers.3.self_attn.q_proj.weight
+encoder.fft_layers.3.self_attn.q_proj.bias
+encoder.fft_layers.3.self_attn.out_proj.weight
+encoder.fft_layers.3.self_attn.out_proj.bias
+encoder.fft_layers.3.layer_norm.weight
+encoder.fft_layers.3.layer_norm.bias
+encoder.fft_layers.3.ffn.ffn.0.weight
+encoder.fft_layers.3.ffn.ffn.0.bias
+encoder.fft_layers.3.ffn.ffn.2.weight
+encoder.fft_layers.3.ffn.ffn.2.bias
+encoder.fft_layers.3.ffn.layer_norm.weight
+encoder.fft_layers.3.ffn.layer_norm.bias
+encoder.fft_layers.3.film.s_gamma
+encoder.fft_layers.3.film.s_beta
+encoder.fft_layers.3.film.proj.weight
+encoder.fft_layers.3.film.proj.bias
+prosody_encoder.blocks.0.conv.weight
+prosody_encoder.blocks.0.conv.bias
+prosody_encoder.blocks.0.norm.weight
+prosody_encoder.blocks.0.norm.bias
+prosody_encoder.blocks.1.tdnn1.conv.weight
+prosody_encoder.blocks.1.tdnn1.conv.bias
+prosody_encoder.blocks.1.tdnn1.norm.weight
+prosody_encoder.blocks.1.tdnn1.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.0.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.0.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.0.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.0.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.1.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.1.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.1.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.1.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.2.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.2.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.2.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.2.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.3.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.3.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.3.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.3.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.4.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.4.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.4.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.4.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.5.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.5.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.5.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.5.norm.bias
+prosody_encoder.blocks.1.res2net_block.blocks.6.conv.weight
+prosody_encoder.blocks.1.res2net_block.blocks.6.conv.bias
+prosody_encoder.blocks.1.res2net_block.blocks.6.norm.weight
+prosody_encoder.blocks.1.res2net_block.blocks.6.norm.bias
+prosody_encoder.blocks.1.tdnn2.conv.weight
+prosody_encoder.blocks.1.tdnn2.conv.bias
+prosody_encoder.blocks.1.tdnn2.norm.weight
+prosody_encoder.blocks.1.tdnn2.norm.bias
+prosody_encoder.blocks.1.se_block.conv1.weight
+prosody_encoder.blocks.1.se_block.conv1.bias
+prosody_encoder.blocks.1.se_block.conv2.weight
+prosody_encoder.blocks.1.se_block.conv2.bias
+prosody_encoder.blocks.2.tdnn1.conv.weight
+prosody_encoder.blocks.2.tdnn1.conv.bias
+prosody_encoder.blocks.2.tdnn1.norm.weight
+prosody_encoder.blocks.2.tdnn1.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.0.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.0.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.0.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.0.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.1.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.1.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.1.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.1.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.2.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.2.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.2.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.2.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.3.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.3.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.3.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.3.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.4.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.4.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.4.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.4.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.5.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.5.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.5.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.5.norm.bias
+prosody_encoder.blocks.2.res2net_block.blocks.6.conv.weight
+prosody_encoder.blocks.2.res2net_block.blocks.6.conv.bias
+prosody_encoder.blocks.2.res2net_block.blocks.6.norm.weight
+prosody_encoder.blocks.2.res2net_block.blocks.6.norm.bias
+prosody_encoder.blocks.2.tdnn2.conv.weight
+prosody_encoder.blocks.2.tdnn2.conv.bias
+prosody_encoder.blocks.2.tdnn2.norm.weight
+prosody_encoder.blocks.2.tdnn2.norm.bias
+prosody_encoder.blocks.2.se_block.conv1.weight
+prosody_encoder.blocks.2.se_block.conv1.bias
+prosody_encoder.blocks.2.se_block.conv2.weight
+prosody_encoder.blocks.2.se_block.conv2.bias
+prosody_encoder.blocks.3.tdnn1.conv.weight
+prosody_encoder.blocks.3.tdnn1.conv.bias
+prosody_encoder.blocks.3.tdnn1.norm.weight
+prosody_encoder.blocks.3.tdnn1.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.0.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.0.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.0.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.0.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.1.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.1.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.1.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.1.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.2.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.2.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.2.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.2.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.3.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.3.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.3.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.3.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.4.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.4.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.4.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.4.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.5.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.5.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.5.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.5.norm.bias
+prosody_encoder.blocks.3.res2net_block.blocks.6.conv.weight
+prosody_encoder.blocks.3.res2net_block.blocks.6.conv.bias
+prosody_encoder.blocks.3.res2net_block.blocks.6.norm.weight
+prosody_encoder.blocks.3.res2net_block.blocks.6.norm.bias
+prosody_encoder.blocks.3.tdnn2.conv.weight
+prosody_encoder.blocks.3.tdnn2.conv.bias
+prosody_encoder.blocks.3.tdnn2.norm.weight
+prosody_encoder.blocks.3.tdnn2.norm.bias
+prosody_encoder.blocks.3.se_block.conv1.weight
+prosody_encoder.blocks.3.se_block.conv1.bias
+prosody_encoder.blocks.3.se_block.conv2.weight
+prosody_encoder.blocks.3.se_block.conv2.bias
+prosody_encoder.mfa.conv.weight
+prosody_encoder.mfa.conv.bias
+prosody_encoder.mfa.norm.weight
+prosody_encoder.mfa.norm.bias
+prosody_encoder.asp.tdnn.conv.weight
+prosody_encoder.asp.tdnn.conv.bias
+prosody_encoder.asp.tdnn.norm.weight
+prosody_encoder.asp.tdnn.norm.bias
+prosody_encoder.asp.conv.weight
+prosody_encoder.asp.conv.bias
+prosody_encoder.asp_norm.weight
+prosody_encoder.asp_norm.bias
+prosody_encoder.fc.weight
+prosody_encoder.fc.bias
+enc_emb_proj.weight
+enc_emb_proj.bias
+embed_lang.weight
+decoder.pos_emb_alpha
+decoder.var_adaptor.duration_predictor.conv1.0.weight
+decoder.var_adaptor.duration_predictor.conv1.0.bias
+decoder.var_adaptor.duration_predictor.ln1.weight
+decoder.var_adaptor.duration_predictor.ln1.bias
+decoder.var_adaptor.duration_predictor.conv2.0.weight
+decoder.var_adaptor.duration_predictor.conv2.0.bias
+decoder.var_adaptor.duration_predictor.ln2.weight
+decoder.var_adaptor.duration_predictor.ln2.bias
+decoder.var_adaptor.duration_predictor.proj.weight
+decoder.var_adaptor.duration_predictor.proj.bias
+decoder.var_adaptor.duration_predictor.film.s_gamma
+decoder.var_adaptor.duration_predictor.film.s_beta
+decoder.var_adaptor.duration_predictor.film.proj.weight
+decoder.var_adaptor.duration_predictor.film.proj.bias
+decoder.var_adaptor.pitch_predictor.conv1.0.weight
+decoder.var_adaptor.pitch_predictor.conv1.0.bias
+decoder.var_adaptor.pitch_predictor.ln1.weight
+decoder.var_adaptor.pitch_predictor.ln1.bias
+decoder.var_adaptor.pitch_predictor.conv2.0.weight
+decoder.var_adaptor.pitch_predictor.conv2.0.bias
+decoder.var_adaptor.pitch_predictor.ln2.weight
+decoder.var_adaptor.pitch_predictor.ln2.bias
+decoder.var_adaptor.pitch_predictor.proj.weight
+decoder.var_adaptor.pitch_predictor.proj.bias
+decoder.var_adaptor.pitch_predictor.film.s_gamma
+decoder.var_adaptor.pitch_predictor.film.s_beta
+decoder.var_adaptor.pitch_predictor.film.proj.weight
+decoder.var_adaptor.pitch_predictor.film.proj.bias
+decoder.var_adaptor.embed_pitch.weight
+decoder.var_adaptor.embed_pitch.bias
+decoder.var_adaptor.vuv_predictor.conv1.0.weight
+decoder.var_adaptor.vuv_predictor.conv1.0.bias
+decoder.var_adaptor.vuv_predictor.ln1.weight
+decoder.var_adaptor.vuv_predictor.ln1.bias
+decoder.var_adaptor.vuv_predictor.conv2.0.weight
+decoder.var_adaptor.vuv_predictor.conv2.0.bias
+decoder.var_adaptor.vuv_predictor.ln2.weight
+decoder.var_adaptor.vuv_predictor.ln2.bias
+decoder.var_adaptor.vuv_predictor.proj.weight
+decoder.var_adaptor.vuv_predictor.proj.bias
+decoder.var_adaptor.vuv_predictor.film.s_gamma
+decoder.var_adaptor.vuv_predictor.film.s_beta
+decoder.var_adaptor.vuv_predictor.film.proj.weight
+decoder.var_adaptor.vuv_predictor.film.proj.bias
+decoder.var_adaptor.energy_predictor.conv1.0.weight
+decoder.var_adaptor.energy_predictor.conv1.0.bias
+decoder.var_adaptor.energy_predictor.ln1.weight
+decoder.var_adaptor.energy_predictor.ln1.bias
+decoder.var_adaptor.energy_predictor.conv2.0.weight
+decoder.var_adaptor.energy_predictor.conv2.0.bias
+decoder.var_adaptor.energy_predictor.ln2.weight
+decoder.var_adaptor.energy_predictor.ln2.bias
+decoder.var_adaptor.energy_predictor.proj.weight
+decoder.var_adaptor.energy_predictor.proj.bias
+decoder.var_adaptor.energy_predictor.film.s_gamma
+decoder.var_adaptor.energy_predictor.film.s_beta
+decoder.var_adaptor.energy_predictor.film.proj.weight
+decoder.var_adaptor.energy_predictor.film.proj.bias
+decoder.var_adaptor.embed_energy.weight
+decoder.var_adaptor.embed_energy.bias
+decoder.embed_positions._float_tensor
+decoder.fft_layers.0.self_attn.k_proj.weight
+decoder.fft_layers.0.self_attn.k_proj.bias
+decoder.fft_layers.0.self_attn.v_proj.weight
+decoder.fft_layers.0.self_attn.v_proj.bias
+decoder.fft_layers.0.self_attn.q_proj.weight
+decoder.fft_layers.0.self_attn.q_proj.bias
+decoder.fft_layers.0.self_attn.out_proj.weight
+decoder.fft_layers.0.self_attn.out_proj.bias
+decoder.fft_layers.0.layer_norm.weight
+decoder.fft_layers.0.layer_norm.bias
+decoder.fft_layers.0.ffn.ffn.0.weight
+decoder.fft_layers.0.ffn.ffn.0.bias
+decoder.fft_layers.0.ffn.ffn.2.weight
+decoder.fft_layers.0.ffn.ffn.2.bias
+decoder.fft_layers.0.ffn.layer_norm.weight
+decoder.fft_layers.0.ffn.layer_norm.bias
+decoder.fft_layers.0.film.s_gamma
+decoder.fft_layers.0.film.s_beta
+decoder.fft_layers.0.film.proj.weight
+decoder.fft_layers.0.film.proj.bias
+decoder.fft_layers.1.self_attn.k_proj.weight
+decoder.fft_layers.1.self_attn.k_proj.bias
+decoder.fft_layers.1.self_attn.v_proj.weight
+decoder.fft_layers.1.self_attn.v_proj.bias
+decoder.fft_layers.1.self_attn.q_proj.weight
+decoder.fft_layers.1.self_attn.q_proj.bias
+decoder.fft_layers.1.self_attn.out_proj.weight
+decoder.fft_layers.1.self_attn.out_proj.bias
+decoder.fft_layers.1.layer_norm.weight
+decoder.fft_layers.1.layer_norm.bias
+decoder.fft_layers.1.ffn.ffn.0.weight
+decoder.fft_layers.1.ffn.ffn.0.bias
+decoder.fft_layers.1.ffn.ffn.2.weight
+decoder.fft_layers.1.ffn.ffn.2.bias
+decoder.fft_layers.1.ffn.layer_norm.weight
+decoder.fft_layers.1.ffn.layer_norm.bias
+decoder.fft_layers.1.film.s_gamma
+decoder.fft_layers.1.film.s_beta
+decoder.fft_layers.1.film.proj.weight
+decoder.fft_layers.1.film.proj.bias
+decoder.fft_layers.2.self_attn.k_proj.weight
+decoder.fft_layers.2.self_attn.k_proj.bias
+decoder.fft_layers.2.self_attn.v_proj.weight
+decoder.fft_layers.2.self_attn.v_proj.bias
+decoder.fft_layers.2.self_attn.q_proj.weight
+decoder.fft_layers.2.self_attn.q_proj.bias
+decoder.fft_layers.2.self_attn.out_proj.weight
+decoder.fft_layers.2.self_attn.out_proj.bias
+decoder.fft_layers.2.layer_norm.weight
+decoder.fft_layers.2.layer_norm.bias
+decoder.fft_layers.2.ffn.ffn.0.weight
+decoder.fft_layers.2.ffn.ffn.0.bias
+decoder.fft_layers.2.ffn.ffn.2.weight
+decoder.fft_layers.2.ffn.ffn.2.bias
+decoder.fft_layers.2.ffn.layer_norm.weight
+decoder.fft_layers.2.ffn.layer_norm.bias
+decoder.fft_layers.2.film.s_gamma
+decoder.fft_layers.2.film.s_beta
+decoder.fft_layers.2.film.proj.weight
+decoder.fft_layers.2.film.proj.bias
+decoder.fft_layers.3.self_attn.k_proj.weight
+decoder.fft_layers.3.self_attn.k_proj.bias
+decoder.fft_layers.3.self_attn.v_proj.weight
+decoder.fft_layers.3.self_attn.v_proj.bias
+decoder.fft_layers.3.self_attn.q_proj.weight
+decoder.fft_layers.3.self_attn.q_proj.bias
+decoder.fft_layers.3.self_attn.out_proj.weight
+decoder.fft_layers.3.self_attn.out_proj.bias
+decoder.fft_layers.3.layer_norm.weight
+decoder.fft_layers.3.layer_norm.bias
+decoder.fft_layers.3.ffn.ffn.0.weight
+decoder.fft_layers.3.ffn.ffn.0.bias
+decoder.fft_layers.3.ffn.ffn.2.weight
+decoder.fft_layers.3.ffn.ffn.2.bias
+decoder.fft_layers.3.ffn.layer_norm.weight
+decoder.fft_layers.3.ffn.layer_norm.bias
+decoder.fft_layers.3.film.s_gamma
+decoder.fft_layers.3.film.s_beta
+decoder.fft_layers.3.film.proj.weight
+decoder.fft_layers.3.film.proj.bias
+decoder.out_proj.weight
+decoder.out_proj.bias
+decoder.postnet.convolutions.0.0.weight
+decoder.postnet.convolutions.0.0.bias
+decoder.postnet.convolutions.0.1.weight
+decoder.postnet.convolutions.0.1.bias
+decoder.postnet.convolutions.0.1.running_mean
+decoder.postnet.convolutions.0.1.running_var
+decoder.postnet.convolutions.0.1.num_batches_tracked
+decoder.postnet.convolutions.1.0.weight
+decoder.postnet.convolutions.1.0.bias
+decoder.postnet.convolutions.1.1.weight
+decoder.postnet.convolutions.1.1.bias
+decoder.postnet.convolutions.1.1.running_mean
+decoder.postnet.convolutions.1.1.running_var
+decoder.postnet.convolutions.1.1.num_batches_tracked
+decoder.postnet.convolutions.2.0.weight
+decoder.postnet.convolutions.2.0.bias
+decoder.postnet.convolutions.2.1.weight
+decoder.postnet.convolutions.2.1.bias
+decoder.postnet.convolutions.2.1.running_mean
+decoder.postnet.convolutions.2.1.running_var
+decoder.postnet.convolutions.2.1.num_batches_tracked
+decoder.postnet.convolutions.3.0.weight
+decoder.postnet.convolutions.3.0.bias
+decoder.postnet.convolutions.3.1.weight
+decoder.postnet.convolutions.3.1.bias
+decoder.postnet.convolutions.3.1.running_mean
+decoder.postnet.convolutions.3.1.running_var
+decoder.postnet.convolutions.3.1.num_batches_tracked
+decoder.postnet.convolutions.4.0.weight
+decoder.postnet.convolutions.4.0.bias
+decoder.postnet.convolutions.4.1.weight
+decoder.postnet.convolutions.4.1.bias
+decoder.postnet.convolutions.4.1.running_mean
+decoder.postnet.convolutions.4.1.running_var
+decoder.postnet.convolutions.4.1.num_batches_tracked

pretrained_models/ckpts/prosody_encoder/pretssel_cfg.json ADDED Viewed

	@@ -0,0 +1,822 @@

+{
+  "_name": null,
+  "common": {
+    "_name": null,
+    "no_progress_bar": false,
+    "log_interval": 100,
+    "log_format": "simple",
+    "log_file": null,
+    "aim_repo": null,
+    "aim_run_hash": null,
+    "tensorboard_logdir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "wandb_project": null,
+    "azureml_logging": false,
+    "seed": 1,
+    "cpu": false,
+    "tpu": false,
+    "bf16": false,
+    "fp16": false,
+    "memory_efficient_fp16": false,
+    "fp16_no_flatten_grads": false,
+    "fp16_init_scale": 128,
+    "fp16_scale_window": null,
+    "fp16_scale_tolerance": 0.0,
+    "on_cpu_convert_precision": false,
+    "min_loss_scale": 0.0001,
+    "threshold_loss_scale": null,
+    "amp": false,
+    "amp_batch_retries": 2,
+    "amp_init_scale": 128,
+    "amp_scale_window": null,
+    "user_dir": null,
+    "empty_cache_freq": 0,
+    "all_gather_list_size": 9999999,
+    "model_parallel_size": 1,
+    "quantization_config_path": null,
+    "profile": false,
+    "reset_logging": false,
+    "suppress_crashes": false,
+    "use_plasma_view": false,
+    "plasma_path": "/tmp/plasma",
+    "log_nvidia_smi": false,
+    "use_tutel_moe": false
+  },
+  "common_eval": {
+    "_name": null,
+    "path": null,
+    "post_process": null,
+    "quiet": false,
+    "model_overrides": "{}",
+    "results_path": null,
+    "is_moe": false,
+    "moe_generation": false
+  },
+  "distributed_training": {
+    "_name": null,
+    "distributed_world_size": 16,
+    "distributed_num_procs": 8,
+    "distributed_rank": 0,
+    "distributed_backend": "nccl",
+    "distributed_init_method": "tcp://learnfair0791:15129",
+    "distributed_port": 15129,
+    "device_id": 0,
+    "distributed_no_spawn": false,
+    "ddp_backend": "legacy_ddp",
+    "ddp_comm_hook": "none",
+    "bucket_cap_mb": 25,
+    "fix_batches_to_gpus": false,
+    "find_unused_parameters": true,
+    "gradient_as_bucket_view": false,
+    "fast_stat_sync": false,
+    "heartbeat_timeout": -1,
+    "broadcast_buffers": false,
+    "slowmo_momentum": null,
+    "slowmo_base_algorithm": "localsgd",
+    "localsgd_frequency": 3,
+    "nprocs_per_node": 8,
+    "pipeline_model_parallel": false,
+    "pipeline_balance": null,
+    "pipeline_devices": null,
+    "pipeline_chunks": 0,
+    "pipeline_encoder_balance": null,
+    "pipeline_encoder_devices": null,
+    "pipeline_decoder_balance": null,
+    "pipeline_decoder_devices": null,
+    "pipeline_checkpoint": "never",
+    "zero_sharding": "none",
+    "fp16": false,
+    "bf16": false,
+    "memory_efficient_fp16": false,
+    "tpu": false,
+    "no_reshard_after_forward": false,
+    "fp32_reduce_scatter": false,
+    "cpu_offload": false,
+    "use_sharded_state": false,
+    "not_fsdp_flatten_parameters": false,
+    "freeze_up_to_layer": null
+  },
+  "dataset": {
+    "_name": null,
+    "num_workers": 0,
+    "num_workers_valid": 0,
+    "skip_invalid_size_inputs_valid_test": true,
+    "max_tokens": 300000,
+    "batch_size": null,
+    "required_batch_size_multiple": 8,
+    "required_seq_len_multiple": 1,
+    "dataset_impl": null,
+    "data_buffer_size": 10,
+    "train_subset": "train_wenet_cmn_9_10,train_wenet_cmn_8_10,train_wenet_cmn_7_10,train_wenet_cmn_6_10,train_wenet_cmn_5_10,train_wenet_cmn_4_10,train_wenet_cmn_3_10,train_wenet_cmn_2_10,train_wenet_cmn_1_10,train_wenet_cmn_0_10,train_mls_en_9_10,train_mls_en_8_10,train_mls_en_7_10,train_mls_en_6_10,train_mls_en_5_10,train_mls_en_4_10,train_mls_en_3_10,train_mls_en_2_10,train_mls_en_1_10,train_mls_en_0_10,train_mls_deu,train_mls_fra,train_mls_spa,train_cv12_cmn,train_mls_ita,train_cv12_cmn_2,train_vl107_cmn",
+    "valid_subset": "dev_all",
+    "combine_valid_subsets": null,
+    "ignore_unused_valid_subsets": false,
+    "validate_interval": 1,
+    "validate_interval_updates": 5000,
+    "validate_after_updates": 0,
+    "fixed_validation_seed": null,
+    "disable_validation": false,
+    "max_tokens_valid": 300000,
+    "batch_size_valid": null,
+    "max_valid_steps": null,
+    "curriculum": 0,
+    "gen_subset": "test",
+    "num_shards": 1,
+    "shard_id": 0,
+    "grouped_shuffling": false,
+    "update_epoch_batch_itr": false,
+    "update_ordered_indices_seed": false
+  },
+  "optimization": {
+    "_name": null,
+    "max_epoch": 0,
+    "max_update": 500000,
+    "stop_time_hours": 0.0,
+    "clip_norm": 1.0,
+    "clip_norm_type": "l2",
+    "sentence_avg": false,
+    "update_freq": [
+      4
+    ],
+    "lr": [
+      0.0001
+    ],
+    "stop_min_lr": -1.0,
+    "use_bmuf": false,
+    "skip_remainder_batch": false
+  },
+  "checkpoint": {
+    "_name": null,
+    "save_dir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "restore_file": "checkpoint_last.pt",
+    "continue_once": null,
+    "finetune_from_model": null,
+    "ignore_suffix": false,
+    "reset_dataloader": true,
+    "reset_lr_scheduler": false,
+    "reset_meters": false,
+    "reset_optimizer": false,
+    "optimizer_overrides": "{}",
+    "save_interval": 1,
+    "save_interval_updates": 10000,
+    "keep_interval_updates": 1,
+    "keep_interval_updates_pattern": -1,
+    "keep_last_epochs": -1,
+    "keep_best_checkpoints": 10,
+    "no_save": false,
+    "no_epoch_checkpoints": true,
+    "no_last_checkpoints": false,
+    "no_best_checkpoints": false,
+    "no_save_optimizer_state": false,
+    "no_save_optimizer_state_on_training_finished": false,
+    "synchronize_checkpoints_before_copy": false,
+    "symlink_best_and_last_checkpoints": false,
+    "best_checkpoint_metric": "mse_loss",
+    "maximize_best_checkpoint_metric": false,
+    "patience": 20,
+    "checkpoint_suffix": "",
+    "checkpoint_shard_count": 1,
+    "load_checkpoint_on_all_dp_ranks": false,
+    "write_checkpoints_asynchronously": false,
+    "s3_upload_path": null,
+    "replication_count": 1,
+    "model_parallel_size": 1
+  },
+  "bmuf": {
+    "_name": null,
+    "block_lr": 1.0,
+    "block_momentum": 0.875,
+    "global_sync_iter": 50,
+    "warmup_iterations": 500,
+    "use_nbm": false,
+    "average_sync": false,
+    "distributed_world_size": 16
+  },
+  "generation": {
+    "_name": null,
+    "beam": 5,
+    "beam_mt": 0,
+    "nbest": 1,
+    "max_len_a": 0.0,
+    "max_len_b": 200,
+    "max_len_a_mt": 0.0,
+    "max_len_b_mt": 200,
+    "min_len": 1,
+    "match_source_len": false,
+    "unnormalized": false,
+    "no_early_stop": false,
+    "no_beamable_mm": false,
+    "lenpen": 1.0,
+    "lenpen_mt": 1.0,
+    "unkpen": 0.0,
+    "blankpen": 0.0,
+    "replace_unk": null,
+    "sacrebleu": false,
+    "score_reference": false,
+    "prefix_size": 0,
+    "no_repeat_ngram_size": 0,
+    "sampling": false,
+    "sampling_topk": -1,
+    "sampling_topp": -1.0,
+    "constraints": null,
+    "temperature": 1.0,
+    "diverse_beam_groups": -1,
+    "diverse_beam_strength": 0.5,
+    "diversity_rate": -1.0,
+    "print_alignment": null,
+    "print_step": false,
+    "lm_path": null,
+    "lm_weight": 0.0,
+    "iter_decode_eos_penalty": 0.0,
+    "iter_decode_max_iter": 10,
+    "iter_decode_force_max_iter": false,
+    "iter_decode_with_beam": 1,
+    "iter_decode_with_external_reranker": false,
+    "retain_iter_history": false,
+    "retain_dropout": false,
+    "retain_dropout_modules": null,
+    "decoding_format": null,
+    "no_seed_provided": false,
+    "eos_token": null
+  },
+  "eval_lm": {
+    "_name": null,
+    "output_word_probs": false,
+    "output_word_stats": false,
+    "context_window": 0,
+    "softmax_batch": 9223372036854775807,
+    "stats_path": null,
+    "max_valid_steps": null
+  },
+  "interactive": {
+    "_name": null,
+    "buffer_size": 0,
+    "input": "-"
+  },
+  "model": {
+    "no_progress_bar": false,
+    "log_interval": 100,
+    "log_format": "simple",
+    "log_file": null,
+    "aim_repo": null,
+    "aim_run_hash": null,
+    "tensorboard_logdir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "wandb_project": null,
+    "azureml_logging": false,
+    "seed": 1,
+    "cpu": false,
+    "tpu": false,
+    "bf16": false,
+    "fp16": false,
+    "memory_efficient_fp16": false,
+    "fp16_no_flatten_grads": false,
+    "fp16_init_scale": 128,
+    "fp16_scale_window": null,
+    "fp16_scale_tolerance": 0.0,
+    "on_cpu_convert_precision": false,
+    "min_loss_scale": 0.0001,
+    "threshold_loss_scale": null,
+    "amp": false,
+    "amp_batch_retries": 2,
+    "amp_init_scale": 128,
+    "amp_scale_window": null,
+    "user_dir": null,
+    "empty_cache_freq": 0,
+    "all_gather_list_size": 9999999,
+    "model_parallel_size": 1,
+    "quantization_config_path": null,
+    "profile": false,
+    "reset_logging": false,
+    "suppress_crashes": false,
+    "use_plasma_view": false,
+    "plasma_path": "/tmp/plasma",
+    "log_nvidia_smi": false,
+    "use_tutel_moe": false,
+    "tokenizer": null,
+    "bpe": null,
+    "optimizer": "adam",
+    "lr_scheduler": "fixed",
+    "simul_type": null,
+    "criterion": "nar_prosody2vec",
+    "scoring": "bleu",
+    "task": "prosody2vec",
+    "num_workers": 0,
+    "num_workers_valid": 0,
+    "skip_invalid_size_inputs_valid_test": true,
+    "max_tokens": 300000,
+    "batch_size": null,
+    "required_batch_size_multiple": 8,
+    "required_seq_len_multiple": 1,
+    "dataset_impl": null,
+    "data_buffer_size": 10,
+    "train_subset": "train_wenet_cmn_9_10,train_wenet_cmn_8_10,train_wenet_cmn_7_10,train_wenet_cmn_6_10,train_wenet_cmn_5_10,train_wenet_cmn_4_10,train_wenet_cmn_3_10,train_wenet_cmn_2_10,train_wenet_cmn_1_10,train_wenet_cmn_0_10,train_mls_en_9_10,train_mls_en_8_10,train_mls_en_7_10,train_mls_en_6_10,train_mls_en_5_10,train_mls_en_4_10,train_mls_en_3_10,train_mls_en_2_10,train_mls_en_1_10,train_mls_en_0_10,train_mls_deu,train_mls_fra,train_mls_spa,train_cv12_cmn,train_mls_ita,train_cv12_cmn_2,train_vl107_cmn",
+    "valid_subset": "dev_all",
+    "combine_valid_subsets": null,
+    "ignore_unused_valid_subsets": false,
+    "validate_interval": 1,
+    "validate_interval_updates": 5000,
+    "validate_after_updates": 0,
+    "fixed_validation_seed": null,
+    "disable_validation": false,
+    "max_tokens_valid": "300000",
+    "batch_size_valid": null,
+    "max_valid_steps": null,
+    "curriculum": 0,
+    "gen_subset": "test",
+    "num_shards": 1,
+    "shard_id": 0,
+    "grouped_shuffling": false,
+    "update_epoch_batch_itr": false,
+    "update_ordered_indices_seed": false,
+    "distributed_world_size": 16,
+    "distributed_num_procs": 8,
+    "distributed_rank": 0,
+    "distributed_backend": "nccl",
+    "distributed_init_method": null,
+    "distributed_port": 15129,
+    "device_id": 0,
+    "distributed_no_spawn": false,
+    "ddp_backend": "legacy_ddp",
+    "ddp_comm_hook": "none",
+    "bucket_cap_mb": 25,
+    "fix_batches_to_gpus": false,
+    "find_unused_parameters": true,
+    "gradient_as_bucket_view": false,
+    "fast_stat_sync": false,
+    "heartbeat_timeout": -1,
+    "broadcast_buffers": false,
+    "slowmo_momentum": null,
+    "slowmo_base_algorithm": "localsgd",
+    "localsgd_frequency": 3,
+    "nprocs_per_node": 8,
+    "pipeline_model_parallel": false,
+    "pipeline_balance": null,
+    "pipeline_devices": null,
+    "pipeline_chunks": 0,
+    "pipeline_encoder_balance": null,
+    "pipeline_encoder_devices": null,
+    "pipeline_decoder_balance": null,
+    "pipeline_decoder_devices": null,
+    "pipeline_checkpoint": "never",
+    "zero_sharding": "none",
+    "no_reshard_after_forward": false,
+    "fp32_reduce_scatter": false,
+    "cpu_offload": false,
+    "use_sharded_state": false,
+    "not_fsdp_flatten_parameters": false,
+    "freeze_up_to_layer": null,
+    "arch": "nar_p2v",
+    "max_epoch": 0,
+    "max_update": 500000,
+    "stop_time_hours": 0,
+    "clip_norm": 1.0,
+    "clip_norm_type": "l2",
+    "sentence_avg": false,
+    "update_freq": [
+      4
+    ],
+    "lr": [
+      0.0001
+    ],
+    "stop_min_lr": -1.0,
+    "use_bmuf": false,
+    "skip_remainder_batch": false,
+    "save_dir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "restore_file": "checkpoint_last.pt",
+    "continue_once": null,
+    "finetune_from_model": null,
+    "ignore_suffix": false,
+    "reset_dataloader": true,
+    "reset_lr_scheduler": false,
+    "reset_meters": false,
+    "reset_optimizer": false,
+    "optimizer_overrides": "{}",
+    "save_interval": 1,
+    "save_interval_updates": 10000,
+    "keep_interval_updates": 1,
+    "keep_interval_updates_pattern": -1,
+    "keep_last_epochs": -1,
+    "keep_best_checkpoints": 10,
+    "no_save": false,
+    "no_epoch_checkpoints": true,
+    "no_last_checkpoints": false,
+    "no_best_checkpoints": false,
+    "no_save_optimizer_state": false,
+    "no_save_optimizer_state_on_training_finished": false,
+    "synchronize_checkpoints_before_copy": false,
+    "symlink_best_and_last_checkpoints": false,
+    "best_checkpoint_metric": "mse_loss",
+    "maximize_best_checkpoint_metric": false,
+    "patience": 20,
+    "checkpoint_suffix": "",
+    "checkpoint_shard_count": 1,
+    "load_checkpoint_on_all_dp_ranks": false,
+    "write_checkpoints_asynchronously": false,
+    "s3_upload_path": null,
+    "replication_count": 1,
+    "store_ema": false,
+    "ema_decay": 0.9999,
+    "ema_start_update": 0,
+    "ema_seed_model": null,
+    "ema_update_freq": 1,
+    "ema_fp32": false,
+    "load_prosody_encoder_from": null,
+    "freeze_prosody_encoder": false,
+    "unit_encoder_arch": "daft_exprt_encoder",
+    "prosody_encoder_arch": "ecapa_tdnn2",
+    "decoder_arch": "daft_exprt_decoder",
+    "data": "/large_experiments/seamless/ust/mjhwang/data/denoise_prosody2vec/mls_multilingual_6lang_xlsr_10k_noiseaug",
+    "config_yaml": "config_v2.yaml",
+    "max_source_positions": 300000,
+    "max_target_positions": 300000,
+    "n_frames_per_step": 1,
+    "eos_prob_threshold": 0.5,
+    "eval_inference": true,
+    "eval_tb_nsample": 8,
+    "eval_bleu": false,
+    "vocoder": "griffin_lim",
+    "spec_bwd_max_iter": 8,
+    "jit_data_offloading": true,
+    "jit_data_root": "/scratch/slurm_tmpdir/${SLURM_JOB_ID}",
+    "adam_betas": "(0.9, 0.98)",
+    "adam_eps": 1e-08,
+    "weight_decay": 0.0,
+    "use_old_adam": false,
+    "fp16_adam_stats": false,
+    "block_wise": false,
+    "force_anneal": null,
+    "lr_shrink": 0.1,
+    "warmup_updates": 1000,
+    "ctc_weight": 0.0,
+    "forward_sum_weight": 1.0,
+    "bin_loss_start_ratio": 0.1,
+    "bin_loss_warmup_steps": 6000,
+    "film_regul_weight": 0.001,
+    "pros_consist_weight": 0.0,
+    "denoise_target": true,
+    "snr_threshold": 2000000000000000.0,
+    "pad": 1,
+    "eos": 2,
+    "unk": 3,
+    "use_spkr_emb": 0,
+    "use_lang_emb": 1,
+    "prosody_embed_dim": 512,
+    "use_ucmvn": 0,
+    "use_spec_augment": 1,
+    "use_prosody_layernorm": 1,
+    "var_pred_hidden_dim": 512,
+    "var_pred_kernel_size": 5,
+    "var_pred_n_bins": -1,
+    "add_variance_parallel": 1,
+    "use_film_decoder": 1,
+    "predict_var_vuv": 1,
+    "predict_vuv_logit": 1,
+    "predict_frm_f0_vuv": 0,
+    "no_seed_provided": false,
+    "speaker_embed_dim": 192,
+    "use_utterance_speaker_embed": false,
+    "lang_embed_dim": 64,
+    "_name": "nar_p2v",
+    "lang_to_id": {
+      "cmn": 0,
+      "deu": 1,
+      "eng": 2,
+      "fra": 3,
+      "ita": 4,
+      "spa": 5
+    },
+    "pitch_min": 0.0,
+    "pitch_max": 6.858574643755327,
+    "energy_min": 0.0,
+    "energy_max": 6.360039234161377,
+    "speaker_emb_path": null,
+    "input_feat_per_channel": 80,
+    "input_channels": 1,
+    "speaker_to_id": null,
+    "dropout": 0.2,
+    "fft_hidden_dim": 1024,
+    "fft_kernel_size": 9,
+    "attention_dropout": 0.0,
+    "encoder_layers": 4,
+    "encoder_embed_dim": 256,
+    "encoder_attention_heads": 2,
+    "output_frame_dim": 80,
+    "prosody_channels": [
+      512,
+      512,
+      512,
+      512,
+      1536
+    ],
+    "prosody_kernel_sizes": [
+      5,
+      3,
+      3,
+      3,
+      1
+    ],
+    "prosody_dilations": [
+      1,
+      2,
+      3,
+      4,
+      1
+    ],
+    "prosody_attention_channels": 128,
+    "prosody_res2net_scale": 8,
+    "prosody_se_channels": 128,
+    "prosody_global_context": true,
+    "prosody_groups": [
+      1,
+      1,
+      1,
+      1,
+      1
+    ],
+    "decoder_layers": 4,
+    "decoder_embed_dim": 256,
+    "decoder_attention_heads": 2,
+    "var_pred_dropout": 0.5,
+    "add_postnet": true,
+    "postnet_dropout": 0.5,
+    "postnet_layers": 5,
+    "postnet_conv_dim": 512,
+    "postnet_conv_kernel_size": 5,
+    "upsampling": "gaussian"
+  },
+  "task": {
+    "no_progress_bar": false,
+    "log_interval": 100,
+    "log_format": "simple",
+    "log_file": null,
+    "aim_repo": null,
+    "aim_run_hash": null,
+    "tensorboard_logdir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "wandb_project": null,
+    "azureml_logging": false,
+    "seed": 1,
+    "cpu": false,
+    "tpu": false,
+    "bf16": false,
+    "fp16": false,
+    "memory_efficient_fp16": false,
+    "fp16_no_flatten_grads": false,
+    "fp16_init_scale": 128,
+    "fp16_scale_window": null,
+    "fp16_scale_tolerance": 0.0,
+    "on_cpu_convert_precision": false,
+    "min_loss_scale": 0.0001,
+    "threshold_loss_scale": null,
+    "amp": false,
+    "amp_batch_retries": 2,
+    "amp_init_scale": 128,
+    "amp_scale_window": null,
+    "user_dir": null,
+    "empty_cache_freq": 0,
+    "all_gather_list_size": 9999999,
+    "model_parallel_size": 1,
+    "quantization_config_path": null,
+    "profile": false,
+    "reset_logging": false,
+    "suppress_crashes": false,
+    "use_plasma_view": false,
+    "plasma_path": "/tmp/plasma",
+    "log_nvidia_smi": false,
+    "use_tutel_moe": false,
+    "tokenizer": null,
+    "bpe": null,
+    "optimizer": "adam",
+    "lr_scheduler": "fixed",
+    "simul_type": null,
+    "criterion": "nar_prosody2vec",
+    "scoring": "bleu",
+    "task": "prosody2vec",
+    "num_workers": 0,
+    "num_workers_valid": 0,
+    "skip_invalid_size_inputs_valid_test": true,
+    "max_tokens": 300000,
+    "batch_size": null,
+    "required_batch_size_multiple": 8,
+    "required_seq_len_multiple": 1,
+    "dataset_impl": null,
+    "data_buffer_size": 10,
+    "train_subset": "train_wenet_cmn_9_10,train_wenet_cmn_8_10,train_wenet_cmn_7_10,train_wenet_cmn_6_10,train_wenet_cmn_5_10,train_wenet_cmn_4_10,train_wenet_cmn_3_10,train_wenet_cmn_2_10,train_wenet_cmn_1_10,train_wenet_cmn_0_10,train_mls_en_9_10,train_mls_en_8_10,train_mls_en_7_10,train_mls_en_6_10,train_mls_en_5_10,train_mls_en_4_10,train_mls_en_3_10,train_mls_en_2_10,train_mls_en_1_10,train_mls_en_0_10,train_mls_deu,train_mls_fra,train_mls_spa,train_cv12_cmn,train_mls_ita,train_cv12_cmn_2,train_vl107_cmn",
+    "valid_subset": "dev_all",
+    "combine_valid_subsets": null,
+    "ignore_unused_valid_subsets": false,
+    "validate_interval": 1,
+    "validate_interval_updates": 5000,
+    "validate_after_updates": 0,
+    "fixed_validation_seed": null,
+    "disable_validation": false,
+    "max_tokens_valid": "300000",
+    "batch_size_valid": null,
+    "max_valid_steps": null,
+    "curriculum": 0,
+    "gen_subset": "test",
+    "num_shards": 1,
+    "shard_id": 0,
+    "grouped_shuffling": false,
+    "update_epoch_batch_itr": false,
+    "update_ordered_indices_seed": false,
+    "distributed_world_size": 16,
+    "distributed_num_procs": 8,
+    "distributed_rank": 0,
+    "distributed_backend": "nccl",
+    "distributed_init_method": null,
+    "distributed_port": 15129,
+    "device_id": 0,
+    "distributed_no_spawn": false,
+    "ddp_backend": "legacy_ddp",
+    "ddp_comm_hook": "none",
+    "bucket_cap_mb": 25,
+    "fix_batches_to_gpus": false,
+    "find_unused_parameters": true,
+    "gradient_as_bucket_view": false,
+    "fast_stat_sync": false,
+    "heartbeat_timeout": -1,
+    "broadcast_buffers": false,
+    "slowmo_momentum": null,
+    "slowmo_base_algorithm": "localsgd",
+    "localsgd_frequency": 3,
+    "nprocs_per_node": 8,
+    "pipeline_model_parallel": false,
+    "pipeline_balance": null,
+    "pipeline_devices": null,
+    "pipeline_chunks": 0,
+    "pipeline_encoder_balance": null,
+    "pipeline_encoder_devices": null,
+    "pipeline_decoder_balance": null,
+    "pipeline_decoder_devices": null,
+    "pipeline_checkpoint": "never",
+    "zero_sharding": "none",
+    "no_reshard_after_forward": false,
+    "fp32_reduce_scatter": false,
+    "cpu_offload": false,
+    "use_sharded_state": false,
+    "not_fsdp_flatten_parameters": false,
+    "freeze_up_to_layer": null,
+    "arch": "nar_p2v",
+    "max_epoch": 0,
+    "max_update": 500000,
+    "stop_time_hours": 0,
+    "clip_norm": 1.0,
+    "clip_norm_type": "l2",
+    "sentence_avg": false,
+    "update_freq": [
+      4
+    ],
+    "lr": [
+      0.0001
+    ],
+    "stop_min_lr": -1.0,
+    "use_bmuf": false,
+    "skip_remainder_batch": false,
+    "save_dir": "/checkpoint/mjhwang/experiments/230930-noiseaug_p2v-mls_multilingual_6lang/231005-noiseaug_p2v-mls_multilingual_6lang-alignfix.config_v2.langemb1.vuv_logit1.denoise.ngpu16",
+    "restore_file": "checkpoint_last.pt",
+    "continue_once": null,
+    "finetune_from_model": null,
+    "ignore_suffix": false,
+    "reset_dataloader": true,
+    "reset_lr_scheduler": false,
+    "reset_meters": false,
+    "reset_optimizer": false,
+    "optimizer_overrides": "{}",
+    "save_interval": 1,
+    "save_interval_updates": 10000,
+    "keep_interval_updates": 1,
+    "keep_interval_updates_pattern": -1,
+    "keep_last_epochs": -1,
+    "keep_best_checkpoints": 10,
+    "no_save": false,
+    "no_epoch_checkpoints": true,
+    "no_last_checkpoints": false,
+    "no_best_checkpoints": false,
+    "no_save_optimizer_state": false,
+    "no_save_optimizer_state_on_training_finished": false,
+    "synchronize_checkpoints_before_copy": false,
+    "symlink_best_and_last_checkpoints": false,
+    "best_checkpoint_metric": "mse_loss",
+    "maximize_best_checkpoint_metric": false,
+    "patience": 20,
+    "checkpoint_suffix": "",
+    "checkpoint_shard_count": 1,
+    "load_checkpoint_on_all_dp_ranks": false,
+    "write_checkpoints_asynchronously": false,
+    "s3_upload_path": null,
+    "replication_count": 1,
+    "store_ema": false,
+    "ema_decay": 0.9999,
+    "ema_start_update": 0,
+    "ema_seed_model": null,
+    "ema_update_freq": 1,
+    "ema_fp32": false,
+    "load_prosody_encoder_from": null,
+    "freeze_prosody_encoder": false,
+    "unit_encoder_arch": "daft_exprt_encoder",
+    "prosody_encoder_arch": "ecapa_tdnn2",
+    "decoder_arch": "daft_exprt_decoder",
+    "data": "/large_experiments/seamless/ust/mjhwang/data/denoise_prosody2vec/mls_multilingual_6lang_xlsr_10k_noiseaug",
+    "config_yaml": "config_v2.yaml",
+    "max_source_positions": 300000,
+    "max_target_positions": 300000,
+    "n_frames_per_step": 1,
+    "eos_prob_threshold": 0.5,
+    "eval_inference": true,
+    "eval_tb_nsample": 8,
+    "eval_bleu": false,
+    "vocoder": "griffin_lim",
+    "spec_bwd_max_iter": 8,
+    "jit_data_offloading": true,
+    "jit_data_root": "/scratch/slurm_tmpdir/${SLURM_JOB_ID}",
+    "adam_betas": "(0.9, 0.98)",
+    "adam_eps": 1e-08,
+    "weight_decay": 0.0,
+    "use_old_adam": false,
+    "fp16_adam_stats": false,
+    "block_wise": false,
+    "force_anneal": null,
+    "lr_shrink": 0.1,
+    "warmup_updates": 1000,
+    "ctc_weight": 0.0,
+    "forward_sum_weight": 1.0,
+    "bin_loss_start_ratio": 0.1,
+    "bin_loss_warmup_steps": 6000,
+    "film_regul_weight": 0.001,
+    "pros_consist_weight": 0.0,
+    "denoise_target": true,
+    "snr_threshold": 2000000000000000.0,
+    "pad": 1,
+    "eos": 2,
+    "unk": 3,
+    "use_spkr_emb": 0,
+    "use_lang_emb": 1,
+    "prosody_embed_dim": 512,
+    "use_ucmvn": 0,
+    "use_spec_augment": 1,
+    "use_prosody_layernorm": 1,
+    "var_pred_hidden_dim": 512,
+    "var_pred_kernel_size": 5,
+    "var_pred_n_bins": -1,
+    "add_variance_parallel": 1,
+    "use_film_decoder": 1,
+    "predict_var_vuv": 1,
+    "predict_vuv_logit": 1,
+    "predict_frm_f0_vuv": 0,
+    "no_seed_provided": false,
+    "speaker_embed_dim": 192,
+    "use_utterance_speaker_embed": false,
+    "lang_embed_dim": 64,
+    "_name": "prosody2vec"
+  },
+  "criterion": {
+    "_name": "nar_prosody2vec",
+    "ctc_weight": 0.0,
+    "forward_sum_weight": 1.0,
+    "bin_loss_start_ratio": 0.1,
+    "bin_loss_warmup_steps": 6000,
+    "film_regul_weight": 0.001,
+    "pros_consist_weight": 0.0,
+    "denoise_target": true,
+    "snr_threshold": 2000000000000000.0
+  },
+  "optimizer": {
+    "_name": "adam",
+    "adam_betas": "(0.9, 0.98)",
+    "adam_eps": 1e-08,
+    "weight_decay": 0.0,
+    "use_old_adam": false,
+    "fp16_adam_stats": false,
+    "tpu": false,
+    "lr": [
+      0.0001
+    ],
+    "block_wise": false
+  },
+  "lr_scheduler": {
+    "_name": "fixed",
+    "force_anneal": null,
+    "lr_shrink": 0.1,
+    "warmup_updates": 1000,
+    "lr": [
+      0.0001
+    ]
+  },
+  "scoring": {
+    "_name": "bleu",
+    "pad": 1,
+    "eos": 2,
+    "unk": 3
+  },
+  "bpe": null,
+  "tokenizer": null,
+  "ema": {
+    "_name": null,
+    "store_ema": false,
+    "ema_decay": 0.9999,
+    "ema_start_update": 0,
+    "ema_seed_model": null,
+    "ema_update_freq": 1,
+    "ema_fp32": false
+  },
+  "simul_type": null
+}

pretrained_models/ckpts/prosody_encoder/pretssel_model.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8cc4824bf5506ce2a34b3d32d237451244ed97e89395ef7881edb1d3b72f1fa
+size 267306349

pretrained_models/ckpts/prosody_encoder/prosody_UnitY2_keys.txt ADDED Viewed

	@@ -0,0 +1,1737 @@

+speech_encoder_frontend.model_dim_proj.weight
+speech_encoder_frontend.model_dim_proj.bias
+speech_encoder.inner.layers.0.self_attn_layer_norm.weight
+speech_encoder.inner.layers.0.self_attn_layer_norm.bias
+speech_encoder.inner.layers.0.self_attn.k_proj.weight
+speech_encoder.inner.layers.0.self_attn.k_proj.bias
+speech_encoder.inner.layers.0.self_attn.v_proj.weight
+speech_encoder.inner.layers.0.self_attn.v_proj.bias
+speech_encoder.inner.layers.0.self_attn.q_proj.weight
+speech_encoder.inner.layers.0.self_attn.q_proj.bias
+speech_encoder.inner.layers.0.self_attn.output_proj.weight
+speech_encoder.inner.layers.0.self_attn.output_proj.bias
+speech_encoder.inner.layers.0.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.0.conv_layer_norm.weight
+speech_encoder.inner.layers.0.conv_layer_norm.bias
+speech_encoder.inner.layers.0.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.0.conv.depthwise_conv.weight
+speech_encoder.inner.layers.0.conv.layer_norm.weight
+speech_encoder.inner.layers.0.conv.layer_norm.bias
+speech_encoder.inner.layers.0.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.0.ffn1_layer_norm.weight
+speech_encoder.inner.layers.0.ffn1_layer_norm.bias
+speech_encoder.inner.layers.0.ffn1.inner_proj.weight
+speech_encoder.inner.layers.0.ffn1.inner_proj.bias
+speech_encoder.inner.layers.0.ffn1.output_proj.weight
+speech_encoder.inner.layers.0.ffn1.output_proj.bias
+speech_encoder.inner.layers.0.ffn2_layer_norm.weight
+speech_encoder.inner.layers.0.ffn2_layer_norm.bias
+speech_encoder.inner.layers.0.ffn2.inner_proj.weight
+speech_encoder.inner.layers.0.ffn2.inner_proj.bias
+speech_encoder.inner.layers.0.ffn2.output_proj.weight
+speech_encoder.inner.layers.0.ffn2.output_proj.bias
+speech_encoder.inner.layers.0.layer_norm.weight
+speech_encoder.inner.layers.0.layer_norm.bias
+speech_encoder.inner.layers.1.self_attn_layer_norm.weight
+speech_encoder.inner.layers.1.self_attn_layer_norm.bias
+speech_encoder.inner.layers.1.self_attn.k_proj.weight
+speech_encoder.inner.layers.1.self_attn.k_proj.bias
+speech_encoder.inner.layers.1.self_attn.v_proj.weight
+speech_encoder.inner.layers.1.self_attn.v_proj.bias
+speech_encoder.inner.layers.1.self_attn.q_proj.weight
+speech_encoder.inner.layers.1.self_attn.q_proj.bias
+speech_encoder.inner.layers.1.self_attn.output_proj.weight
+speech_encoder.inner.layers.1.self_attn.output_proj.bias
+speech_encoder.inner.layers.1.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.1.conv_layer_norm.weight
+speech_encoder.inner.layers.1.conv_layer_norm.bias
+speech_encoder.inner.layers.1.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.1.conv.depthwise_conv.weight
+speech_encoder.inner.layers.1.conv.layer_norm.weight
+speech_encoder.inner.layers.1.conv.layer_norm.bias
+speech_encoder.inner.layers.1.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.1.ffn1_layer_norm.weight
+speech_encoder.inner.layers.1.ffn1_layer_norm.bias
+speech_encoder.inner.layers.1.ffn1.inner_proj.weight
+speech_encoder.inner.layers.1.ffn1.inner_proj.bias
+speech_encoder.inner.layers.1.ffn1.output_proj.weight
+speech_encoder.inner.layers.1.ffn1.output_proj.bias
+speech_encoder.inner.layers.1.ffn2_layer_norm.weight
+speech_encoder.inner.layers.1.ffn2_layer_norm.bias
+speech_encoder.inner.layers.1.ffn2.inner_proj.weight
+speech_encoder.inner.layers.1.ffn2.inner_proj.bias
+speech_encoder.inner.layers.1.ffn2.output_proj.weight
+speech_encoder.inner.layers.1.ffn2.output_proj.bias
+speech_encoder.inner.layers.1.layer_norm.weight
+speech_encoder.inner.layers.1.layer_norm.bias
+speech_encoder.inner.layers.2.self_attn_layer_norm.weight
+speech_encoder.inner.layers.2.self_attn_layer_norm.bias
+speech_encoder.inner.layers.2.self_attn.k_proj.weight
+speech_encoder.inner.layers.2.self_attn.k_proj.bias
+speech_encoder.inner.layers.2.self_attn.v_proj.weight
+speech_encoder.inner.layers.2.self_attn.v_proj.bias
+speech_encoder.inner.layers.2.self_attn.q_proj.weight
+speech_encoder.inner.layers.2.self_attn.q_proj.bias
+speech_encoder.inner.layers.2.self_attn.output_proj.weight
+speech_encoder.inner.layers.2.self_attn.output_proj.bias
+speech_encoder.inner.layers.2.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.2.conv_layer_norm.weight
+speech_encoder.inner.layers.2.conv_layer_norm.bias
+speech_encoder.inner.layers.2.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.2.conv.depthwise_conv.weight
+speech_encoder.inner.layers.2.conv.layer_norm.weight
+speech_encoder.inner.layers.2.conv.layer_norm.bias
+speech_encoder.inner.layers.2.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.2.ffn1_layer_norm.weight
+speech_encoder.inner.layers.2.ffn1_layer_norm.bias
+speech_encoder.inner.layers.2.ffn1.inner_proj.weight
+speech_encoder.inner.layers.2.ffn1.inner_proj.bias
+speech_encoder.inner.layers.2.ffn1.output_proj.weight
+speech_encoder.inner.layers.2.ffn1.output_proj.bias
+speech_encoder.inner.layers.2.ffn2_layer_norm.weight
+speech_encoder.inner.layers.2.ffn2_layer_norm.bias
+speech_encoder.inner.layers.2.ffn2.inner_proj.weight
+speech_encoder.inner.layers.2.ffn2.inner_proj.bias
+speech_encoder.inner.layers.2.ffn2.output_proj.weight
+speech_encoder.inner.layers.2.ffn2.output_proj.bias
+speech_encoder.inner.layers.2.layer_norm.weight
+speech_encoder.inner.layers.2.layer_norm.bias
+speech_encoder.inner.layers.3.self_attn_layer_norm.weight
+speech_encoder.inner.layers.3.self_attn_layer_norm.bias
+speech_encoder.inner.layers.3.self_attn.k_proj.weight
+speech_encoder.inner.layers.3.self_attn.k_proj.bias
+speech_encoder.inner.layers.3.self_attn.v_proj.weight
+speech_encoder.inner.layers.3.self_attn.v_proj.bias
+speech_encoder.inner.layers.3.self_attn.q_proj.weight
+speech_encoder.inner.layers.3.self_attn.q_proj.bias
+speech_encoder.inner.layers.3.self_attn.output_proj.weight
+speech_encoder.inner.layers.3.self_attn.output_proj.bias
+speech_encoder.inner.layers.3.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.3.conv_layer_norm.weight
+speech_encoder.inner.layers.3.conv_layer_norm.bias
+speech_encoder.inner.layers.3.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.3.conv.depthwise_conv.weight
+speech_encoder.inner.layers.3.conv.layer_norm.weight
+speech_encoder.inner.layers.3.conv.layer_norm.bias
+speech_encoder.inner.layers.3.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.3.ffn1_layer_norm.weight
+speech_encoder.inner.layers.3.ffn1_layer_norm.bias
+speech_encoder.inner.layers.3.ffn1.inner_proj.weight
+speech_encoder.inner.layers.3.ffn1.inner_proj.bias
+speech_encoder.inner.layers.3.ffn1.output_proj.weight
+speech_encoder.inner.layers.3.ffn1.output_proj.bias
+speech_encoder.inner.layers.3.ffn2_layer_norm.weight
+speech_encoder.inner.layers.3.ffn2_layer_norm.bias
+speech_encoder.inner.layers.3.ffn2.inner_proj.weight
+speech_encoder.inner.layers.3.ffn2.inner_proj.bias
+speech_encoder.inner.layers.3.ffn2.output_proj.weight
+speech_encoder.inner.layers.3.ffn2.output_proj.bias
+speech_encoder.inner.layers.3.layer_norm.weight
+speech_encoder.inner.layers.3.layer_norm.bias
+speech_encoder.inner.layers.4.self_attn_layer_norm.weight
+speech_encoder.inner.layers.4.self_attn_layer_norm.bias
+speech_encoder.inner.layers.4.self_attn.k_proj.weight
+speech_encoder.inner.layers.4.self_attn.k_proj.bias
+speech_encoder.inner.layers.4.self_attn.v_proj.weight
+speech_encoder.inner.layers.4.self_attn.v_proj.bias
+speech_encoder.inner.layers.4.self_attn.q_proj.weight
+speech_encoder.inner.layers.4.self_attn.q_proj.bias
+speech_encoder.inner.layers.4.self_attn.output_proj.weight
+speech_encoder.inner.layers.4.self_attn.output_proj.bias
+speech_encoder.inner.layers.4.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.4.conv_layer_norm.weight
+speech_encoder.inner.layers.4.conv_layer_norm.bias
+speech_encoder.inner.layers.4.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.4.conv.depthwise_conv.weight
+speech_encoder.inner.layers.4.conv.layer_norm.weight
+speech_encoder.inner.layers.4.conv.layer_norm.bias
+speech_encoder.inner.layers.4.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.4.ffn1_layer_norm.weight
+speech_encoder.inner.layers.4.ffn1_layer_norm.bias
+speech_encoder.inner.layers.4.ffn1.inner_proj.weight
+speech_encoder.inner.layers.4.ffn1.inner_proj.bias
+speech_encoder.inner.layers.4.ffn1.output_proj.weight
+speech_encoder.inner.layers.4.ffn1.output_proj.bias
+speech_encoder.inner.layers.4.ffn2_layer_norm.weight
+speech_encoder.inner.layers.4.ffn2_layer_norm.bias
+speech_encoder.inner.layers.4.ffn2.inner_proj.weight
+speech_encoder.inner.layers.4.ffn2.inner_proj.bias
+speech_encoder.inner.layers.4.ffn2.output_proj.weight
+speech_encoder.inner.layers.4.ffn2.output_proj.bias
+speech_encoder.inner.layers.4.layer_norm.weight
+speech_encoder.inner.layers.4.layer_norm.bias
+speech_encoder.inner.layers.5.self_attn_layer_norm.weight
+speech_encoder.inner.layers.5.self_attn_layer_norm.bias
+speech_encoder.inner.layers.5.self_attn.k_proj.weight
+speech_encoder.inner.layers.5.self_attn.k_proj.bias
+speech_encoder.inner.layers.5.self_attn.v_proj.weight
+speech_encoder.inner.layers.5.self_attn.v_proj.bias
+speech_encoder.inner.layers.5.self_attn.q_proj.weight
+speech_encoder.inner.layers.5.self_attn.q_proj.bias
+speech_encoder.inner.layers.5.self_attn.output_proj.weight
+speech_encoder.inner.layers.5.self_attn.output_proj.bias
+speech_encoder.inner.layers.5.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.5.conv_layer_norm.weight
+speech_encoder.inner.layers.5.conv_layer_norm.bias
+speech_encoder.inner.layers.5.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.5.conv.depthwise_conv.weight
+speech_encoder.inner.layers.5.conv.layer_norm.weight
+speech_encoder.inner.layers.5.conv.layer_norm.bias
+speech_encoder.inner.layers.5.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.5.ffn1_layer_norm.weight
+speech_encoder.inner.layers.5.ffn1_layer_norm.bias
+speech_encoder.inner.layers.5.ffn1.inner_proj.weight
+speech_encoder.inner.layers.5.ffn1.inner_proj.bias
+speech_encoder.inner.layers.5.ffn1.output_proj.weight
+speech_encoder.inner.layers.5.ffn1.output_proj.bias
+speech_encoder.inner.layers.5.ffn2_layer_norm.weight
+speech_encoder.inner.layers.5.ffn2_layer_norm.bias
+speech_encoder.inner.layers.5.ffn2.inner_proj.weight
+speech_encoder.inner.layers.5.ffn2.inner_proj.bias
+speech_encoder.inner.layers.5.ffn2.output_proj.weight
+speech_encoder.inner.layers.5.ffn2.output_proj.bias
+speech_encoder.inner.layers.5.layer_norm.weight
+speech_encoder.inner.layers.5.layer_norm.bias
+speech_encoder.inner.layers.6.self_attn_layer_norm.weight
+speech_encoder.inner.layers.6.self_attn_layer_norm.bias
+speech_encoder.inner.layers.6.self_attn.k_proj.weight
+speech_encoder.inner.layers.6.self_attn.k_proj.bias
+speech_encoder.inner.layers.6.self_attn.v_proj.weight
+speech_encoder.inner.layers.6.self_attn.v_proj.bias
+speech_encoder.inner.layers.6.self_attn.q_proj.weight
+speech_encoder.inner.layers.6.self_attn.q_proj.bias
+speech_encoder.inner.layers.6.self_attn.output_proj.weight
+speech_encoder.inner.layers.6.self_attn.output_proj.bias
+speech_encoder.inner.layers.6.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.6.conv_layer_norm.weight
+speech_encoder.inner.layers.6.conv_layer_norm.bias
+speech_encoder.inner.layers.6.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.6.conv.depthwise_conv.weight
+speech_encoder.inner.layers.6.conv.layer_norm.weight
+speech_encoder.inner.layers.6.conv.layer_norm.bias
+speech_encoder.inner.layers.6.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.6.ffn1_layer_norm.weight
+speech_encoder.inner.layers.6.ffn1_layer_norm.bias
+speech_encoder.inner.layers.6.ffn1.inner_proj.weight
+speech_encoder.inner.layers.6.ffn1.inner_proj.bias
+speech_encoder.inner.layers.6.ffn1.output_proj.weight
+speech_encoder.inner.layers.6.ffn1.output_proj.bias
+speech_encoder.inner.layers.6.ffn2_layer_norm.weight
+speech_encoder.inner.layers.6.ffn2_layer_norm.bias
+speech_encoder.inner.layers.6.ffn2.inner_proj.weight
+speech_encoder.inner.layers.6.ffn2.inner_proj.bias
+speech_encoder.inner.layers.6.ffn2.output_proj.weight
+speech_encoder.inner.layers.6.ffn2.output_proj.bias
+speech_encoder.inner.layers.6.layer_norm.weight
+speech_encoder.inner.layers.6.layer_norm.bias
+speech_encoder.inner.layers.7.self_attn_layer_norm.weight
+speech_encoder.inner.layers.7.self_attn_layer_norm.bias
+speech_encoder.inner.layers.7.self_attn.k_proj.weight
+speech_encoder.inner.layers.7.self_attn.k_proj.bias
+speech_encoder.inner.layers.7.self_attn.v_proj.weight
+speech_encoder.inner.layers.7.self_attn.v_proj.bias
+speech_encoder.inner.layers.7.self_attn.q_proj.weight
+speech_encoder.inner.layers.7.self_attn.q_proj.bias
+speech_encoder.inner.layers.7.self_attn.output_proj.weight
+speech_encoder.inner.layers.7.self_attn.output_proj.bias
+speech_encoder.inner.layers.7.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.7.conv_layer_norm.weight
+speech_encoder.inner.layers.7.conv_layer_norm.bias
+speech_encoder.inner.layers.7.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.7.conv.depthwise_conv.weight
+speech_encoder.inner.layers.7.conv.layer_norm.weight
+speech_encoder.inner.layers.7.conv.layer_norm.bias
+speech_encoder.inner.layers.7.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.7.ffn1_layer_norm.weight
+speech_encoder.inner.layers.7.ffn1_layer_norm.bias
+speech_encoder.inner.layers.7.ffn1.inner_proj.weight
+speech_encoder.inner.layers.7.ffn1.inner_proj.bias
+speech_encoder.inner.layers.7.ffn1.output_proj.weight
+speech_encoder.inner.layers.7.ffn1.output_proj.bias
+speech_encoder.inner.layers.7.ffn2_layer_norm.weight
+speech_encoder.inner.layers.7.ffn2_layer_norm.bias
+speech_encoder.inner.layers.7.ffn2.inner_proj.weight
+speech_encoder.inner.layers.7.ffn2.inner_proj.bias
+speech_encoder.inner.layers.7.ffn2.output_proj.weight
+speech_encoder.inner.layers.7.ffn2.output_proj.bias
+speech_encoder.inner.layers.7.layer_norm.weight
+speech_encoder.inner.layers.7.layer_norm.bias
+speech_encoder.inner.layers.8.self_attn_layer_norm.weight
+speech_encoder.inner.layers.8.self_attn_layer_norm.bias
+speech_encoder.inner.layers.8.self_attn.k_proj.weight
+speech_encoder.inner.layers.8.self_attn.k_proj.bias
+speech_encoder.inner.layers.8.self_attn.v_proj.weight
+speech_encoder.inner.layers.8.self_attn.v_proj.bias
+speech_encoder.inner.layers.8.self_attn.q_proj.weight
+speech_encoder.inner.layers.8.self_attn.q_proj.bias
+speech_encoder.inner.layers.8.self_attn.output_proj.weight
+speech_encoder.inner.layers.8.self_attn.output_proj.bias
+speech_encoder.inner.layers.8.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.8.conv_layer_norm.weight
+speech_encoder.inner.layers.8.conv_layer_norm.bias
+speech_encoder.inner.layers.8.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.8.conv.depthwise_conv.weight
+speech_encoder.inner.layers.8.conv.layer_norm.weight
+speech_encoder.inner.layers.8.conv.layer_norm.bias
+speech_encoder.inner.layers.8.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.8.ffn1_layer_norm.weight
+speech_encoder.inner.layers.8.ffn1_layer_norm.bias
+speech_encoder.inner.layers.8.ffn1.inner_proj.weight
+speech_encoder.inner.layers.8.ffn1.inner_proj.bias
+speech_encoder.inner.layers.8.ffn1.output_proj.weight
+speech_encoder.inner.layers.8.ffn1.output_proj.bias
+speech_encoder.inner.layers.8.ffn2_layer_norm.weight
+speech_encoder.inner.layers.8.ffn2_layer_norm.bias
+speech_encoder.inner.layers.8.ffn2.inner_proj.weight
+speech_encoder.inner.layers.8.ffn2.inner_proj.bias
+speech_encoder.inner.layers.8.ffn2.output_proj.weight
+speech_encoder.inner.layers.8.ffn2.output_proj.bias
+speech_encoder.inner.layers.8.layer_norm.weight
+speech_encoder.inner.layers.8.layer_norm.bias
+speech_encoder.inner.layers.9.self_attn_layer_norm.weight
+speech_encoder.inner.layers.9.self_attn_layer_norm.bias
+speech_encoder.inner.layers.9.self_attn.k_proj.weight
+speech_encoder.inner.layers.9.self_attn.k_proj.bias
+speech_encoder.inner.layers.9.self_attn.v_proj.weight
+speech_encoder.inner.layers.9.self_attn.v_proj.bias
+speech_encoder.inner.layers.9.self_attn.q_proj.weight
+speech_encoder.inner.layers.9.self_attn.q_proj.bias
+speech_encoder.inner.layers.9.self_attn.output_proj.weight
+speech_encoder.inner.layers.9.self_attn.output_proj.bias
+speech_encoder.inner.layers.9.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.9.conv_layer_norm.weight
+speech_encoder.inner.layers.9.conv_layer_norm.bias
+speech_encoder.inner.layers.9.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.9.conv.depthwise_conv.weight
+speech_encoder.inner.layers.9.conv.layer_norm.weight
+speech_encoder.inner.layers.9.conv.layer_norm.bias
+speech_encoder.inner.layers.9.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.9.ffn1_layer_norm.weight
+speech_encoder.inner.layers.9.ffn1_layer_norm.bias
+speech_encoder.inner.layers.9.ffn1.inner_proj.weight
+speech_encoder.inner.layers.9.ffn1.inner_proj.bias
+speech_encoder.inner.layers.9.ffn1.output_proj.weight
+speech_encoder.inner.layers.9.ffn1.output_proj.bias
+speech_encoder.inner.layers.9.ffn2_layer_norm.weight
+speech_encoder.inner.layers.9.ffn2_layer_norm.bias
+speech_encoder.inner.layers.9.ffn2.inner_proj.weight
+speech_encoder.inner.layers.9.ffn2.inner_proj.bias
+speech_encoder.inner.layers.9.ffn2.output_proj.weight
+speech_encoder.inner.layers.9.ffn2.output_proj.bias
+speech_encoder.inner.layers.9.layer_norm.weight
+speech_encoder.inner.layers.9.layer_norm.bias
+speech_encoder.inner.layers.10.self_attn_layer_norm.weight
+speech_encoder.inner.layers.10.self_attn_layer_norm.bias
+speech_encoder.inner.layers.10.self_attn.k_proj.weight
+speech_encoder.inner.layers.10.self_attn.k_proj.bias
+speech_encoder.inner.layers.10.self_attn.v_proj.weight
+speech_encoder.inner.layers.10.self_attn.v_proj.bias
+speech_encoder.inner.layers.10.self_attn.q_proj.weight
+speech_encoder.inner.layers.10.self_attn.q_proj.bias
+speech_encoder.inner.layers.10.self_attn.output_proj.weight
+speech_encoder.inner.layers.10.self_attn.output_proj.bias
+speech_encoder.inner.layers.10.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.10.conv_layer_norm.weight
+speech_encoder.inner.layers.10.conv_layer_norm.bias
+speech_encoder.inner.layers.10.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.10.conv.depthwise_conv.weight
+speech_encoder.inner.layers.10.conv.layer_norm.weight
+speech_encoder.inner.layers.10.conv.layer_norm.bias
+speech_encoder.inner.layers.10.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.10.ffn1_layer_norm.weight
+speech_encoder.inner.layers.10.ffn1_layer_norm.bias
+speech_encoder.inner.layers.10.ffn1.inner_proj.weight
+speech_encoder.inner.layers.10.ffn1.inner_proj.bias
+speech_encoder.inner.layers.10.ffn1.output_proj.weight
+speech_encoder.inner.layers.10.ffn1.output_proj.bias
+speech_encoder.inner.layers.10.ffn2_layer_norm.weight
+speech_encoder.inner.layers.10.ffn2_layer_norm.bias
+speech_encoder.inner.layers.10.ffn2.inner_proj.weight
+speech_encoder.inner.layers.10.ffn2.inner_proj.bias
+speech_encoder.inner.layers.10.ffn2.output_proj.weight
+speech_encoder.inner.layers.10.ffn2.output_proj.bias
+speech_encoder.inner.layers.10.layer_norm.weight
+speech_encoder.inner.layers.10.layer_norm.bias
+speech_encoder.inner.layers.11.self_attn_layer_norm.weight
+speech_encoder.inner.layers.11.self_attn_layer_norm.bias
+speech_encoder.inner.layers.11.self_attn.k_proj.weight
+speech_encoder.inner.layers.11.self_attn.k_proj.bias
+speech_encoder.inner.layers.11.self_attn.v_proj.weight
+speech_encoder.inner.layers.11.self_attn.v_proj.bias
+speech_encoder.inner.layers.11.self_attn.q_proj.weight
+speech_encoder.inner.layers.11.self_attn.q_proj.bias
+speech_encoder.inner.layers.11.self_attn.output_proj.weight
+speech_encoder.inner.layers.11.self_attn.output_proj.bias
+speech_encoder.inner.layers.11.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.11.conv_layer_norm.weight
+speech_encoder.inner.layers.11.conv_layer_norm.bias
+speech_encoder.inner.layers.11.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.11.conv.depthwise_conv.weight
+speech_encoder.inner.layers.11.conv.layer_norm.weight
+speech_encoder.inner.layers.11.conv.layer_norm.bias
+speech_encoder.inner.layers.11.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.11.ffn1_layer_norm.weight
+speech_encoder.inner.layers.11.ffn1_layer_norm.bias
+speech_encoder.inner.layers.11.ffn1.inner_proj.weight
+speech_encoder.inner.layers.11.ffn1.inner_proj.bias
+speech_encoder.inner.layers.11.ffn1.output_proj.weight
+speech_encoder.inner.layers.11.ffn1.output_proj.bias
+speech_encoder.inner.layers.11.ffn2_layer_norm.weight
+speech_encoder.inner.layers.11.ffn2_layer_norm.bias
+speech_encoder.inner.layers.11.ffn2.inner_proj.weight
+speech_encoder.inner.layers.11.ffn2.inner_proj.bias
+speech_encoder.inner.layers.11.ffn2.output_proj.weight
+speech_encoder.inner.layers.11.ffn2.output_proj.bias
+speech_encoder.inner.layers.11.layer_norm.weight
+speech_encoder.inner.layers.11.layer_norm.bias
+speech_encoder.inner.layers.12.self_attn_layer_norm.weight
+speech_encoder.inner.layers.12.self_attn_layer_norm.bias
+speech_encoder.inner.layers.12.self_attn.k_proj.weight
+speech_encoder.inner.layers.12.self_attn.k_proj.bias
+speech_encoder.inner.layers.12.self_attn.v_proj.weight
+speech_encoder.inner.layers.12.self_attn.v_proj.bias
+speech_encoder.inner.layers.12.self_attn.q_proj.weight
+speech_encoder.inner.layers.12.self_attn.q_proj.bias
+speech_encoder.inner.layers.12.self_attn.output_proj.weight
+speech_encoder.inner.layers.12.self_attn.output_proj.bias
+speech_encoder.inner.layers.12.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.12.conv_layer_norm.weight
+speech_encoder.inner.layers.12.conv_layer_norm.bias
+speech_encoder.inner.layers.12.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.12.conv.depthwise_conv.weight
+speech_encoder.inner.layers.12.conv.layer_norm.weight
+speech_encoder.inner.layers.12.conv.layer_norm.bias
+speech_encoder.inner.layers.12.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.12.ffn1_layer_norm.weight
+speech_encoder.inner.layers.12.ffn1_layer_norm.bias
+speech_encoder.inner.layers.12.ffn1.inner_proj.weight
+speech_encoder.inner.layers.12.ffn1.inner_proj.bias
+speech_encoder.inner.layers.12.ffn1.output_proj.weight
+speech_encoder.inner.layers.12.ffn1.output_proj.bias
+speech_encoder.inner.layers.12.ffn2_layer_norm.weight
+speech_encoder.inner.layers.12.ffn2_layer_norm.bias
+speech_encoder.inner.layers.12.ffn2.inner_proj.weight
+speech_encoder.inner.layers.12.ffn2.inner_proj.bias
+speech_encoder.inner.layers.12.ffn2.output_proj.weight
+speech_encoder.inner.layers.12.ffn2.output_proj.bias
+speech_encoder.inner.layers.12.layer_norm.weight
+speech_encoder.inner.layers.12.layer_norm.bias
+speech_encoder.inner.layers.13.self_attn_layer_norm.weight
+speech_encoder.inner.layers.13.self_attn_layer_norm.bias
+speech_encoder.inner.layers.13.self_attn.k_proj.weight
+speech_encoder.inner.layers.13.self_attn.k_proj.bias
+speech_encoder.inner.layers.13.self_attn.v_proj.weight
+speech_encoder.inner.layers.13.self_attn.v_proj.bias
+speech_encoder.inner.layers.13.self_attn.q_proj.weight
+speech_encoder.inner.layers.13.self_attn.q_proj.bias
+speech_encoder.inner.layers.13.self_attn.output_proj.weight
+speech_encoder.inner.layers.13.self_attn.output_proj.bias
+speech_encoder.inner.layers.13.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.13.conv_layer_norm.weight
+speech_encoder.inner.layers.13.conv_layer_norm.bias
+speech_encoder.inner.layers.13.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.13.conv.depthwise_conv.weight
+speech_encoder.inner.layers.13.conv.layer_norm.weight
+speech_encoder.inner.layers.13.conv.layer_norm.bias
+speech_encoder.inner.layers.13.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.13.ffn1_layer_norm.weight
+speech_encoder.inner.layers.13.ffn1_layer_norm.bias
+speech_encoder.inner.layers.13.ffn1.inner_proj.weight
+speech_encoder.inner.layers.13.ffn1.inner_proj.bias
+speech_encoder.inner.layers.13.ffn1.output_proj.weight
+speech_encoder.inner.layers.13.ffn1.output_proj.bias
+speech_encoder.inner.layers.13.ffn2_layer_norm.weight
+speech_encoder.inner.layers.13.ffn2_layer_norm.bias
+speech_encoder.inner.layers.13.ffn2.inner_proj.weight
+speech_encoder.inner.layers.13.ffn2.inner_proj.bias
+speech_encoder.inner.layers.13.ffn2.output_proj.weight
+speech_encoder.inner.layers.13.ffn2.output_proj.bias
+speech_encoder.inner.layers.13.layer_norm.weight
+speech_encoder.inner.layers.13.layer_norm.bias
+speech_encoder.inner.layers.14.self_attn_layer_norm.weight
+speech_encoder.inner.layers.14.self_attn_layer_norm.bias
+speech_encoder.inner.layers.14.self_attn.k_proj.weight
+speech_encoder.inner.layers.14.self_attn.k_proj.bias
+speech_encoder.inner.layers.14.self_attn.v_proj.weight
+speech_encoder.inner.layers.14.self_attn.v_proj.bias
+speech_encoder.inner.layers.14.self_attn.q_proj.weight
+speech_encoder.inner.layers.14.self_attn.q_proj.bias
+speech_encoder.inner.layers.14.self_attn.output_proj.weight
+speech_encoder.inner.layers.14.self_attn.output_proj.bias
+speech_encoder.inner.layers.14.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.14.conv_layer_norm.weight
+speech_encoder.inner.layers.14.conv_layer_norm.bias
+speech_encoder.inner.layers.14.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.14.conv.depthwise_conv.weight
+speech_encoder.inner.layers.14.conv.layer_norm.weight
+speech_encoder.inner.layers.14.conv.layer_norm.bias
+speech_encoder.inner.layers.14.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.14.ffn1_layer_norm.weight
+speech_encoder.inner.layers.14.ffn1_layer_norm.bias
+speech_encoder.inner.layers.14.ffn1.inner_proj.weight
+speech_encoder.inner.layers.14.ffn1.inner_proj.bias
+speech_encoder.inner.layers.14.ffn1.output_proj.weight
+speech_encoder.inner.layers.14.ffn1.output_proj.bias
+speech_encoder.inner.layers.14.ffn2_layer_norm.weight
+speech_encoder.inner.layers.14.ffn2_layer_norm.bias
+speech_encoder.inner.layers.14.ffn2.inner_proj.weight
+speech_encoder.inner.layers.14.ffn2.inner_proj.bias
+speech_encoder.inner.layers.14.ffn2.output_proj.weight
+speech_encoder.inner.layers.14.ffn2.output_proj.bias
+speech_encoder.inner.layers.14.layer_norm.weight
+speech_encoder.inner.layers.14.layer_norm.bias
+speech_encoder.inner.layers.15.self_attn_layer_norm.weight
+speech_encoder.inner.layers.15.self_attn_layer_norm.bias
+speech_encoder.inner.layers.15.self_attn.k_proj.weight
+speech_encoder.inner.layers.15.self_attn.k_proj.bias
+speech_encoder.inner.layers.15.self_attn.v_proj.weight
+speech_encoder.inner.layers.15.self_attn.v_proj.bias
+speech_encoder.inner.layers.15.self_attn.q_proj.weight
+speech_encoder.inner.layers.15.self_attn.q_proj.bias
+speech_encoder.inner.layers.15.self_attn.output_proj.weight
+speech_encoder.inner.layers.15.self_attn.output_proj.bias
+speech_encoder.inner.layers.15.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.15.conv_layer_norm.weight
+speech_encoder.inner.layers.15.conv_layer_norm.bias
+speech_encoder.inner.layers.15.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.15.conv.depthwise_conv.weight
+speech_encoder.inner.layers.15.conv.layer_norm.weight
+speech_encoder.inner.layers.15.conv.layer_norm.bias
+speech_encoder.inner.layers.15.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.15.ffn1_layer_norm.weight
+speech_encoder.inner.layers.15.ffn1_layer_norm.bias
+speech_encoder.inner.layers.15.ffn1.inner_proj.weight
+speech_encoder.inner.layers.15.ffn1.inner_proj.bias
+speech_encoder.inner.layers.15.ffn1.output_proj.weight
+speech_encoder.inner.layers.15.ffn1.output_proj.bias
+speech_encoder.inner.layers.15.ffn2_layer_norm.weight
+speech_encoder.inner.layers.15.ffn2_layer_norm.bias
+speech_encoder.inner.layers.15.ffn2.inner_proj.weight
+speech_encoder.inner.layers.15.ffn2.inner_proj.bias
+speech_encoder.inner.layers.15.ffn2.output_proj.weight
+speech_encoder.inner.layers.15.ffn2.output_proj.bias
+speech_encoder.inner.layers.15.layer_norm.weight
+speech_encoder.inner.layers.15.layer_norm.bias
+speech_encoder.inner.layers.16.self_attn_layer_norm.weight
+speech_encoder.inner.layers.16.self_attn_layer_norm.bias
+speech_encoder.inner.layers.16.self_attn.k_proj.weight
+speech_encoder.inner.layers.16.self_attn.k_proj.bias
+speech_encoder.inner.layers.16.self_attn.v_proj.weight
+speech_encoder.inner.layers.16.self_attn.v_proj.bias
+speech_encoder.inner.layers.16.self_attn.q_proj.weight
+speech_encoder.inner.layers.16.self_attn.q_proj.bias
+speech_encoder.inner.layers.16.self_attn.output_proj.weight
+speech_encoder.inner.layers.16.self_attn.output_proj.bias
+speech_encoder.inner.layers.16.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.16.conv_layer_norm.weight
+speech_encoder.inner.layers.16.conv_layer_norm.bias
+speech_encoder.inner.layers.16.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.16.conv.depthwise_conv.weight
+speech_encoder.inner.layers.16.conv.layer_norm.weight
+speech_encoder.inner.layers.16.conv.layer_norm.bias
+speech_encoder.inner.layers.16.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.16.ffn1_layer_norm.weight
+speech_encoder.inner.layers.16.ffn1_layer_norm.bias
+speech_encoder.inner.layers.16.ffn1.inner_proj.weight
+speech_encoder.inner.layers.16.ffn1.inner_proj.bias
+speech_encoder.inner.layers.16.ffn1.output_proj.weight
+speech_encoder.inner.layers.16.ffn1.output_proj.bias
+speech_encoder.inner.layers.16.ffn2_layer_norm.weight
+speech_encoder.inner.layers.16.ffn2_layer_norm.bias
+speech_encoder.inner.layers.16.ffn2.inner_proj.weight
+speech_encoder.inner.layers.16.ffn2.inner_proj.bias
+speech_encoder.inner.layers.16.ffn2.output_proj.weight
+speech_encoder.inner.layers.16.ffn2.output_proj.bias
+speech_encoder.inner.layers.16.layer_norm.weight
+speech_encoder.inner.layers.16.layer_norm.bias
+speech_encoder.inner.layers.17.self_attn_layer_norm.weight
+speech_encoder.inner.layers.17.self_attn_layer_norm.bias
+speech_encoder.inner.layers.17.self_attn.k_proj.weight
+speech_encoder.inner.layers.17.self_attn.k_proj.bias
+speech_encoder.inner.layers.17.self_attn.v_proj.weight
+speech_encoder.inner.layers.17.self_attn.v_proj.bias
+speech_encoder.inner.layers.17.self_attn.q_proj.weight
+speech_encoder.inner.layers.17.self_attn.q_proj.bias
+speech_encoder.inner.layers.17.self_attn.output_proj.weight
+speech_encoder.inner.layers.17.self_attn.output_proj.bias
+speech_encoder.inner.layers.17.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.17.conv_layer_norm.weight
+speech_encoder.inner.layers.17.conv_layer_norm.bias
+speech_encoder.inner.layers.17.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.17.conv.depthwise_conv.weight
+speech_encoder.inner.layers.17.conv.layer_norm.weight
+speech_encoder.inner.layers.17.conv.layer_norm.bias
+speech_encoder.inner.layers.17.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.17.ffn1_layer_norm.weight
+speech_encoder.inner.layers.17.ffn1_layer_norm.bias
+speech_encoder.inner.layers.17.ffn1.inner_proj.weight
+speech_encoder.inner.layers.17.ffn1.inner_proj.bias
+speech_encoder.inner.layers.17.ffn1.output_proj.weight
+speech_encoder.inner.layers.17.ffn1.output_proj.bias
+speech_encoder.inner.layers.17.ffn2_layer_norm.weight
+speech_encoder.inner.layers.17.ffn2_layer_norm.bias
+speech_encoder.inner.layers.17.ffn2.inner_proj.weight
+speech_encoder.inner.layers.17.ffn2.inner_proj.bias
+speech_encoder.inner.layers.17.ffn2.output_proj.weight
+speech_encoder.inner.layers.17.ffn2.output_proj.bias
+speech_encoder.inner.layers.17.layer_norm.weight
+speech_encoder.inner.layers.17.layer_norm.bias
+speech_encoder.inner.layers.18.self_attn_layer_norm.weight
+speech_encoder.inner.layers.18.self_attn_layer_norm.bias
+speech_encoder.inner.layers.18.self_attn.k_proj.weight
+speech_encoder.inner.layers.18.self_attn.k_proj.bias
+speech_encoder.inner.layers.18.self_attn.v_proj.weight
+speech_encoder.inner.layers.18.self_attn.v_proj.bias
+speech_encoder.inner.layers.18.self_attn.q_proj.weight
+speech_encoder.inner.layers.18.self_attn.q_proj.bias
+speech_encoder.inner.layers.18.self_attn.output_proj.weight
+speech_encoder.inner.layers.18.self_attn.output_proj.bias
+speech_encoder.inner.layers.18.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.18.conv_layer_norm.weight
+speech_encoder.inner.layers.18.conv_layer_norm.bias
+speech_encoder.inner.layers.18.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.18.conv.depthwise_conv.weight
+speech_encoder.inner.layers.18.conv.layer_norm.weight
+speech_encoder.inner.layers.18.conv.layer_norm.bias
+speech_encoder.inner.layers.18.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.18.ffn1_layer_norm.weight
+speech_encoder.inner.layers.18.ffn1_layer_norm.bias
+speech_encoder.inner.layers.18.ffn1.inner_proj.weight
+speech_encoder.inner.layers.18.ffn1.inner_proj.bias
+speech_encoder.inner.layers.18.ffn1.output_proj.weight
+speech_encoder.inner.layers.18.ffn1.output_proj.bias
+speech_encoder.inner.layers.18.ffn2_layer_norm.weight
+speech_encoder.inner.layers.18.ffn2_layer_norm.bias
+speech_encoder.inner.layers.18.ffn2.inner_proj.weight
+speech_encoder.inner.layers.18.ffn2.inner_proj.bias
+speech_encoder.inner.layers.18.ffn2.output_proj.weight
+speech_encoder.inner.layers.18.ffn2.output_proj.bias
+speech_encoder.inner.layers.18.layer_norm.weight
+speech_encoder.inner.layers.18.layer_norm.bias
+speech_encoder.inner.layers.19.self_attn_layer_norm.weight
+speech_encoder.inner.layers.19.self_attn_layer_norm.bias
+speech_encoder.inner.layers.19.self_attn.k_proj.weight
+speech_encoder.inner.layers.19.self_attn.k_proj.bias
+speech_encoder.inner.layers.19.self_attn.v_proj.weight
+speech_encoder.inner.layers.19.self_attn.v_proj.bias
+speech_encoder.inner.layers.19.self_attn.q_proj.weight
+speech_encoder.inner.layers.19.self_attn.q_proj.bias
+speech_encoder.inner.layers.19.self_attn.output_proj.weight
+speech_encoder.inner.layers.19.self_attn.output_proj.bias
+speech_encoder.inner.layers.19.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.19.conv_layer_norm.weight
+speech_encoder.inner.layers.19.conv_layer_norm.bias
+speech_encoder.inner.layers.19.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.19.conv.depthwise_conv.weight
+speech_encoder.inner.layers.19.conv.layer_norm.weight
+speech_encoder.inner.layers.19.conv.layer_norm.bias
+speech_encoder.inner.layers.19.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.19.ffn1_layer_norm.weight
+speech_encoder.inner.layers.19.ffn1_layer_norm.bias
+speech_encoder.inner.layers.19.ffn1.inner_proj.weight
+speech_encoder.inner.layers.19.ffn1.inner_proj.bias
+speech_encoder.inner.layers.19.ffn1.output_proj.weight
+speech_encoder.inner.layers.19.ffn1.output_proj.bias
+speech_encoder.inner.layers.19.ffn2_layer_norm.weight
+speech_encoder.inner.layers.19.ffn2_layer_norm.bias
+speech_encoder.inner.layers.19.ffn2.inner_proj.weight
+speech_encoder.inner.layers.19.ffn2.inner_proj.bias
+speech_encoder.inner.layers.19.ffn2.output_proj.weight
+speech_encoder.inner.layers.19.ffn2.output_proj.bias
+speech_encoder.inner.layers.19.layer_norm.weight
+speech_encoder.inner.layers.19.layer_norm.bias
+speech_encoder.inner.layers.20.self_attn_layer_norm.weight
+speech_encoder.inner.layers.20.self_attn_layer_norm.bias
+speech_encoder.inner.layers.20.self_attn.k_proj.weight
+speech_encoder.inner.layers.20.self_attn.k_proj.bias
+speech_encoder.inner.layers.20.self_attn.v_proj.weight
+speech_encoder.inner.layers.20.self_attn.v_proj.bias
+speech_encoder.inner.layers.20.self_attn.q_proj.weight
+speech_encoder.inner.layers.20.self_attn.q_proj.bias
+speech_encoder.inner.layers.20.self_attn.output_proj.weight
+speech_encoder.inner.layers.20.self_attn.output_proj.bias
+speech_encoder.inner.layers.20.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.20.conv_layer_norm.weight
+speech_encoder.inner.layers.20.conv_layer_norm.bias
+speech_encoder.inner.layers.20.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.20.conv.depthwise_conv.weight
+speech_encoder.inner.layers.20.conv.layer_norm.weight
+speech_encoder.inner.layers.20.conv.layer_norm.bias
+speech_encoder.inner.layers.20.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.20.ffn1_layer_norm.weight
+speech_encoder.inner.layers.20.ffn1_layer_norm.bias
+speech_encoder.inner.layers.20.ffn1.inner_proj.weight
+speech_encoder.inner.layers.20.ffn1.inner_proj.bias
+speech_encoder.inner.layers.20.ffn1.output_proj.weight
+speech_encoder.inner.layers.20.ffn1.output_proj.bias
+speech_encoder.inner.layers.20.ffn2_layer_norm.weight
+speech_encoder.inner.layers.20.ffn2_layer_norm.bias
+speech_encoder.inner.layers.20.ffn2.inner_proj.weight
+speech_encoder.inner.layers.20.ffn2.inner_proj.bias
+speech_encoder.inner.layers.20.ffn2.output_proj.weight
+speech_encoder.inner.layers.20.ffn2.output_proj.bias
+speech_encoder.inner.layers.20.layer_norm.weight
+speech_encoder.inner.layers.20.layer_norm.bias
+speech_encoder.inner.layers.21.self_attn_layer_norm.weight
+speech_encoder.inner.layers.21.self_attn_layer_norm.bias
+speech_encoder.inner.layers.21.self_attn.k_proj.weight
+speech_encoder.inner.layers.21.self_attn.k_proj.bias
+speech_encoder.inner.layers.21.self_attn.v_proj.weight
+speech_encoder.inner.layers.21.self_attn.v_proj.bias
+speech_encoder.inner.layers.21.self_attn.q_proj.weight
+speech_encoder.inner.layers.21.self_attn.q_proj.bias
+speech_encoder.inner.layers.21.self_attn.output_proj.weight
+speech_encoder.inner.layers.21.self_attn.output_proj.bias
+speech_encoder.inner.layers.21.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.21.conv_layer_norm.weight
+speech_encoder.inner.layers.21.conv_layer_norm.bias
+speech_encoder.inner.layers.21.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.21.conv.depthwise_conv.weight
+speech_encoder.inner.layers.21.conv.layer_norm.weight
+speech_encoder.inner.layers.21.conv.layer_norm.bias
+speech_encoder.inner.layers.21.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.21.ffn1_layer_norm.weight
+speech_encoder.inner.layers.21.ffn1_layer_norm.bias
+speech_encoder.inner.layers.21.ffn1.inner_proj.weight
+speech_encoder.inner.layers.21.ffn1.inner_proj.bias
+speech_encoder.inner.layers.21.ffn1.output_proj.weight
+speech_encoder.inner.layers.21.ffn1.output_proj.bias
+speech_encoder.inner.layers.21.ffn2_layer_norm.weight
+speech_encoder.inner.layers.21.ffn2_layer_norm.bias
+speech_encoder.inner.layers.21.ffn2.inner_proj.weight
+speech_encoder.inner.layers.21.ffn2.inner_proj.bias
+speech_encoder.inner.layers.21.ffn2.output_proj.weight
+speech_encoder.inner.layers.21.ffn2.output_proj.bias
+speech_encoder.inner.layers.21.layer_norm.weight
+speech_encoder.inner.layers.21.layer_norm.bias
+speech_encoder.inner.layers.22.self_attn_layer_norm.weight
+speech_encoder.inner.layers.22.self_attn_layer_norm.bias
+speech_encoder.inner.layers.22.self_attn.k_proj.weight
+speech_encoder.inner.layers.22.self_attn.k_proj.bias
+speech_encoder.inner.layers.22.self_attn.v_proj.weight
+speech_encoder.inner.layers.22.self_attn.v_proj.bias
+speech_encoder.inner.layers.22.self_attn.q_proj.weight
+speech_encoder.inner.layers.22.self_attn.q_proj.bias
+speech_encoder.inner.layers.22.self_attn.output_proj.weight
+speech_encoder.inner.layers.22.self_attn.output_proj.bias
+speech_encoder.inner.layers.22.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.22.conv_layer_norm.weight
+speech_encoder.inner.layers.22.conv_layer_norm.bias
+speech_encoder.inner.layers.22.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.22.conv.depthwise_conv.weight
+speech_encoder.inner.layers.22.conv.layer_norm.weight
+speech_encoder.inner.layers.22.conv.layer_norm.bias
+speech_encoder.inner.layers.22.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.22.ffn1_layer_norm.weight
+speech_encoder.inner.layers.22.ffn1_layer_norm.bias
+speech_encoder.inner.layers.22.ffn1.inner_proj.weight
+speech_encoder.inner.layers.22.ffn1.inner_proj.bias
+speech_encoder.inner.layers.22.ffn1.output_proj.weight
+speech_encoder.inner.layers.22.ffn1.output_proj.bias
+speech_encoder.inner.layers.22.ffn2_layer_norm.weight
+speech_encoder.inner.layers.22.ffn2_layer_norm.bias
+speech_encoder.inner.layers.22.ffn2.inner_proj.weight
+speech_encoder.inner.layers.22.ffn2.inner_proj.bias
+speech_encoder.inner.layers.22.ffn2.output_proj.weight
+speech_encoder.inner.layers.22.ffn2.output_proj.bias
+speech_encoder.inner.layers.22.layer_norm.weight
+speech_encoder.inner.layers.22.layer_norm.bias
+speech_encoder.inner.layers.23.self_attn_layer_norm.weight
+speech_encoder.inner.layers.23.self_attn_layer_norm.bias
+speech_encoder.inner.layers.23.self_attn.k_proj.weight
+speech_encoder.inner.layers.23.self_attn.k_proj.bias
+speech_encoder.inner.layers.23.self_attn.v_proj.weight
+speech_encoder.inner.layers.23.self_attn.v_proj.bias
+speech_encoder.inner.layers.23.self_attn.q_proj.weight
+speech_encoder.inner.layers.23.self_attn.q_proj.bias
+speech_encoder.inner.layers.23.self_attn.output_proj.weight
+speech_encoder.inner.layers.23.self_attn.output_proj.bias
+speech_encoder.inner.layers.23.self_attn.sdpa.rel_k_embed.weight
+speech_encoder.inner.layers.23.conv_layer_norm.weight
+speech_encoder.inner.layers.23.conv_layer_norm.bias
+speech_encoder.inner.layers.23.conv.pointwise_conv1.weight
+speech_encoder.inner.layers.23.conv.depthwise_conv.weight
+speech_encoder.inner.layers.23.conv.layer_norm.weight
+speech_encoder.inner.layers.23.conv.layer_norm.bias
+speech_encoder.inner.layers.23.conv.pointwise_conv2.weight
+speech_encoder.inner.layers.23.ffn1_layer_norm.weight
+speech_encoder.inner.layers.23.ffn1_layer_norm.bias
+speech_encoder.inner.layers.23.ffn1.inner_proj.weight
+speech_encoder.inner.layers.23.ffn1.inner_proj.bias
+speech_encoder.inner.layers.23.ffn1.output_proj.weight
+speech_encoder.inner.layers.23.ffn1.output_proj.bias
+speech_encoder.inner.layers.23.ffn2_layer_norm.weight
+speech_encoder.inner.layers.23.ffn2_layer_norm.bias
+speech_encoder.inner.layers.23.ffn2.inner_proj.weight
+speech_encoder.inner.layers.23.ffn2.inner_proj.bias
+speech_encoder.inner.layers.23.ffn2.output_proj.weight
+speech_encoder.inner.layers.23.ffn2.output_proj.bias
+speech_encoder.inner.layers.23.layer_norm.weight
+speech_encoder.inner.layers.23.layer_norm.bias
+speech_encoder.inner_layer_norm.weight
+speech_encoder.inner_layer_norm.bias
+speech_encoder_frontend.post_extract_layer_norm.weight
+speech_encoder_frontend.post_extract_layer_norm.bias
+speech_encoder.proj1.weight
+speech_encoder.proj1.bias
+speech_encoder.proj2.weight
+speech_encoder.proj2.bias
+speech_encoder.adaptor_layers.0.self_attn.k_proj.weight
+speech_encoder.adaptor_layers.0.self_attn.k_proj.bias
+speech_encoder.adaptor_layers.0.self_attn.v_proj.weight
+speech_encoder.adaptor_layers.0.self_attn.v_proj.bias
+speech_encoder.adaptor_layers.0.self_attn.q_proj.weight
+speech_encoder.adaptor_layers.0.self_attn.q_proj.bias
+speech_encoder.adaptor_layers.0.self_attn.output_proj.weight
+speech_encoder.adaptor_layers.0.self_attn.output_proj.bias
+speech_encoder.adaptor_layers.0.self_attn_layer_norm.weight
+speech_encoder.adaptor_layers.0.self_attn_layer_norm.bias
+speech_encoder.adaptor_layers.0.ffn.inner_proj.weight
+speech_encoder.adaptor_layers.0.ffn.inner_proj.bias
+speech_encoder.adaptor_layers.0.ffn.output_proj.weight
+speech_encoder.adaptor_layers.0.ffn.output_proj.bias
+speech_encoder.adaptor_layers.0.ffn_layer_norm.weight
+speech_encoder.adaptor_layers.0.ffn_layer_norm.bias
+speech_encoder.adaptor_layers.0.residual_layer_norm.weight
+speech_encoder.adaptor_layers.0.residual_layer_norm.bias
+speech_encoder.adaptor_layers.0.residual_conv.weight
+speech_encoder.adaptor_layers.0.residual_conv.bias
+speech_encoder.adaptor_layers.0.self_attn_conv.weight
+speech_encoder.adaptor_layers.0.self_attn_conv.bias
+speech_encoder.layer_norm.weight
+speech_encoder.layer_norm.bias
+text_decoder_frontend.embed.weight
+text_decoder.layers.0.self_attn.k_proj.weight
+text_decoder.layers.0.self_attn.k_proj.bias
+text_decoder.layers.0.self_attn.v_proj.weight
+text_decoder.layers.0.self_attn.v_proj.bias
+text_decoder.layers.0.self_attn.q_proj.weight
+text_decoder.layers.0.self_attn.q_proj.bias
+text_decoder.layers.0.self_attn.output_proj.weight
+text_decoder.layers.0.self_attn.output_proj.bias
+text_decoder.layers.0.self_attn_layer_norm.weight
+text_decoder.layers.0.self_attn_layer_norm.bias
+text_decoder.layers.0.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.0.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.0.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.0.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.0.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.0.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.0.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.0.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.0.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.0.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.0.ffn.inner_proj.weight
+text_decoder.layers.0.ffn.inner_proj.bias
+text_decoder.layers.0.ffn.output_proj.weight
+text_decoder.layers.0.ffn.output_proj.bias
+text_decoder.layers.0.ffn_layer_norm.weight
+text_decoder.layers.0.ffn_layer_norm.bias
+text_decoder.layers.1.self_attn.k_proj.weight
+text_decoder.layers.1.self_attn.k_proj.bias
+text_decoder.layers.1.self_attn.v_proj.weight
+text_decoder.layers.1.self_attn.v_proj.bias
+text_decoder.layers.1.self_attn.q_proj.weight
+text_decoder.layers.1.self_attn.q_proj.bias
+text_decoder.layers.1.self_attn.output_proj.weight
+text_decoder.layers.1.self_attn.output_proj.bias
+text_decoder.layers.1.self_attn_layer_norm.weight
+text_decoder.layers.1.self_attn_layer_norm.bias
+text_decoder.layers.1.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.1.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.1.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.1.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.1.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.1.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.1.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.1.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.1.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.1.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.1.ffn.inner_proj.weight
+text_decoder.layers.1.ffn.inner_proj.bias
+text_decoder.layers.1.ffn.output_proj.weight
+text_decoder.layers.1.ffn.output_proj.bias
+text_decoder.layers.1.ffn_layer_norm.weight
+text_decoder.layers.1.ffn_layer_norm.bias
+text_decoder.layers.2.self_attn.k_proj.weight
+text_decoder.layers.2.self_attn.k_proj.bias
+text_decoder.layers.2.self_attn.v_proj.weight
+text_decoder.layers.2.self_attn.v_proj.bias
+text_decoder.layers.2.self_attn.q_proj.weight
+text_decoder.layers.2.self_attn.q_proj.bias
+text_decoder.layers.2.self_attn.output_proj.weight
+text_decoder.layers.2.self_attn.output_proj.bias
+text_decoder.layers.2.self_attn_layer_norm.weight
+text_decoder.layers.2.self_attn_layer_norm.bias
+text_decoder.layers.2.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.2.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.2.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.2.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.2.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.2.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.2.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.2.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.2.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.2.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.2.ffn.inner_proj.weight
+text_decoder.layers.2.ffn.inner_proj.bias
+text_decoder.layers.2.ffn.output_proj.weight
+text_decoder.layers.2.ffn.output_proj.bias
+text_decoder.layers.2.ffn_layer_norm.weight
+text_decoder.layers.2.ffn_layer_norm.bias
+text_decoder.layers.3.self_attn.k_proj.weight
+text_decoder.layers.3.self_attn.k_proj.bias
+text_decoder.layers.3.self_attn.v_proj.weight
+text_decoder.layers.3.self_attn.v_proj.bias
+text_decoder.layers.3.self_attn.q_proj.weight
+text_decoder.layers.3.self_attn.q_proj.bias
+text_decoder.layers.3.self_attn.output_proj.weight
+text_decoder.layers.3.self_attn.output_proj.bias
+text_decoder.layers.3.self_attn_layer_norm.weight
+text_decoder.layers.3.self_attn_layer_norm.bias
+text_decoder.layers.3.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.3.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.3.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.3.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.3.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.3.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.3.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.3.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.3.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.3.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.3.ffn.inner_proj.weight
+text_decoder.layers.3.ffn.inner_proj.bias
+text_decoder.layers.3.ffn.output_proj.weight
+text_decoder.layers.3.ffn.output_proj.bias
+text_decoder.layers.3.ffn_layer_norm.weight
+text_decoder.layers.3.ffn_layer_norm.bias
+text_decoder.layers.4.self_attn.k_proj.weight
+text_decoder.layers.4.self_attn.k_proj.bias
+text_decoder.layers.4.self_attn.v_proj.weight
+text_decoder.layers.4.self_attn.v_proj.bias
+text_decoder.layers.4.self_attn.q_proj.weight
+text_decoder.layers.4.self_attn.q_proj.bias
+text_decoder.layers.4.self_attn.output_proj.weight
+text_decoder.layers.4.self_attn.output_proj.bias
+text_decoder.layers.4.self_attn_layer_norm.weight
+text_decoder.layers.4.self_attn_layer_norm.bias
+text_decoder.layers.4.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.4.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.4.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.4.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.4.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.4.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.4.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.4.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.4.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.4.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.4.ffn.inner_proj.weight
+text_decoder.layers.4.ffn.inner_proj.bias
+text_decoder.layers.4.ffn.output_proj.weight
+text_decoder.layers.4.ffn.output_proj.bias
+text_decoder.layers.4.ffn_layer_norm.weight
+text_decoder.layers.4.ffn_layer_norm.bias
+text_decoder.layers.5.self_attn.k_proj.weight
+text_decoder.layers.5.self_attn.k_proj.bias
+text_decoder.layers.5.self_attn.v_proj.weight
+text_decoder.layers.5.self_attn.v_proj.bias
+text_decoder.layers.5.self_attn.q_proj.weight
+text_decoder.layers.5.self_attn.q_proj.bias
+text_decoder.layers.5.self_attn.output_proj.weight
+text_decoder.layers.5.self_attn.output_proj.bias
+text_decoder.layers.5.self_attn_layer_norm.weight
+text_decoder.layers.5.self_attn_layer_norm.bias
+text_decoder.layers.5.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.5.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.5.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.5.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.5.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.5.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.5.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.5.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.5.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.5.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.5.ffn.inner_proj.weight
+text_decoder.layers.5.ffn.inner_proj.bias
+text_decoder.layers.5.ffn.output_proj.weight
+text_decoder.layers.5.ffn.output_proj.bias
+text_decoder.layers.5.ffn_layer_norm.weight
+text_decoder.layers.5.ffn_layer_norm.bias
+text_decoder.layers.6.self_attn.k_proj.weight
+text_decoder.layers.6.self_attn.k_proj.bias
+text_decoder.layers.6.self_attn.v_proj.weight
+text_decoder.layers.6.self_attn.v_proj.bias
+text_decoder.layers.6.self_attn.q_proj.weight
+text_decoder.layers.6.self_attn.q_proj.bias
+text_decoder.layers.6.self_attn.output_proj.weight
+text_decoder.layers.6.self_attn.output_proj.bias
+text_decoder.layers.6.self_attn_layer_norm.weight
+text_decoder.layers.6.self_attn_layer_norm.bias
+text_decoder.layers.6.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.6.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.6.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.6.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.6.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.6.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.6.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.6.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.6.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.6.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.6.ffn.inner_proj.weight
+text_decoder.layers.6.ffn.inner_proj.bias
+text_decoder.layers.6.ffn.output_proj.weight
+text_decoder.layers.6.ffn.output_proj.bias
+text_decoder.layers.6.ffn_layer_norm.weight
+text_decoder.layers.6.ffn_layer_norm.bias
+text_decoder.layers.7.self_attn.k_proj.weight
+text_decoder.layers.7.self_attn.k_proj.bias
+text_decoder.layers.7.self_attn.v_proj.weight
+text_decoder.layers.7.self_attn.v_proj.bias
+text_decoder.layers.7.self_attn.q_proj.weight
+text_decoder.layers.7.self_attn.q_proj.bias
+text_decoder.layers.7.self_attn.output_proj.weight
+text_decoder.layers.7.self_attn.output_proj.bias
+text_decoder.layers.7.self_attn_layer_norm.weight
+text_decoder.layers.7.self_attn_layer_norm.bias
+text_decoder.layers.7.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.7.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.7.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.7.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.7.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.7.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.7.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.7.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.7.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.7.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.7.ffn.inner_proj.weight
+text_decoder.layers.7.ffn.inner_proj.bias
+text_decoder.layers.7.ffn.output_proj.weight
+text_decoder.layers.7.ffn.output_proj.bias
+text_decoder.layers.7.ffn_layer_norm.weight
+text_decoder.layers.7.ffn_layer_norm.bias
+text_decoder.layers.8.self_attn.k_proj.weight
+text_decoder.layers.8.self_attn.k_proj.bias
+text_decoder.layers.8.self_attn.v_proj.weight
+text_decoder.layers.8.self_attn.v_proj.bias
+text_decoder.layers.8.self_attn.q_proj.weight
+text_decoder.layers.8.self_attn.q_proj.bias
+text_decoder.layers.8.self_attn.output_proj.weight
+text_decoder.layers.8.self_attn.output_proj.bias
+text_decoder.layers.8.self_attn_layer_norm.weight
+text_decoder.layers.8.self_attn_layer_norm.bias
+text_decoder.layers.8.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.8.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.8.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.8.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.8.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.8.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.8.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.8.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.8.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.8.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.8.ffn.inner_proj.weight
+text_decoder.layers.8.ffn.inner_proj.bias
+text_decoder.layers.8.ffn.output_proj.weight
+text_decoder.layers.8.ffn.output_proj.bias
+text_decoder.layers.8.ffn_layer_norm.weight
+text_decoder.layers.8.ffn_layer_norm.bias
+text_decoder.layers.9.self_attn.k_proj.weight
+text_decoder.layers.9.self_attn.k_proj.bias
+text_decoder.layers.9.self_attn.v_proj.weight
+text_decoder.layers.9.self_attn.v_proj.bias
+text_decoder.layers.9.self_attn.q_proj.weight
+text_decoder.layers.9.self_attn.q_proj.bias
+text_decoder.layers.9.self_attn.output_proj.weight
+text_decoder.layers.9.self_attn.output_proj.bias
+text_decoder.layers.9.self_attn_layer_norm.weight
+text_decoder.layers.9.self_attn_layer_norm.bias
+text_decoder.layers.9.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.9.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.9.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.9.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.9.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.9.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.9.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.9.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.9.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.9.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.9.ffn.inner_proj.weight
+text_decoder.layers.9.ffn.inner_proj.bias
+text_decoder.layers.9.ffn.output_proj.weight
+text_decoder.layers.9.ffn.output_proj.bias
+text_decoder.layers.9.ffn_layer_norm.weight
+text_decoder.layers.9.ffn_layer_norm.bias
+text_decoder.layers.10.self_attn.k_proj.weight
+text_decoder.layers.10.self_attn.k_proj.bias
+text_decoder.layers.10.self_attn.v_proj.weight
+text_decoder.layers.10.self_attn.v_proj.bias
+text_decoder.layers.10.self_attn.q_proj.weight
+text_decoder.layers.10.self_attn.q_proj.bias
+text_decoder.layers.10.self_attn.output_proj.weight
+text_decoder.layers.10.self_attn.output_proj.bias
+text_decoder.layers.10.self_attn_layer_norm.weight
+text_decoder.layers.10.self_attn_layer_norm.bias
+text_decoder.layers.10.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.10.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.10.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.10.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.10.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.10.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.10.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.10.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.10.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.10.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.10.ffn.inner_proj.weight
+text_decoder.layers.10.ffn.inner_proj.bias
+text_decoder.layers.10.ffn.output_proj.weight
+text_decoder.layers.10.ffn.output_proj.bias
+text_decoder.layers.10.ffn_layer_norm.weight
+text_decoder.layers.10.ffn_layer_norm.bias
+text_decoder.layers.11.self_attn.k_proj.weight
+text_decoder.layers.11.self_attn.k_proj.bias
+text_decoder.layers.11.self_attn.v_proj.weight
+text_decoder.layers.11.self_attn.v_proj.bias
+text_decoder.layers.11.self_attn.q_proj.weight
+text_decoder.layers.11.self_attn.q_proj.bias
+text_decoder.layers.11.self_attn.output_proj.weight
+text_decoder.layers.11.self_attn.output_proj.bias
+text_decoder.layers.11.self_attn_layer_norm.weight
+text_decoder.layers.11.self_attn_layer_norm.bias
+text_decoder.layers.11.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.11.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.11.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.11.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.11.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.11.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.11.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.11.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.11.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.11.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.11.ffn.inner_proj.weight
+text_decoder.layers.11.ffn.inner_proj.bias
+text_decoder.layers.11.ffn.output_proj.weight
+text_decoder.layers.11.ffn.output_proj.bias
+text_decoder.layers.11.ffn_layer_norm.weight
+text_decoder.layers.11.ffn_layer_norm.bias
+text_decoder.layers.12.self_attn.k_proj.weight
+text_decoder.layers.12.self_attn.k_proj.bias
+text_decoder.layers.12.self_attn.v_proj.weight
+text_decoder.layers.12.self_attn.v_proj.bias
+text_decoder.layers.12.self_attn.q_proj.weight
+text_decoder.layers.12.self_attn.q_proj.bias
+text_decoder.layers.12.self_attn.output_proj.weight
+text_decoder.layers.12.self_attn.output_proj.bias
+text_decoder.layers.12.self_attn_layer_norm.weight
+text_decoder.layers.12.self_attn_layer_norm.bias
+text_decoder.layers.12.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.12.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.12.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.12.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.12.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.12.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.12.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.12.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.12.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.12.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.12.ffn.inner_proj.weight
+text_decoder.layers.12.ffn.inner_proj.bias
+text_decoder.layers.12.ffn.output_proj.weight
+text_decoder.layers.12.ffn.output_proj.bias
+text_decoder.layers.12.ffn_layer_norm.weight
+text_decoder.layers.12.ffn_layer_norm.bias
+text_decoder.layers.13.self_attn.k_proj.weight
+text_decoder.layers.13.self_attn.k_proj.bias
+text_decoder.layers.13.self_attn.v_proj.weight
+text_decoder.layers.13.self_attn.v_proj.bias
+text_decoder.layers.13.self_attn.q_proj.weight
+text_decoder.layers.13.self_attn.q_proj.bias
+text_decoder.layers.13.self_attn.output_proj.weight
+text_decoder.layers.13.self_attn.output_proj.bias
+text_decoder.layers.13.self_attn_layer_norm.weight
+text_decoder.layers.13.self_attn_layer_norm.bias
+text_decoder.layers.13.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.13.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.13.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.13.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.13.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.13.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.13.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.13.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.13.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.13.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.13.ffn.inner_proj.weight
+text_decoder.layers.13.ffn.inner_proj.bias
+text_decoder.layers.13.ffn.output_proj.weight
+text_decoder.layers.13.ffn.output_proj.bias
+text_decoder.layers.13.ffn_layer_norm.weight
+text_decoder.layers.13.ffn_layer_norm.bias
+text_decoder.layers.14.self_attn.k_proj.weight
+text_decoder.layers.14.self_attn.k_proj.bias
+text_decoder.layers.14.self_attn.v_proj.weight
+text_decoder.layers.14.self_attn.v_proj.bias
+text_decoder.layers.14.self_attn.q_proj.weight
+text_decoder.layers.14.self_attn.q_proj.bias
+text_decoder.layers.14.self_attn.output_proj.weight
+text_decoder.layers.14.self_attn.output_proj.bias
+text_decoder.layers.14.self_attn_layer_norm.weight
+text_decoder.layers.14.self_attn_layer_norm.bias
+text_decoder.layers.14.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.14.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.14.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.14.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.14.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.14.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.14.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.14.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.14.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.14.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.14.ffn.inner_proj.weight
+text_decoder.layers.14.ffn.inner_proj.bias
+text_decoder.layers.14.ffn.output_proj.weight
+text_decoder.layers.14.ffn.output_proj.bias
+text_decoder.layers.14.ffn_layer_norm.weight
+text_decoder.layers.14.ffn_layer_norm.bias
+text_decoder.layers.15.self_attn.k_proj.weight
+text_decoder.layers.15.self_attn.k_proj.bias
+text_decoder.layers.15.self_attn.v_proj.weight
+text_decoder.layers.15.self_attn.v_proj.bias
+text_decoder.layers.15.self_attn.q_proj.weight
+text_decoder.layers.15.self_attn.q_proj.bias
+text_decoder.layers.15.self_attn.output_proj.weight
+text_decoder.layers.15.self_attn.output_proj.bias
+text_decoder.layers.15.self_attn_layer_norm.weight
+text_decoder.layers.15.self_attn_layer_norm.bias
+text_decoder.layers.15.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.15.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.15.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.15.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.15.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.15.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.15.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.15.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.15.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.15.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.15.ffn.inner_proj.weight
+text_decoder.layers.15.ffn.inner_proj.bias
+text_decoder.layers.15.ffn.output_proj.weight
+text_decoder.layers.15.ffn.output_proj.bias
+text_decoder.layers.15.ffn_layer_norm.weight
+text_decoder.layers.15.ffn_layer_norm.bias
+text_decoder.layers.16.self_attn.k_proj.weight
+text_decoder.layers.16.self_attn.k_proj.bias
+text_decoder.layers.16.self_attn.v_proj.weight
+text_decoder.layers.16.self_attn.v_proj.bias
+text_decoder.layers.16.self_attn.q_proj.weight
+text_decoder.layers.16.self_attn.q_proj.bias
+text_decoder.layers.16.self_attn.output_proj.weight
+text_decoder.layers.16.self_attn.output_proj.bias
+text_decoder.layers.16.self_attn_layer_norm.weight
+text_decoder.layers.16.self_attn_layer_norm.bias
+text_decoder.layers.16.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.16.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.16.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.16.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.16.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.16.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.16.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.16.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.16.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.16.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.16.ffn.inner_proj.weight
+text_decoder.layers.16.ffn.inner_proj.bias
+text_decoder.layers.16.ffn.output_proj.weight
+text_decoder.layers.16.ffn.output_proj.bias
+text_decoder.layers.16.ffn_layer_norm.weight
+text_decoder.layers.16.ffn_layer_norm.bias
+text_decoder.layers.17.self_attn.k_proj.weight
+text_decoder.layers.17.self_attn.k_proj.bias
+text_decoder.layers.17.self_attn.v_proj.weight
+text_decoder.layers.17.self_attn.v_proj.bias
+text_decoder.layers.17.self_attn.q_proj.weight
+text_decoder.layers.17.self_attn.q_proj.bias
+text_decoder.layers.17.self_attn.output_proj.weight
+text_decoder.layers.17.self_attn.output_proj.bias
+text_decoder.layers.17.self_attn_layer_norm.weight
+text_decoder.layers.17.self_attn_layer_norm.bias
+text_decoder.layers.17.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.17.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.17.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.17.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.17.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.17.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.17.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.17.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.17.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.17.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.17.ffn.inner_proj.weight
+text_decoder.layers.17.ffn.inner_proj.bias
+text_decoder.layers.17.ffn.output_proj.weight
+text_decoder.layers.17.ffn.output_proj.bias
+text_decoder.layers.17.ffn_layer_norm.weight
+text_decoder.layers.17.ffn_layer_norm.bias
+text_decoder.layers.18.self_attn.k_proj.weight
+text_decoder.layers.18.self_attn.k_proj.bias
+text_decoder.layers.18.self_attn.v_proj.weight
+text_decoder.layers.18.self_attn.v_proj.bias
+text_decoder.layers.18.self_attn.q_proj.weight
+text_decoder.layers.18.self_attn.q_proj.bias
+text_decoder.layers.18.self_attn.output_proj.weight
+text_decoder.layers.18.self_attn.output_proj.bias
+text_decoder.layers.18.self_attn_layer_norm.weight
+text_decoder.layers.18.self_attn_layer_norm.bias
+text_decoder.layers.18.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.18.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.18.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.18.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.18.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.18.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.18.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.18.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.18.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.18.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.18.ffn.inner_proj.weight
+text_decoder.layers.18.ffn.inner_proj.bias
+text_decoder.layers.18.ffn.output_proj.weight
+text_decoder.layers.18.ffn.output_proj.bias
+text_decoder.layers.18.ffn_layer_norm.weight
+text_decoder.layers.18.ffn_layer_norm.bias
+text_decoder.layers.19.self_attn.k_proj.weight
+text_decoder.layers.19.self_attn.k_proj.bias
+text_decoder.layers.19.self_attn.v_proj.weight
+text_decoder.layers.19.self_attn.v_proj.bias
+text_decoder.layers.19.self_attn.q_proj.weight
+text_decoder.layers.19.self_attn.q_proj.bias
+text_decoder.layers.19.self_attn.output_proj.weight
+text_decoder.layers.19.self_attn.output_proj.bias
+text_decoder.layers.19.self_attn_layer_norm.weight
+text_decoder.layers.19.self_attn_layer_norm.bias
+text_decoder.layers.19.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.19.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.19.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.19.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.19.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.19.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.19.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.19.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.19.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.19.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.19.ffn.inner_proj.weight
+text_decoder.layers.19.ffn.inner_proj.bias
+text_decoder.layers.19.ffn.output_proj.weight
+text_decoder.layers.19.ffn.output_proj.bias
+text_decoder.layers.19.ffn_layer_norm.weight
+text_decoder.layers.19.ffn_layer_norm.bias
+text_decoder.layers.20.self_attn.k_proj.weight
+text_decoder.layers.20.self_attn.k_proj.bias
+text_decoder.layers.20.self_attn.v_proj.weight
+text_decoder.layers.20.self_attn.v_proj.bias
+text_decoder.layers.20.self_attn.q_proj.weight
+text_decoder.layers.20.self_attn.q_proj.bias
+text_decoder.layers.20.self_attn.output_proj.weight
+text_decoder.layers.20.self_attn.output_proj.bias
+text_decoder.layers.20.self_attn_layer_norm.weight
+text_decoder.layers.20.self_attn_layer_norm.bias
+text_decoder.layers.20.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.20.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.20.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.20.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.20.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.20.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.20.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.20.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.20.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.20.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.20.ffn.inner_proj.weight
+text_decoder.layers.20.ffn.inner_proj.bias
+text_decoder.layers.20.ffn.output_proj.weight
+text_decoder.layers.20.ffn.output_proj.bias
+text_decoder.layers.20.ffn_layer_norm.weight
+text_decoder.layers.20.ffn_layer_norm.bias
+text_decoder.layers.21.self_attn.k_proj.weight
+text_decoder.layers.21.self_attn.k_proj.bias
+text_decoder.layers.21.self_attn.v_proj.weight
+text_decoder.layers.21.self_attn.v_proj.bias
+text_decoder.layers.21.self_attn.q_proj.weight
+text_decoder.layers.21.self_attn.q_proj.bias
+text_decoder.layers.21.self_attn.output_proj.weight
+text_decoder.layers.21.self_attn.output_proj.bias
+text_decoder.layers.21.self_attn_layer_norm.weight
+text_decoder.layers.21.self_attn_layer_norm.bias
+text_decoder.layers.21.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.21.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.21.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.21.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.21.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.21.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.21.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.21.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.21.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.21.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.21.ffn.inner_proj.weight
+text_decoder.layers.21.ffn.inner_proj.bias
+text_decoder.layers.21.ffn.output_proj.weight
+text_decoder.layers.21.ffn.output_proj.bias
+text_decoder.layers.21.ffn_layer_norm.weight
+text_decoder.layers.21.ffn_layer_norm.bias
+text_decoder.layers.22.self_attn.k_proj.weight
+text_decoder.layers.22.self_attn.k_proj.bias
+text_decoder.layers.22.self_attn.v_proj.weight
+text_decoder.layers.22.self_attn.v_proj.bias
+text_decoder.layers.22.self_attn.q_proj.weight
+text_decoder.layers.22.self_attn.q_proj.bias
+text_decoder.layers.22.self_attn.output_proj.weight
+text_decoder.layers.22.self_attn.output_proj.bias
+text_decoder.layers.22.self_attn_layer_norm.weight
+text_decoder.layers.22.self_attn_layer_norm.bias
+text_decoder.layers.22.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.22.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.22.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.22.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.22.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.22.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.22.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.22.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.22.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.22.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.22.ffn.inner_proj.weight
+text_decoder.layers.22.ffn.inner_proj.bias
+text_decoder.layers.22.ffn.output_proj.weight
+text_decoder.layers.22.ffn.output_proj.bias
+text_decoder.layers.22.ffn_layer_norm.weight
+text_decoder.layers.22.ffn_layer_norm.bias
+text_decoder.layers.23.self_attn.k_proj.weight
+text_decoder.layers.23.self_attn.k_proj.bias
+text_decoder.layers.23.self_attn.v_proj.weight
+text_decoder.layers.23.self_attn.v_proj.bias
+text_decoder.layers.23.self_attn.q_proj.weight
+text_decoder.layers.23.self_attn.q_proj.bias
+text_decoder.layers.23.self_attn.output_proj.weight
+text_decoder.layers.23.self_attn.output_proj.bias
+text_decoder.layers.23.self_attn_layer_norm.weight
+text_decoder.layers.23.self_attn_layer_norm.bias
+text_decoder.layers.23.encoder_decoder_attn.k_proj.weight
+text_decoder.layers.23.encoder_decoder_attn.k_proj.bias
+text_decoder.layers.23.encoder_decoder_attn.v_proj.weight
+text_decoder.layers.23.encoder_decoder_attn.v_proj.bias
+text_decoder.layers.23.encoder_decoder_attn.q_proj.weight
+text_decoder.layers.23.encoder_decoder_attn.q_proj.bias
+text_decoder.layers.23.encoder_decoder_attn.output_proj.weight
+text_decoder.layers.23.encoder_decoder_attn.output_proj.bias
+text_decoder.layers.23.encoder_decoder_attn_layer_norm.weight
+text_decoder.layers.23.encoder_decoder_attn_layer_norm.bias
+text_decoder.layers.23.ffn.inner_proj.weight
+text_decoder.layers.23.ffn.inner_proj.bias
+text_decoder.layers.23.ffn.output_proj.weight
+text_decoder.layers.23.ffn.output_proj.bias
+text_decoder.layers.23.ffn_layer_norm.weight
+text_decoder.layers.23.ffn_layer_norm.bias
+text_decoder.layer_norm.weight
+text_decoder.layer_norm.bias
+final_proj.weight
+t2u_model.encoder.layers.0.self_attn.k_proj.weight
+t2u_model.encoder.layers.0.self_attn.k_proj.bias
+t2u_model.encoder.layers.0.self_attn.v_proj.weight
+t2u_model.encoder.layers.0.self_attn.v_proj.bias
+t2u_model.encoder.layers.0.self_attn.q_proj.weight
+t2u_model.encoder.layers.0.self_attn.q_proj.bias
+t2u_model.encoder.layers.0.self_attn.output_proj.weight
+t2u_model.encoder.layers.0.self_attn.output_proj.bias
+t2u_model.encoder.layers.0.self_attn_layer_norm.weight
+t2u_model.encoder.layers.0.self_attn_layer_norm.bias
+t2u_model.encoder.layers.0.ffn.inner_proj.weight
+t2u_model.encoder.layers.0.ffn.inner_proj.bias
+t2u_model.encoder.layers.0.ffn.output_proj.weight
+t2u_model.encoder.layers.0.ffn.output_proj.bias
+t2u_model.encoder.layers.0.ffn_layer_norm.weight
+t2u_model.encoder.layers.0.ffn_layer_norm.bias
+t2u_model.encoder.layers.1.self_attn.k_proj.weight
+t2u_model.encoder.layers.1.self_attn.k_proj.bias
+t2u_model.encoder.layers.1.self_attn.v_proj.weight
+t2u_model.encoder.layers.1.self_attn.v_proj.bias
+t2u_model.encoder.layers.1.self_attn.q_proj.weight
+t2u_model.encoder.layers.1.self_attn.q_proj.bias
+t2u_model.encoder.layers.1.self_attn.output_proj.weight
+t2u_model.encoder.layers.1.self_attn.output_proj.bias
+t2u_model.encoder.layers.1.self_attn_layer_norm.weight
+t2u_model.encoder.layers.1.self_attn_layer_norm.bias
+t2u_model.encoder.layers.1.ffn.inner_proj.weight
+t2u_model.encoder.layers.1.ffn.inner_proj.bias
+t2u_model.encoder.layers.1.ffn.output_proj.weight
+t2u_model.encoder.layers.1.ffn.output_proj.bias
+t2u_model.encoder.layers.1.ffn_layer_norm.weight
+t2u_model.encoder.layers.1.ffn_layer_norm.bias
+t2u_model.encoder.layers.2.self_attn.k_proj.weight
+t2u_model.encoder.layers.2.self_attn.k_proj.bias
+t2u_model.encoder.layers.2.self_attn.v_proj.weight
+t2u_model.encoder.layers.2.self_attn.v_proj.bias
+t2u_model.encoder.layers.2.self_attn.q_proj.weight
+t2u_model.encoder.layers.2.self_attn.q_proj.bias
+t2u_model.encoder.layers.2.self_attn.output_proj.weight
+t2u_model.encoder.layers.2.self_attn.output_proj.bias
+t2u_model.encoder.layers.2.self_attn_layer_norm.weight
+t2u_model.encoder.layers.2.self_attn_layer_norm.bias
+t2u_model.encoder.layers.2.ffn.inner_proj.weight
+t2u_model.encoder.layers.2.ffn.inner_proj.bias
+t2u_model.encoder.layers.2.ffn.output_proj.weight
+t2u_model.encoder.layers.2.ffn.output_proj.bias
+t2u_model.encoder.layers.2.ffn_layer_norm.weight
+t2u_model.encoder.layers.2.ffn_layer_norm.bias
+t2u_model.encoder.layers.3.self_attn.k_proj.weight
+t2u_model.encoder.layers.3.self_attn.k_proj.bias
+t2u_model.encoder.layers.3.self_attn.v_proj.weight
+t2u_model.encoder.layers.3.self_attn.v_proj.bias
+t2u_model.encoder.layers.3.self_attn.q_proj.weight
+t2u_model.encoder.layers.3.self_attn.q_proj.bias
+t2u_model.encoder.layers.3.self_attn.output_proj.weight
+t2u_model.encoder.layers.3.self_attn.output_proj.bias
+t2u_model.encoder.layers.3.self_attn_layer_norm.weight
+t2u_model.encoder.layers.3.self_attn_layer_norm.bias
+t2u_model.encoder.layers.3.ffn.inner_proj.weight
+t2u_model.encoder.layers.3.ffn.inner_proj.bias
+t2u_model.encoder.layers.3.ffn.output_proj.weight
+t2u_model.encoder.layers.3.ffn.output_proj.bias
+t2u_model.encoder.layers.3.ffn_layer_norm.weight
+t2u_model.encoder.layers.3.ffn_layer_norm.bias
+t2u_model.encoder.layer_norm.weight
+t2u_model.encoder.layer_norm.bias
+t2u_model.decoder_frontend.pos_emb_alpha
+t2u_model.decoder_frontend.pos_emb_alpha_char
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.conv1.0.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.conv1.0.bias
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.ln1.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.ln1.bias
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.conv2.0.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.conv2.0.bias
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.ln2.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.ln2.bias
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.proj.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.proj.bias
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.film.s_gamma
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.film.s_beta
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.film.proj.weight
+t2u_model.decoder_frontend.variance_adaptor.duration_predictor.film.proj.bias
+t2u_model.decoder.layers.0.self_attn.k_proj.weight
+t2u_model.decoder.layers.0.self_attn.k_proj.bias
+t2u_model.decoder.layers.0.self_attn.v_proj.weight
+t2u_model.decoder.layers.0.self_attn.v_proj.bias
+t2u_model.decoder.layers.0.self_attn.q_proj.weight
+t2u_model.decoder.layers.0.self_attn.q_proj.bias
+t2u_model.decoder.layers.0.self_attn.output_proj.weight
+t2u_model.decoder.layers.0.self_attn.output_proj.bias
+t2u_model.decoder.layers.0.self_attn_layer_norm.weight
+t2u_model.decoder.layers.0.self_attn_layer_norm.bias
+t2u_model.decoder.layers.0.conv1d.conv1.weight
+t2u_model.decoder.layers.0.conv1d.conv1.bias
+t2u_model.decoder.layers.0.conv1d.conv2.weight
+t2u_model.decoder.layers.0.conv1d.conv2.bias
+t2u_model.decoder.layers.0.conv1d_layer_norm.weight
+t2u_model.decoder.layers.0.conv1d_layer_norm.bias
+t2u_model.decoder.layers.0.film.s_gamma
+t2u_model.decoder.layers.0.film.s_beta
+t2u_model.decoder.layers.0.film.proj.weight
+t2u_model.decoder.layers.0.film.proj.bias
+t2u_model.decoder.layers.1.self_attn.k_proj.weight
+t2u_model.decoder.layers.1.self_attn.k_proj.bias
+t2u_model.decoder.layers.1.self_attn.v_proj.weight
+t2u_model.decoder.layers.1.self_attn.v_proj.bias
+t2u_model.decoder.layers.1.self_attn.q_proj.weight
+t2u_model.decoder.layers.1.self_attn.q_proj.bias
+t2u_model.decoder.layers.1.self_attn.output_proj.weight
+t2u_model.decoder.layers.1.self_attn.output_proj.bias
+t2u_model.decoder.layers.1.self_attn_layer_norm.weight
+t2u_model.decoder.layers.1.self_attn_layer_norm.bias
+t2u_model.decoder.layers.1.conv1d.conv1.weight
+t2u_model.decoder.layers.1.conv1d.conv1.bias
+t2u_model.decoder.layers.1.conv1d.conv2.weight
+t2u_model.decoder.layers.1.conv1d.conv2.bias
+t2u_model.decoder.layers.1.conv1d_layer_norm.weight
+t2u_model.decoder.layers.1.conv1d_layer_norm.bias
+t2u_model.decoder.layers.1.film.s_gamma
+t2u_model.decoder.layers.1.film.s_beta
+t2u_model.decoder.layers.1.film.proj.weight
+t2u_model.decoder.layers.1.film.proj.bias
+t2u_model.decoder.layers.2.self_attn.k_proj.weight
+t2u_model.decoder.layers.2.self_attn.k_proj.bias
+t2u_model.decoder.layers.2.self_attn.v_proj.weight
+t2u_model.decoder.layers.2.self_attn.v_proj.bias
+t2u_model.decoder.layers.2.self_attn.q_proj.weight
+t2u_model.decoder.layers.2.self_attn.q_proj.bias
+t2u_model.decoder.layers.2.self_attn.output_proj.weight
+t2u_model.decoder.layers.2.self_attn.output_proj.bias
+t2u_model.decoder.layers.2.self_attn_layer_norm.weight
+t2u_model.decoder.layers.2.self_attn_layer_norm.bias
+t2u_model.decoder.layers.2.conv1d.conv1.weight
+t2u_model.decoder.layers.2.conv1d.conv1.bias
+t2u_model.decoder.layers.2.conv1d.conv2.weight
+t2u_model.decoder.layers.2.conv1d.conv2.bias
+t2u_model.decoder.layers.2.conv1d_layer_norm.weight
+t2u_model.decoder.layers.2.conv1d_layer_norm.bias
+t2u_model.decoder.layers.2.film.s_gamma
+t2u_model.decoder.layers.2.film.s_beta
+t2u_model.decoder.layers.2.film.proj.weight
+t2u_model.decoder.layers.2.film.proj.bias
+t2u_model.decoder.layers.3.self_attn.k_proj.weight
+t2u_model.decoder.layers.3.self_attn.k_proj.bias
+t2u_model.decoder.layers.3.self_attn.v_proj.weight
+t2u_model.decoder.layers.3.self_attn.v_proj.bias
+t2u_model.decoder.layers.3.self_attn.q_proj.weight
+t2u_model.decoder.layers.3.self_attn.q_proj.bias
+t2u_model.decoder.layers.3.self_attn.output_proj.weight
+t2u_model.decoder.layers.3.self_attn.output_proj.bias
+t2u_model.decoder.layers.3.self_attn_layer_norm.weight
+t2u_model.decoder.layers.3.self_attn_layer_norm.bias
+t2u_model.decoder.layers.3.conv1d.conv1.weight
+t2u_model.decoder.layers.3.conv1d.conv1.bias
+t2u_model.decoder.layers.3.conv1d.conv2.weight
+t2u_model.decoder.layers.3.conv1d.conv2.bias
+t2u_model.decoder.layers.3.conv1d_layer_norm.weight
+t2u_model.decoder.layers.3.conv1d_layer_norm.bias
+t2u_model.decoder.layers.3.film.s_gamma
+t2u_model.decoder.layers.3.film.s_beta
+t2u_model.decoder.layers.3.film.proj.weight
+t2u_model.decoder.layers.3.film.proj.bias
+t2u_model.decoder.layer_norm.weight
+t2u_model.decoder.layer_norm.bias
+t2u_model.decoder_frontend.embed_char.weight
+t2u_model.decoder_frontend.embed.weight
+t2u_model.final_proj.weight
+t2u_model.prosody_proj.weight
+t2u_model.prosody_proj.bias
+prosody_encoder_model.blocks.0.conv.weight
+prosody_encoder_model.blocks.0.conv.bias
+prosody_encoder_model.blocks.0.norm.weight
+prosody_encoder_model.blocks.0.norm.bias
+prosody_encoder_model.blocks.1.tdnn1.conv.weight
+prosody_encoder_model.blocks.1.tdnn1.conv.bias
+prosody_encoder_model.blocks.1.tdnn1.norm.weight
+prosody_encoder_model.blocks.1.tdnn1.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.0.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.0.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.0.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.0.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.1.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.1.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.1.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.1.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.2.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.2.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.2.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.2.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.3.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.3.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.3.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.3.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.4.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.4.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.4.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.4.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.5.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.5.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.5.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.5.norm.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.6.conv.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.6.conv.bias
+prosody_encoder_model.blocks.1.res2net_block.blocks.6.norm.weight
+prosody_encoder_model.blocks.1.res2net_block.blocks.6.norm.bias
+prosody_encoder_model.blocks.1.tdnn2.conv.weight
+prosody_encoder_model.blocks.1.tdnn2.conv.bias
+prosody_encoder_model.blocks.1.tdnn2.norm.weight
+prosody_encoder_model.blocks.1.tdnn2.norm.bias
+prosody_encoder_model.blocks.1.se_block.conv1.weight
+prosody_encoder_model.blocks.1.se_block.conv1.bias
+prosody_encoder_model.blocks.1.se_block.conv2.weight
+prosody_encoder_model.blocks.1.se_block.conv2.bias
+prosody_encoder_model.blocks.2.tdnn1.conv.weight
+prosody_encoder_model.blocks.2.tdnn1.conv.bias
+prosody_encoder_model.blocks.2.tdnn1.norm.weight
+prosody_encoder_model.blocks.2.tdnn1.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.0.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.0.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.0.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.0.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.1.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.1.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.1.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.1.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.2.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.2.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.2.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.2.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.3.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.3.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.3.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.3.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.4.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.4.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.4.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.4.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.5.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.5.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.5.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.5.norm.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.6.conv.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.6.conv.bias
+prosody_encoder_model.blocks.2.res2net_block.blocks.6.norm.weight
+prosody_encoder_model.blocks.2.res2net_block.blocks.6.norm.bias
+prosody_encoder_model.blocks.2.tdnn2.conv.weight
+prosody_encoder_model.blocks.2.tdnn2.conv.bias
+prosody_encoder_model.blocks.2.tdnn2.norm.weight
+prosody_encoder_model.blocks.2.tdnn2.norm.bias
+prosody_encoder_model.blocks.2.se_block.conv1.weight
+prosody_encoder_model.blocks.2.se_block.conv1.bias
+prosody_encoder_model.blocks.2.se_block.conv2.weight
+prosody_encoder_model.blocks.2.se_block.conv2.bias
+prosody_encoder_model.blocks.3.tdnn1.conv.weight
+prosody_encoder_model.blocks.3.tdnn1.conv.bias
+prosody_encoder_model.blocks.3.tdnn1.norm.weight
+prosody_encoder_model.blocks.3.tdnn1.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.0.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.0.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.0.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.0.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.1.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.1.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.1.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.1.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.2.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.2.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.2.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.2.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.3.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.3.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.3.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.3.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.4.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.4.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.4.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.4.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.5.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.5.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.5.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.5.norm.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.6.conv.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.6.conv.bias
+prosody_encoder_model.blocks.3.res2net_block.blocks.6.norm.weight
+prosody_encoder_model.blocks.3.res2net_block.blocks.6.norm.bias
+prosody_encoder_model.blocks.3.tdnn2.conv.weight
+prosody_encoder_model.blocks.3.tdnn2.conv.bias
+prosody_encoder_model.blocks.3.tdnn2.norm.weight
+prosody_encoder_model.blocks.3.tdnn2.norm.bias
+prosody_encoder_model.blocks.3.se_block.conv1.weight
+prosody_encoder_model.blocks.3.se_block.conv1.bias
+prosody_encoder_model.blocks.3.se_block.conv2.weight
+prosody_encoder_model.blocks.3.se_block.conv2.bias
+prosody_encoder_model.mfa.conv.weight
+prosody_encoder_model.mfa.conv.bias
+prosody_encoder_model.mfa.norm.weight
+prosody_encoder_model.mfa.norm.bias
+prosody_encoder_model.asp.tdnn.conv.weight
+prosody_encoder_model.asp.tdnn.conv.bias
+prosody_encoder_model.asp.tdnn.norm.weight
+prosody_encoder_model.asp.tdnn.norm.bias
+prosody_encoder_model.asp.conv.weight
+prosody_encoder_model.asp.conv.bias
+prosody_encoder_model.asp_norm.weight
+prosody_encoder_model.asp_norm.bias
+prosody_encoder_model.fc.weight
+prosody_encoder_model.fc.bias

pretrained_models/ckpts/prosody_encoder/prosody_encoder_UnitY2.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf01eaec68b9f8a078ac80550a9ad7de3857fb52f3aac126e5de31aa036bd015
+size 14402800