Upload models

Browse files

Files changed (3) hide show

config.json +28 -0
model.safetensors +3 -0
model.safetensors.index.json +934 -0

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "attention_dropout": 0.0,
+  "drop_path_rate": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "key_bias": false,
+  "layer_norm_eps": 1e-05,
+  "layerscale_value": 1.0,
+  "mlp_bias": true,
+  "model_type": "dinov3_vit",
+  "num_attention_heads": 32,
+  "num_channels": 3,
+  "num_hidden_layers": 40,
+  "num_register_tokens": 4,
+  "patch_size": 16,
+  "pos_embed_jitter": null,
+  "pos_embed_rescale": 2.0,
+  "pos_embed_shift": null,
+  "proj_bias": true,
+  "query_bias": false,
+  "rope_theta": 100.0,
+  "transformers_version": "4.49.0",
+  "use_gated_mlp": true,
+  "value_bias": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdc9c4a188f2ba320efd0548d0ffa2523893107af0a81612886508eaed3cf218
+size 37602314888

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "metadata": {
+    "total_size": 37602214048
+  },
+  "weight_map": {
+    "embeddings.cls_token": "vision_encoder.safetensors",
+    "embeddings.mask_token": "vision_encoder.safetensors",
+    "embeddings.patch_embeddings.bias": "vision_encoder.safetensors",
+    "embeddings.patch_embeddings.weight": "vision_encoder.safetensors",
+    "embeddings.register_tokens": "vision_encoder.safetensors",
+    "layer.0.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.0.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.0.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.0.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.0.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.0.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.0.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.0.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.0.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.0.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.0.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.0.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.0.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.0.norm1.bias": "vision_encoder.safetensors",
+    "layer.0.norm1.weight": "vision_encoder.safetensors",
+    "layer.0.norm2.bias": "vision_encoder.safetensors",
+    "layer.0.norm2.weight": "vision_encoder.safetensors",
+    "layer.1.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.1.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.1.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.1.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.1.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.1.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.1.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.1.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.1.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.1.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.1.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.1.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.1.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.1.norm1.bias": "vision_encoder.safetensors",
+    "layer.1.norm1.weight": "vision_encoder.safetensors",
+    "layer.1.norm2.bias": "vision_encoder.safetensors",
+    "layer.1.norm2.weight": "vision_encoder.safetensors",
+    "layer.10.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.10.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.10.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.10.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.10.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.10.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.10.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.10.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.10.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.10.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.10.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.10.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.10.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.10.norm1.bias": "vision_encoder.safetensors",
+    "layer.10.norm1.weight": "vision_encoder.safetensors",
+    "layer.10.norm2.bias": "vision_encoder.safetensors",
+    "layer.10.norm2.weight": "vision_encoder.safetensors",
+    "layer.11.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.11.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.11.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.11.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.11.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.11.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.11.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.11.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.11.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.11.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.11.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.11.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.11.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.11.norm1.bias": "vision_encoder.safetensors",
+    "layer.11.norm1.weight": "vision_encoder.safetensors",
+    "layer.11.norm2.bias": "vision_encoder.safetensors",
+    "layer.11.norm2.weight": "vision_encoder.safetensors",
+    "layer.12.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.12.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.12.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.12.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.12.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.12.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.12.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.12.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.12.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.12.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.12.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.12.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.12.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.12.norm1.bias": "vision_encoder.safetensors",
+    "layer.12.norm1.weight": "vision_encoder.safetensors",
+    "layer.12.norm2.bias": "vision_encoder.safetensors",
+    "layer.12.norm2.weight": "vision_encoder.safetensors",
+    "layer.13.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.13.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.13.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.13.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.13.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.13.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.13.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.13.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.13.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.13.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.13.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.13.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.13.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.13.norm1.bias": "vision_encoder.safetensors",
+    "layer.13.norm1.weight": "vision_encoder.safetensors",
+    "layer.13.norm2.bias": "vision_encoder.safetensors",
+    "layer.13.norm2.weight": "vision_encoder.safetensors",
+    "layer.14.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.14.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.14.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.14.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.14.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.14.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.14.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.14.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.14.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.14.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.14.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.14.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.14.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.14.norm1.bias": "vision_encoder.safetensors",
+    "layer.14.norm1.weight": "vision_encoder.safetensors",
+    "layer.14.norm2.bias": "vision_encoder.safetensors",
+    "layer.14.norm2.weight": "vision_encoder.safetensors",
+    "layer.15.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.15.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.15.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.15.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.15.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.15.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.15.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.15.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.15.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.15.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.15.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.15.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.15.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.15.norm1.bias": "vision_encoder.safetensors",
+    "layer.15.norm1.weight": "vision_encoder.safetensors",
+    "layer.15.norm2.bias": "vision_encoder.safetensors",
+    "layer.15.norm2.weight": "vision_encoder.safetensors",
+    "layer.16.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.16.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.16.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.16.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.16.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.16.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.16.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.16.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.16.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.16.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.16.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.16.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.16.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.16.norm1.bias": "vision_encoder.safetensors",
+    "layer.16.norm1.weight": "vision_encoder.safetensors",
+    "layer.16.norm2.bias": "vision_encoder.safetensors",
+    "layer.16.norm2.weight": "vision_encoder.safetensors",
+    "layer.17.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.17.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.17.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.17.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.17.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.17.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.17.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.17.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.17.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.17.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.17.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.17.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.17.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.17.norm1.bias": "vision_encoder.safetensors",
+    "layer.17.norm1.weight": "vision_encoder.safetensors",
+    "layer.17.norm2.bias": "vision_encoder.safetensors",
+    "layer.17.norm2.weight": "vision_encoder.safetensors",
+    "layer.18.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.18.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.18.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.18.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.18.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.18.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.18.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.18.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.18.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.18.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.18.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.18.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.18.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.18.norm1.bias": "vision_encoder.safetensors",
+    "layer.18.norm1.weight": "vision_encoder.safetensors",
+    "layer.18.norm2.bias": "vision_encoder.safetensors",
+    "layer.18.norm2.weight": "vision_encoder.safetensors",
+    "layer.19.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.19.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.19.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.19.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.19.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.19.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.19.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.19.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.19.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.19.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.19.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.19.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.19.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.19.norm1.bias": "vision_encoder.safetensors",
+    "layer.19.norm1.weight": "vision_encoder.safetensors",
+    "layer.19.norm2.bias": "vision_encoder.safetensors",
+    "layer.19.norm2.weight": "vision_encoder.safetensors",
+    "layer.2.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.2.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.2.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.2.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.2.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.2.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.2.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.2.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.2.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.2.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.2.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.2.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.2.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.2.norm1.bias": "vision_encoder.safetensors",
+    "layer.2.norm1.weight": "vision_encoder.safetensors",
+    "layer.2.norm2.bias": "vision_encoder.safetensors",
+    "layer.2.norm2.weight": "vision_encoder.safetensors",
+    "layer.20.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.20.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.20.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.20.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.20.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.20.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.20.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.20.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.20.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.20.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.20.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.20.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.20.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.20.norm1.bias": "vision_encoder.safetensors",
+    "layer.20.norm1.weight": "vision_encoder.safetensors",
+    "layer.20.norm2.bias": "vision_encoder.safetensors",
+    "layer.20.norm2.weight": "vision_encoder.safetensors",
+    "layer.21.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.21.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.21.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.21.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.21.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.21.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.21.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.21.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.21.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.21.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.21.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.21.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.21.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.21.norm1.bias": "vision_encoder.safetensors",
+    "layer.21.norm1.weight": "vision_encoder.safetensors",
+    "layer.21.norm2.bias": "vision_encoder.safetensors",
+    "layer.21.norm2.weight": "vision_encoder.safetensors",
+    "layer.22.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.22.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.22.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.22.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.22.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.22.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.22.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.22.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.22.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.22.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.22.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.22.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.22.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.22.norm1.bias": "vision_encoder.safetensors",
+    "layer.22.norm1.weight": "vision_encoder.safetensors",
+    "layer.22.norm2.bias": "vision_encoder.safetensors",
+    "layer.22.norm2.weight": "vision_encoder.safetensors",
+    "layer.23.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.23.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.23.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.23.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.23.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.23.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.23.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.23.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.23.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.23.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.23.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.23.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.23.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.23.norm1.bias": "vision_encoder.safetensors",
+    "layer.23.norm1.weight": "vision_encoder.safetensors",
+    "layer.23.norm2.bias": "vision_encoder.safetensors",
+    "layer.23.norm2.weight": "vision_encoder.safetensors",
+    "layer.24.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.24.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.24.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.24.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.24.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.24.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.24.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.24.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.24.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.24.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.24.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.24.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.24.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.24.norm1.bias": "vision_encoder.safetensors",
+    "layer.24.norm1.weight": "vision_encoder.safetensors",
+    "layer.24.norm2.bias": "vision_encoder.safetensors",
+    "layer.24.norm2.weight": "vision_encoder.safetensors",
+    "layer.25.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.25.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.25.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.25.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.25.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.25.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.25.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.25.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.25.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.25.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.25.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.25.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.25.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.25.norm1.bias": "vision_encoder.safetensors",
+    "layer.25.norm1.weight": "vision_encoder.safetensors",
+    "layer.25.norm2.bias": "vision_encoder.safetensors",
+    "layer.25.norm2.weight": "vision_encoder.safetensors",
+    "layer.26.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.26.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.26.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.26.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.26.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.26.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.26.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.26.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.26.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.26.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.26.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.26.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.26.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.26.norm1.bias": "vision_encoder.safetensors",
+    "layer.26.norm1.weight": "vision_encoder.safetensors",
+    "layer.26.norm2.bias": "vision_encoder.safetensors",
+    "layer.26.norm2.weight": "vision_encoder.safetensors",
+    "layer.27.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.27.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.27.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.27.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.27.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.27.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.27.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.27.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.27.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.27.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.27.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.27.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.27.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.27.norm1.bias": "vision_encoder.safetensors",
+    "layer.27.norm1.weight": "vision_encoder.safetensors",
+    "layer.27.norm2.bias": "vision_encoder.safetensors",
+    "layer.27.norm2.weight": "vision_encoder.safetensors",
+    "layer.28.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.28.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.28.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.28.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.28.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.28.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.28.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.28.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.28.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.28.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.28.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.28.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.28.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.28.norm1.bias": "vision_encoder.safetensors",
+    "layer.28.norm1.weight": "vision_encoder.safetensors",
+    "layer.28.norm2.bias": "vision_encoder.safetensors",
+    "layer.28.norm2.weight": "vision_encoder.safetensors",
+    "layer.29.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.29.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.29.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.29.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.29.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.29.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.29.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.29.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.29.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.29.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.29.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.29.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.29.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.29.norm1.bias": "vision_encoder.safetensors",
+    "layer.29.norm1.weight": "vision_encoder.safetensors",
+    "layer.29.norm2.bias": "vision_encoder.safetensors",
+    "layer.29.norm2.weight": "vision_encoder.safetensors",
+    "layer.3.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.3.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.3.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.3.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.3.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.3.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.3.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.3.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.3.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.3.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.3.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.3.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.3.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.3.norm1.bias": "vision_encoder.safetensors",
+    "layer.3.norm1.weight": "vision_encoder.safetensors",
+    "layer.3.norm2.bias": "vision_encoder.safetensors",
+    "layer.3.norm2.weight": "vision_encoder.safetensors",
+    "layer.30.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.30.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.30.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.30.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.30.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.30.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.30.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.30.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.30.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.30.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.30.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.30.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.30.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.30.norm1.bias": "vision_encoder.safetensors",
+    "layer.30.norm1.weight": "vision_encoder.safetensors",
+    "layer.30.norm2.bias": "vision_encoder.safetensors",
+    "layer.30.norm2.weight": "vision_encoder.safetensors",
+    "layer.31.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.31.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.31.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.31.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.31.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.31.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.31.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.31.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.31.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.31.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.31.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.31.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.31.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.31.norm1.bias": "vision_encoder.safetensors",
+    "layer.31.norm1.weight": "vision_encoder.safetensors",
+    "layer.31.norm2.bias": "vision_encoder.safetensors",
+    "layer.31.norm2.weight": "vision_encoder.safetensors",
+    "layer.32.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.32.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.32.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.32.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.32.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.32.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.32.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.32.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.32.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.32.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.32.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.32.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.32.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.32.norm1.bias": "vision_encoder.safetensors",
+    "layer.32.norm1.weight": "vision_encoder.safetensors",
+    "layer.32.norm2.bias": "vision_encoder.safetensors",
+    "layer.32.norm2.weight": "vision_encoder.safetensors",
+    "layer.33.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.33.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.33.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.33.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.33.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.33.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.33.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.33.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.33.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.33.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.33.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.33.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.33.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.33.norm1.bias": "vision_encoder.safetensors",
+    "layer.33.norm1.weight": "vision_encoder.safetensors",
+    "layer.33.norm2.bias": "vision_encoder.safetensors",
+    "layer.33.norm2.weight": "vision_encoder.safetensors",
+    "layer.34.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.34.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.34.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.34.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.34.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.34.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.34.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.34.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.34.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.34.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.34.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.34.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.34.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.34.norm1.bias": "vision_encoder.safetensors",
+    "layer.34.norm1.weight": "vision_encoder.safetensors",
+    "layer.34.norm2.bias": "vision_encoder.safetensors",
+    "layer.34.norm2.weight": "vision_encoder.safetensors",
+    "layer.35.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.35.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.35.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.35.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.35.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.35.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.35.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.35.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.35.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.35.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.35.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.35.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.35.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.35.norm1.bias": "vision_encoder.safetensors",
+    "layer.35.norm1.weight": "vision_encoder.safetensors",
+    "layer.35.norm2.bias": "vision_encoder.safetensors",
+    "layer.35.norm2.weight": "vision_encoder.safetensors",
+    "layer.36.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.36.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.36.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.36.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.36.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.36.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.36.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.36.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.36.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.36.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.36.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.36.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.36.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.36.norm1.bias": "vision_encoder.safetensors",
+    "layer.36.norm1.weight": "vision_encoder.safetensors",
+    "layer.36.norm2.bias": "vision_encoder.safetensors",
+    "layer.36.norm2.weight": "vision_encoder.safetensors",
+    "layer.37.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.37.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.37.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.37.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.37.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.37.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.37.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.37.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.37.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.37.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.37.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.37.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.37.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.37.norm1.bias": "vision_encoder.safetensors",
+    "layer.37.norm1.weight": "vision_encoder.safetensors",
+    "layer.37.norm2.bias": "vision_encoder.safetensors",
+    "layer.37.norm2.weight": "vision_encoder.safetensors",
+    "layer.38.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.38.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.38.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.38.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.38.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.38.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.38.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.38.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.38.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.38.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.38.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.38.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.38.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.38.norm1.bias": "vision_encoder.safetensors",
+    "layer.38.norm1.weight": "vision_encoder.safetensors",
+    "layer.38.norm2.bias": "vision_encoder.safetensors",
+    "layer.38.norm2.weight": "vision_encoder.safetensors",
+    "layer.39.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.39.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.39.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.39.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.39.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.39.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.39.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.39.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.39.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.39.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.39.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.39.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.39.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.39.norm1.bias": "vision_encoder.safetensors",
+    "layer.39.norm1.weight": "vision_encoder.safetensors",
+    "layer.39.norm2.bias": "vision_encoder.safetensors",
+    "layer.39.norm2.weight": "vision_encoder.safetensors",
+    "layer.4.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.4.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.4.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.4.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.4.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.4.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.4.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.4.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.4.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.4.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.4.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.4.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.4.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.4.norm1.bias": "vision_encoder.safetensors",
+    "layer.4.norm1.weight": "vision_encoder.safetensors",
+    "layer.4.norm2.bias": "vision_encoder.safetensors",
+    "layer.4.norm2.weight": "vision_encoder.safetensors",
+    "layer.5.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.5.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.5.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.5.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.5.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.5.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.5.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.5.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.5.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.5.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.5.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.5.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.5.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.5.norm1.bias": "vision_encoder.safetensors",
+    "layer.5.norm1.weight": "vision_encoder.safetensors",
+    "layer.5.norm2.bias": "vision_encoder.safetensors",
+    "layer.5.norm2.weight": "vision_encoder.safetensors",
+    "layer.6.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.6.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.6.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.6.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.6.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.6.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.6.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.6.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.6.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.6.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.6.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.6.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.6.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.6.norm1.bias": "vision_encoder.safetensors",
+    "layer.6.norm1.weight": "vision_encoder.safetensors",
+    "layer.6.norm2.bias": "vision_encoder.safetensors",
+    "layer.6.norm2.weight": "vision_encoder.safetensors",
+    "layer.7.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.7.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.7.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.7.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.7.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.7.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.7.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.7.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.7.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.7.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.7.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.7.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.7.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.7.norm1.bias": "vision_encoder.safetensors",
+    "layer.7.norm1.weight": "vision_encoder.safetensors",
+    "layer.7.norm2.bias": "vision_encoder.safetensors",
+    "layer.7.norm2.weight": "vision_encoder.safetensors",
+    "layer.8.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.8.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.8.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.8.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.8.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.8.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.8.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.8.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.8.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.8.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.8.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.8.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.8.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.8.norm1.bias": "vision_encoder.safetensors",
+    "layer.8.norm1.weight": "vision_encoder.safetensors",
+    "layer.8.norm2.bias": "vision_encoder.safetensors",
+    "layer.8.norm2.weight": "vision_encoder.safetensors",
+    "layer.9.attention.alpha_logit": "vision_encoder.safetensors",
+    "layer.9.attention.attn_base.k_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_base.o_proj.bias": "vision_encoder.safetensors",
+    "layer.9.attention.attn_base.o_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_base.q_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_base.v_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_plus.k_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_plus.o_proj.bias": "vision_encoder.safetensors",
+    "layer.9.attention.attn_plus.o_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_plus.q_proj.weight": "vision_encoder.safetensors",
+    "layer.9.attention.attn_plus.v_proj.weight": "vision_encoder.safetensors",
+    "layer.9.layer_scale1.lambda1": "vision_encoder.safetensors",
+    "layer.9.layer_scale2.lambda1": "vision_encoder.safetensors",
+    "layer.9.mlp.down_proj.bias": "vision_encoder.safetensors",
+    "layer.9.mlp.down_proj.weight": "vision_encoder.safetensors",
+    "layer.9.mlp.gate_proj.bias": "vision_encoder.safetensors",
+    "layer.9.mlp.gate_proj.weight": "vision_encoder.safetensors",
+    "layer.9.mlp.up_proj.bias": "vision_encoder.safetensors",
+    "layer.9.mlp.up_proj.weight": "vision_encoder.safetensors",
+    "layer.9.norm1.bias": "vision_encoder.safetensors",
+    "layer.9.norm1.weight": "vision_encoder.safetensors",
+    "layer.9.norm2.bias": "vision_encoder.safetensors",
+    "layer.9.norm2.weight": "vision_encoder.safetensors",
+    "norm.bias": "vision_encoder.safetensors",
+    "norm.weight": "vision_encoder.safetensors"
+  }
+}