DylanJHJ commited on 15 days ago

Commit

ef0f531

1 Parent(s): a1b683a

update the best crux-resaerchy

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +11 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/config.json +45 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/model.safetensors +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_0.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_1.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_2.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_3.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/scheduler.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/trainer_state.json +0 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/training_args.bin +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/config.json +45 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/model.safetensors +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/optimizer.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_0.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_1.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_2.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_3.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/scheduler.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/trainer_state.json +0 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/training_args.bin +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/config.json +45 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/model.safetensors +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/optimizer.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_0.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_1.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_2.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_3.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/scheduler.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/trainer_state.json +0 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/training_args.bin +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/config.json +45 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/model.safetensors +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/optimizer.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_0.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_1.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_2.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_3.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/scheduler.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/trainer_state.json +0 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/training_args.bin +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/config.json +45 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/model.safetensors +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_0.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_1.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_2.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_3.pth +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/scheduler.pt +3 -0
modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/trainer_state.json +4184 -0

.gitattributes CHANGED Viewed

@@ -143,3 +143,14 @@ modernbert-crux-researchy-pos_zero.neg_high.b64_n512.1e-4.512/optimizer.pt filte
 .git/lfs/objects/49/7c/497c0250f011068b2187e2dbf2b9faa58acb723801636dc0ec52e7d5cd643a2a filter=lfs diff=lfs merge=lfs -text
 .git/lfs/tmp/832543618 filter=lfs diff=lfs merge=lfs -text
 .git/lfs/tmp/1322077385 filter=lfs diff=lfs merge=lfs -text

 .git/lfs/objects/49/7c/497c0250f011068b2187e2dbf2b9faa58acb723801636dc0ec52e7d5cd643a2a filter=lfs diff=lfs merge=lfs -text
 .git/lfs/tmp/832543618 filter=lfs diff=lfs merge=lfs -text
 .git/lfs/tmp/1322077385 filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/model.safetensors filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/model.safetensors filter=lfs diff=lfs merge=lfs -text

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b04a7b7e9b10265cc9c1a6bd5bfb4bb4239a5da7a393588fc17c0f703daf9db7
+size 298041696

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a50785f196369c06420598b40db7fe0178a90b0c3f804948751f4ad50381d84f
+size 596170443

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74e7e89cbe7a70edf66e8968948906fb1a820f09a6a8809481256cb4f59eaf10
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5d3e5bce55f160ed0c87b1cbef42754767ac243615cafe6fe597c6c56abe221
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6004cc10346f251377bb583f9d9cb6fb19ba248f20a8ca5df932990f0b69313
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69bd5f01bd9ce43daeab69ea4b44d0bce391a11f8b9d1d80a742012fb4f66a87
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87226ad224173d93b5065f16bc500c8526a0b69039465aa0987938ac6db15343
+size 1465

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c73ab29bf2f573eaec3dd814ee64e6931ca0f3da63f7433c8289d0b0a84a938b
+size 6161

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a46354b82536b5fd3b84c627a781ab5dd486257d6ccaec684ef58965d14c8ba
+size 298041696

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29d7a8844c0ec5618ca98b651b06c5d47a350267ffbc46cd92ee978330ed7107
+size 596170443

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38d7ef359718523590df9e682a92cb56fe7401ac013eeb40af3d6ce9eb52db3f
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4e02846c018997fb2a63437b79039e6ffd03d4a1b2388956f198df7d435db23
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5345a9c5559eca496b295ecccec4ba0d714c05b192234ffe0bb22d9fb9f9fa65
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f87ecc6acc3b0104c6b332cf9236660b108318e9bcba0d080d4a3915cd3eca90
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64ee335a8687784a6fa7f307f4a9f1ef29b4e8f2f20541a4f32818983db603c9
+size 1465

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-15000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c73ab29bf2f573eaec3dd814ee64e6931ca0f3da63f7433c8289d0b0a84a938b
+size 6161

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e5081c229000fd604fd5b2c8852a910dc1525539d70ab47b202247f261ace45
+size 298041696

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ab12d2fdb52b6310449cb6653cf879090689802313feaa7917477e798206d38
+size 596170443

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8833c00aebc0e619e587f9b710f631c27b0f144c194509f4b71fbc2b817fe73b
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10e93038fca3c85b4bd66cf943246af72046fa052f77329dadcf03b484882631
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:893995e08f7db4d1bd2fa7b61362d2ca2a6c5936eb6e9af8051c007c0afcd24a
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cbed03005b56a2cba542949acbe7f890ada7074d8c41dbf04128640c3459be0
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb76502a50a5dad9408ce3a4bed787cae974a61981e4235981c0d72cc1227c37
+size 1465

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-20000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c73ab29bf2f573eaec3dd814ee64e6931ca0f3da63f7433c8289d0b0a84a938b
+size 6161

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a8268831a8f08bfce731da9b4d1a69338adf279352c89832f2a6b9ec3400203
+size 298041696

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51c392d991a187c7fb9c677c9f7f3dc089284791c082912cbcad51d1534a37b0
+size 596170443

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7c3317de65b30d603f92fe6e96f6799b60ade22ae5df6aac7a9339d5943f7f1
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:970a742489b7a9284135996af739d3ba3335d58e54026a7f786d5bfb4f0dff69
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc9ee43db00b894b802bd59ba7b8b86295da75ac768fa84976d017cfadd8c106
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98094ade0b37e212a3a763c172efa6d586516480838a3f8fafb9403a87fb9492
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1717a9054eef94433d1223ce97cfacf8af74d8a39634780628341d30ddbbddd
+size 1465

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-25000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c73ab29bf2f573eaec3dd814ee64e6931ca0f3da63f7433c8289d0b0a84a938b
+size 6161

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "architectures": [
+    "ModernBertModel"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 50281,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "mean",
+  "cls_token_id": 50281,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "dtype": "bfloat16",
+  "embedding_dropout": 0.0,
+  "eos_token_id": 50282,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 768,
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 1152,
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 12,
+  "num_hidden_layers": 22,
+  "pad_token_id": 50283,
+  "position_embedding_type": "absolute",
+  "repad_logits_with_grad": false,
+  "sep_token_id": 50282,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "transformers_version": "4.57.1",
+  "vocab_size": 50368
+}

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d246c14f659e3528a5e9698dbc9236bc6bb9eb18c55b627e0292e5e33a6f0d46
+size 298041696

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73caeb604d1153a7db8dd73b2fc37b9e826fec045c5ee26810e16966b749c507
+size 596170443

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:676e3c962f8f33d9a16826c7fe7dd98a8b3bfb774ddb934acc5fb734b106b59d
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d374a9c193c317a1dab9c9052e0ce5250f98dbb111c85aa423a009c121e1fc49
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe84239abd2d7794d2c95c6c196b6450efef11198f055cb008f1ad56b35e4dbc
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:358b89bc71f93b52249a9889b255e6ef55fedc24db1a6a3e29b8f70d82acf972
+size 15429

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fb542ee6beb5b26a9831445bc783ee70028bb4847cbcf43cb9d249b3a02f8a9
+size 1465

modernbert-crux-researchy-flatten.pos_5.neg_1.b64_n512.1e-4.512/checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,4184 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6019744762822057,
+  "eval_steps": 100,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0012039489525644113,
+      "grad_norm": 29.25,
+      "learning_rate": 3.6e-07,
+      "loss": 5.6475,
+      "step": 10
+    },
+    {
+      "epoch": 0.0024078979051288226,
+      "grad_norm": 13.6875,
+      "learning_rate": 7.6e-07,
+      "loss": 5.6394,
+      "step": 20
+    },
+    {
+      "epoch": 0.003611846857693234,
+      "grad_norm": 36.0,
+      "learning_rate": 1.16e-06,
+      "loss": 5.6168,
+      "step": 30
+    },
+    {
+      "epoch": 0.004815795810257645,
+      "grad_norm": 17.0,
+      "learning_rate": 1.56e-06,
+      "loss": 5.6346,
+      "step": 40
+    },
+    {
+      "epoch": 0.006019744762822056,
+      "grad_norm": 16.5,
+      "learning_rate": 1.96e-06,
+      "loss": 5.6391,
+      "step": 50
+    },
+    {
+      "epoch": 0.007223693715386468,
+      "grad_norm": 16.5,
+      "learning_rate": 2.36e-06,
+      "loss": 5.6272,
+      "step": 60
+    },
+    {
+      "epoch": 0.00842764266795088,
+      "grad_norm": 14.8125,
+      "learning_rate": 2.7600000000000003e-06,
+      "loss": 5.5979,
+      "step": 70
+    },
+    {
+      "epoch": 0.00963159162051529,
+      "grad_norm": 22.375,
+      "learning_rate": 3.1600000000000007e-06,
+      "loss": 5.6515,
+      "step": 80
+    },
+    {
+      "epoch": 0.010835540573079701,
+      "grad_norm": 17.125,
+      "learning_rate": 3.5600000000000002e-06,
+      "loss": 5.6018,
+      "step": 90
+    },
+    {
+      "epoch": 0.012039489525644112,
+      "grad_norm": 14.9375,
+      "learning_rate": 3.96e-06,
+      "loss": 5.6342,
+      "step": 100
+    },
+    {
+      "epoch": 0.012039489525644112,
+      "eval/acc": 3.4883720874786377,
+      "step": 100
+    },
+    {
+      "epoch": 0.012039489525644112,
+      "eval_loss": 5.140806198120117,
+      "eval_runtime": 2.4165,
+      "eval_samples_per_second": 17.794,
+      "eval_steps_per_second": 0.414,
+      "step": 100
+    },
+    {
+      "epoch": 0.013243438478208525,
+      "grad_norm": 13.0,
+      "learning_rate": 4.360000000000001e-06,
+      "loss": 5.6124,
+      "step": 110
+    },
+    {
+      "epoch": 0.014447387430772935,
+      "grad_norm": 18.625,
+      "learning_rate": 4.76e-06,
+      "loss": 5.6127,
+      "step": 120
+    },
+    {
+      "epoch": 0.015651336383337346,
+      "grad_norm": 14.375,
+      "learning_rate": 5.1600000000000006e-06,
+      "loss": 5.5663,
+      "step": 130
+    },
+    {
+      "epoch": 0.01685528533590176,
+      "grad_norm": 11.9375,
+      "learning_rate": 5.56e-06,
+      "loss": 5.55,
+      "step": 140
+    },
+    {
+      "epoch": 0.018059234288466168,
+      "grad_norm": 14.5,
+      "learning_rate": 5.9600000000000005e-06,
+      "loss": 5.5839,
+      "step": 150
+    },
+    {
+      "epoch": 0.01926318324103058,
+      "grad_norm": 15.0625,
+      "learning_rate": 6.360000000000001e-06,
+      "loss": 5.5259,
+      "step": 160
+    },
+    {
+      "epoch": 0.020467132193594993,
+      "grad_norm": 14.8125,
+      "learning_rate": 6.76e-06,
+      "loss": 5.4812,
+      "step": 170
+    },
+    {
+      "epoch": 0.021671081146159402,
+      "grad_norm": 15.375,
+      "learning_rate": 7.16e-06,
+      "loss": 5.4964,
+      "step": 180
+    },
+    {
+      "epoch": 0.022875030098723815,
+      "grad_norm": 14.0625,
+      "learning_rate": 7.5600000000000005e-06,
+      "loss": 5.4023,
+      "step": 190
+    },
+    {
+      "epoch": 0.024078979051288224,
+      "grad_norm": 18.625,
+      "learning_rate": 7.96e-06,
+      "loss": 5.3778,
+      "step": 200
+    },
+    {
+      "epoch": 0.024078979051288224,
+      "eval/acc": 5.232558250427246,
+      "step": 200
+    },
+    {
+      "epoch": 0.024078979051288224,
+      "eval_loss": 4.991551399230957,
+      "eval_runtime": 0.2363,
+      "eval_samples_per_second": 181.988,
+      "eval_steps_per_second": 4.232,
+      "step": 200
+    },
+    {
+      "epoch": 0.025282928003852637,
+      "grad_norm": 16.25,
+      "learning_rate": 8.36e-06,
+      "loss": 5.3983,
+      "step": 210
+    },
+    {
+      "epoch": 0.02648687695641705,
+      "grad_norm": 17.25,
+      "learning_rate": 8.76e-06,
+      "loss": 5.2953,
+      "step": 220
+    },
+    {
+      "epoch": 0.02769082590898146,
+      "grad_norm": 15.9375,
+      "learning_rate": 9.16e-06,
+      "loss": 5.2266,
+      "step": 230
+    },
+    {
+      "epoch": 0.02889477486154587,
+      "grad_norm": 21.875,
+      "learning_rate": 9.560000000000002e-06,
+      "loss": 5.139,
+      "step": 240
+    },
+    {
+      "epoch": 0.03009872381411028,
+      "grad_norm": 17.875,
+      "learning_rate": 9.96e-06,
+      "loss": 5.0639,
+      "step": 250
+    },
+    {
+      "epoch": 0.03130267276667469,
+      "grad_norm": 18.875,
+      "learning_rate": 1.036e-05,
+      "loss": 5.0118,
+      "step": 260
+    },
+    {
+      "epoch": 0.032506621719239105,
+      "grad_norm": 26.0,
+      "learning_rate": 1.076e-05,
+      "loss": 4.8959,
+      "step": 270
+    },
+    {
+      "epoch": 0.03371057067180352,
+      "grad_norm": 18.5,
+      "learning_rate": 1.1160000000000002e-05,
+      "loss": 4.8454,
+      "step": 280
+    },
+    {
+      "epoch": 0.03491451962436792,
+      "grad_norm": 28.0,
+      "learning_rate": 1.156e-05,
+      "loss": 4.6846,
+      "step": 290
+    },
+    {
+      "epoch": 0.036118468576932336,
+      "grad_norm": 25.5,
+      "learning_rate": 1.196e-05,
+      "loss": 4.5211,
+      "step": 300
+    },
+    {
+      "epoch": 0.036118468576932336,
+      "eval/acc": 6.395349025726318,
+      "step": 300
+    },
+    {
+      "epoch": 0.036118468576932336,
+      "eval_loss": 4.604515075683594,
+      "eval_runtime": 0.2156,
+      "eval_samples_per_second": 199.428,
+      "eval_steps_per_second": 4.638,
+      "step": 300
+    },
+    {
+      "epoch": 0.03732241752949675,
+      "grad_norm": 28.0,
+      "learning_rate": 1.236e-05,
+      "loss": 4.3466,
+      "step": 310
+    },
+    {
+      "epoch": 0.03852636648206116,
+      "grad_norm": 27.125,
+      "learning_rate": 1.276e-05,
+      "loss": 4.1005,
+      "step": 320
+    },
+    {
+      "epoch": 0.039730315434625574,
+      "grad_norm": 33.0,
+      "learning_rate": 1.316e-05,
+      "loss": 3.7904,
+      "step": 330
+    },
+    {
+      "epoch": 0.040934264387189986,
+      "grad_norm": 32.75,
+      "learning_rate": 1.356e-05,
+      "loss": 3.4061,
+      "step": 340
+    },
+    {
+      "epoch": 0.04213821333975439,
+      "grad_norm": 31.125,
+      "learning_rate": 1.396e-05,
+      "loss": 3.2838,
+      "step": 350
+    },
+    {
+      "epoch": 0.043342162292318805,
+      "grad_norm": 23.75,
+      "learning_rate": 1.4360000000000001e-05,
+      "loss": 2.9101,
+      "step": 360
+    },
+    {
+      "epoch": 0.04454611124488322,
+      "grad_norm": 44.75,
+      "learning_rate": 1.4760000000000001e-05,
+      "loss": 2.6306,
+      "step": 370
+    },
+    {
+      "epoch": 0.04575006019744763,
+      "grad_norm": 33.25,
+      "learning_rate": 1.5160000000000002e-05,
+      "loss": 2.5454,
+      "step": 380
+    },
+    {
+      "epoch": 0.04695400915001204,
+      "grad_norm": 31.375,
+      "learning_rate": 1.556e-05,
+      "loss": 2.5867,
+      "step": 390
+    },
+    {
+      "epoch": 0.04815795810257645,
+      "grad_norm": 18.5,
+      "learning_rate": 1.596e-05,
+      "loss": 2.3251,
+      "step": 400
+    },
+    {
+      "epoch": 0.04815795810257645,
+      "eval/acc": 12.209301948547363,
+      "step": 400
+    },
+    {
+      "epoch": 0.04815795810257645,
+      "eval_loss": 3.941906452178955,
+      "eval_runtime": 0.2265,
+      "eval_samples_per_second": 189.814,
+      "eval_steps_per_second": 4.414,
+      "step": 400
+    },
+    {
+      "epoch": 0.04936190705514086,
+      "grad_norm": 18.0,
+      "learning_rate": 1.636e-05,
+      "loss": 2.394,
+      "step": 410
+    },
+    {
+      "epoch": 0.05056585600770527,
+      "grad_norm": 22.375,
+      "learning_rate": 1.6760000000000002e-05,
+      "loss": 2.2856,
+      "step": 420
+    },
+    {
+      "epoch": 0.051769804960269686,
+      "grad_norm": 17.25,
+      "learning_rate": 1.7160000000000002e-05,
+      "loss": 2.3414,
+      "step": 430
+    },
+    {
+      "epoch": 0.0529737539128341,
+      "grad_norm": 15.25,
+      "learning_rate": 1.756e-05,
+      "loss": 2.156,
+      "step": 440
+    },
+    {
+      "epoch": 0.054177702865398504,
+      "grad_norm": 15.75,
+      "learning_rate": 1.796e-05,
+      "loss": 2.0164,
+      "step": 450
+    },
+    {
+      "epoch": 0.05538165181796292,
+      "grad_norm": 28.5,
+      "learning_rate": 1.8360000000000004e-05,
+      "loss": 1.9555,
+      "step": 460
+    },
+    {
+      "epoch": 0.05658560077052733,
+      "grad_norm": 19.25,
+      "learning_rate": 1.876e-05,
+      "loss": 2.0277,
+      "step": 470
+    },
+    {
+      "epoch": 0.05778954972309174,
+      "grad_norm": 15.375,
+      "learning_rate": 1.916e-05,
+      "loss": 2.1719,
+      "step": 480
+    },
+    {
+      "epoch": 0.058993498675656154,
+      "grad_norm": 18.875,
+      "learning_rate": 1.956e-05,
+      "loss": 2.013,
+      "step": 490
+    },
+    {
+      "epoch": 0.06019744762822056,
+      "grad_norm": 18.625,
+      "learning_rate": 1.9960000000000002e-05,
+      "loss": 1.8574,
+      "step": 500
+    },
+    {
+      "epoch": 0.06019744762822056,
+      "eval/acc": 20.930233001708984,
+      "step": 500
+    },
+    {
+      "epoch": 0.06019744762822056,
+      "eval_loss": 3.6547293663024902,
+      "eval_runtime": 0.2139,
+      "eval_samples_per_second": 201.002,
+      "eval_steps_per_second": 4.674,
+      "step": 500
+    },
+    {
+      "epoch": 0.06140139658078497,
+      "grad_norm": 19.875,
+      "learning_rate": 2.036e-05,
+      "loss": 1.9431,
+      "step": 510
+    },
+    {
+      "epoch": 0.06260534553334939,
+      "grad_norm": 14.625,
+      "learning_rate": 2.076e-05,
+      "loss": 1.8311,
+      "step": 520
+    },
+    {
+      "epoch": 0.0638092944859138,
+      "grad_norm": 20.0,
+      "learning_rate": 2.116e-05,
+      "loss": 2.0005,
+      "step": 530
+    },
+    {
+      "epoch": 0.06501324343847821,
+      "grad_norm": 16.0,
+      "learning_rate": 2.1560000000000004e-05,
+      "loss": 1.7374,
+      "step": 540
+    },
+    {
+      "epoch": 0.06621719239104262,
+      "grad_norm": 13.0625,
+      "learning_rate": 2.196e-05,
+      "loss": 1.7838,
+      "step": 550
+    },
+    {
+      "epoch": 0.06742114134360704,
+      "grad_norm": 16.5,
+      "learning_rate": 2.236e-05,
+      "loss": 1.8264,
+      "step": 560
+    },
+    {
+      "epoch": 0.06862509029617145,
+      "grad_norm": 20.5,
+      "learning_rate": 2.2760000000000002e-05,
+      "loss": 1.658,
+      "step": 570
+    },
+    {
+      "epoch": 0.06982903924873585,
+      "grad_norm": 25.75,
+      "learning_rate": 2.3160000000000002e-05,
+      "loss": 1.7826,
+      "step": 580
+    },
+    {
+      "epoch": 0.07103298820130026,
+      "grad_norm": 19.375,
+      "learning_rate": 2.356e-05,
+      "loss": 1.6539,
+      "step": 590
+    },
+    {
+      "epoch": 0.07223693715386467,
+      "grad_norm": 19.25,
+      "learning_rate": 2.396e-05,
+      "loss": 1.6278,
+      "step": 600
+    },
+    {
+      "epoch": 0.07223693715386467,
+      "eval/acc": 20.930233001708984,
+      "step": 600
+    },
+    {
+      "epoch": 0.07223693715386467,
+      "eval_loss": 3.387899398803711,
+      "eval_runtime": 0.2536,
+      "eval_samples_per_second": 169.572,
+      "eval_steps_per_second": 3.944,
+      "step": 600
+    },
+    {
+      "epoch": 0.07344088610642908,
+      "grad_norm": 12.0625,
+      "learning_rate": 2.4360000000000004e-05,
+      "loss": 1.5342,
+      "step": 610
+    },
+    {
+      "epoch": 0.0746448350589935,
+      "grad_norm": 15.625,
+      "learning_rate": 2.476e-05,
+      "loss": 1.5919,
+      "step": 620
+    },
+    {
+      "epoch": 0.07584878401155791,
+      "grad_norm": 25.5,
+      "learning_rate": 2.516e-05,
+      "loss": 1.5713,
+      "step": 630
+    },
+    {
+      "epoch": 0.07705273296412232,
+      "grad_norm": 14.8125,
+      "learning_rate": 2.556e-05,
+      "loss": 1.4714,
+      "step": 640
+    },
+    {
+      "epoch": 0.07825668191668674,
+      "grad_norm": 21.5,
+      "learning_rate": 2.5960000000000002e-05,
+      "loss": 1.5835,
+      "step": 650
+    },
+    {
+      "epoch": 0.07946063086925115,
+      "grad_norm": 58.0,
+      "learning_rate": 2.6360000000000002e-05,
+      "loss": 1.5369,
+      "step": 660
+    },
+    {
+      "epoch": 0.08066457982181556,
+      "grad_norm": 45.0,
+      "learning_rate": 2.676e-05,
+      "loss": 1.4629,
+      "step": 670
+    },
+    {
+      "epoch": 0.08186852877437997,
+      "grad_norm": 14.1875,
+      "learning_rate": 2.716e-05,
+      "loss": 1.4288,
+      "step": 680
+    },
+    {
+      "epoch": 0.08307247772694437,
+      "grad_norm": 40.25,
+      "learning_rate": 2.7560000000000004e-05,
+      "loss": 1.4729,
+      "step": 690
+    },
+    {
+      "epoch": 0.08427642667950878,
+      "grad_norm": 13.625,
+      "learning_rate": 2.7960000000000003e-05,
+      "loss": 1.4883,
+      "step": 700
+    },
+    {
+      "epoch": 0.08427642667950878,
+      "eval/acc": 23.255813598632812,
+      "step": 700
+    },
+    {
+      "epoch": 0.08427642667950878,
+      "eval_loss": 3.206946611404419,
+      "eval_runtime": 0.4188,
+      "eval_samples_per_second": 102.684,
+      "eval_steps_per_second": 2.388,
+      "step": 700
+    },
+    {
+      "epoch": 0.0854803756320732,
+      "grad_norm": 15.75,
+      "learning_rate": 2.8360000000000003e-05,
+      "loss": 1.5656,
+      "step": 710
+    },
+    {
+      "epoch": 0.08668432458463761,
+      "grad_norm": 22.25,
+      "learning_rate": 2.8760000000000002e-05,
+      "loss": 1.6742,
+      "step": 720
+    },
+    {
+      "epoch": 0.08788827353720202,
+      "grad_norm": 12.3125,
+      "learning_rate": 2.9160000000000005e-05,
+      "loss": 1.35,
+      "step": 730
+    },
+    {
+      "epoch": 0.08909222248976643,
+      "grad_norm": 13.8125,
+      "learning_rate": 2.9559999999999998e-05,
+      "loss": 1.4435,
+      "step": 740
+    },
+    {
+      "epoch": 0.09029617144233085,
+      "grad_norm": 13.1875,
+      "learning_rate": 2.9959999999999998e-05,
+      "loss": 1.3843,
+      "step": 750
+    },
+    {
+      "epoch": 0.09150012039489526,
+      "grad_norm": 13.3125,
+      "learning_rate": 3.036e-05,
+      "loss": 1.3327,
+      "step": 760
+    },
+    {
+      "epoch": 0.09270406934745967,
+      "grad_norm": 18.875,
+      "learning_rate": 3.076e-05,
+      "loss": 1.4628,
+      "step": 770
+    },
+    {
+      "epoch": 0.09390801830002408,
+      "grad_norm": 14.5625,
+      "learning_rate": 3.116e-05,
+      "loss": 1.3306,
+      "step": 780
+    },
+    {
+      "epoch": 0.09511196725258848,
+      "grad_norm": 18.75,
+      "learning_rate": 3.156e-05,
+      "loss": 1.4936,
+      "step": 790
+    },
+    {
+      "epoch": 0.0963159162051529,
+      "grad_norm": 11.5,
+      "learning_rate": 3.196e-05,
+      "loss": 1.3515,
+      "step": 800
+    },
+    {
+      "epoch": 0.0963159162051529,
+      "eval/acc": 22.674419403076172,
+      "step": 800
+    },
+    {
+      "epoch": 0.0963159162051529,
+      "eval_loss": 3.1510462760925293,
+      "eval_runtime": 0.2676,
+      "eval_samples_per_second": 160.701,
+      "eval_steps_per_second": 3.737,
+      "step": 800
+    },
+    {
+      "epoch": 0.09751986515771731,
+      "grad_norm": 11.6875,
+      "learning_rate": 3.236e-05,
+      "loss": 1.4593,
+      "step": 810
+    },
+    {
+      "epoch": 0.09872381411028172,
+      "grad_norm": 10.5625,
+      "learning_rate": 3.2760000000000005e-05,
+      "loss": 1.3453,
+      "step": 820
+    },
+    {
+      "epoch": 0.09992776306284613,
+      "grad_norm": 11.625,
+      "learning_rate": 3.316e-05,
+      "loss": 1.4041,
+      "step": 830
+    },
+    {
+      "epoch": 0.10113171201541055,
+      "grad_norm": 13.0,
+      "learning_rate": 3.3560000000000004e-05,
+      "loss": 1.2766,
+      "step": 840
+    },
+    {
+      "epoch": 0.10233566096797496,
+      "grad_norm": 40.0,
+      "learning_rate": 3.396e-05,
+      "loss": 1.2678,
+      "step": 850
+    },
+    {
+      "epoch": 0.10353960992053937,
+      "grad_norm": 13.75,
+      "learning_rate": 3.436e-05,
+      "loss": 1.2514,
+      "step": 860
+    },
+    {
+      "epoch": 0.10474355887310378,
+      "grad_norm": 11.75,
+      "learning_rate": 3.4760000000000006e-05,
+      "loss": 1.3518,
+      "step": 870
+    },
+    {
+      "epoch": 0.1059475078256682,
+      "grad_norm": 11.875,
+      "learning_rate": 3.516e-05,
+      "loss": 1.2675,
+      "step": 880
+    },
+    {
+      "epoch": 0.10715145677823261,
+      "grad_norm": 13.0,
+      "learning_rate": 3.5560000000000005e-05,
+      "loss": 1.294,
+      "step": 890
+    },
+    {
+      "epoch": 0.10835540573079701,
+      "grad_norm": 13.0,
+      "learning_rate": 3.596e-05,
+      "loss": 1.1209,
+      "step": 900
+    },
+    {
+      "epoch": 0.10835540573079701,
+      "eval/acc": 25.581396102905273,
+      "step": 900
+    },
+    {
+      "epoch": 0.10835540573079701,
+      "eval_loss": 3.0571491718292236,
+      "eval_runtime": 0.3097,
+      "eval_samples_per_second": 138.846,
+      "eval_steps_per_second": 3.229,
+      "step": 900
+    },
+    {
+      "epoch": 0.10955935468336142,
+      "grad_norm": 12.75,
+      "learning_rate": 3.636e-05,
+      "loss": 1.2681,
+      "step": 910
+    },
+    {
+      "epoch": 0.11076330363592583,
+      "grad_norm": 17.0,
+      "learning_rate": 3.676e-05,
+      "loss": 1.2606,
+      "step": 920
+    },
+    {
+      "epoch": 0.11196725258849025,
+      "grad_norm": 11.375,
+      "learning_rate": 3.716e-05,
+      "loss": 1.2194,
+      "step": 930
+    },
+    {
+      "epoch": 0.11317120154105466,
+      "grad_norm": 12.125,
+      "learning_rate": 3.756e-05,
+      "loss": 1.2905,
+      "step": 940
+    },
+    {
+      "epoch": 0.11437515049361907,
+      "grad_norm": 18.125,
+      "learning_rate": 3.796e-05,
+      "loss": 1.2563,
+      "step": 950
+    },
+    {
+      "epoch": 0.11557909944618348,
+      "grad_norm": 17.125,
+      "learning_rate": 3.836e-05,
+      "loss": 1.1894,
+      "step": 960
+    },
+    {
+      "epoch": 0.1167830483987479,
+      "grad_norm": 11.875,
+      "learning_rate": 3.876e-05,
+      "loss": 1.2441,
+      "step": 970
+    },
+    {
+      "epoch": 0.11798699735131231,
+      "grad_norm": 15.8125,
+      "learning_rate": 3.9160000000000005e-05,
+      "loss": 1.2627,
+      "step": 980
+    },
+    {
+      "epoch": 0.11919094630387672,
+      "grad_norm": 17.375,
+      "learning_rate": 3.956e-05,
+      "loss": 1.3929,
+      "step": 990
+    },
+    {
+      "epoch": 0.12039489525644112,
+      "grad_norm": 11.125,
+      "learning_rate": 3.9960000000000004e-05,
+      "loss": 1.1332,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12039489525644112,
+      "eval/acc": 26.162790298461914,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12039489525644112,
+      "eval_loss": 2.9910976886749268,
+      "eval_runtime": 0.2826,
+      "eval_samples_per_second": 152.17,
+      "eval_steps_per_second": 3.539,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12159884420900553,
+      "grad_norm": 13.75,
+      "learning_rate": 4.0360000000000007e-05,
+      "loss": 1.2314,
+      "step": 1010
+    },
+    {
+      "epoch": 0.12280279316156995,
+      "grad_norm": 11.875,
+      "learning_rate": 4.076e-05,
+      "loss": 1.2654,
+      "step": 1020
+    },
+    {
+      "epoch": 0.12400674211413436,
+      "grad_norm": 12.8125,
+      "learning_rate": 4.1160000000000006e-05,
+      "loss": 1.1432,
+      "step": 1030
+    },
+    {
+      "epoch": 0.12521069106669877,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.156e-05,
+      "loss": 1.1669,
+      "step": 1040
+    },
+    {
+      "epoch": 0.1264146400192632,
+      "grad_norm": 19.25,
+      "learning_rate": 4.196e-05,
+      "loss": 1.1836,
+      "step": 1050
+    },
+    {
+      "epoch": 0.1276185889718276,
+      "grad_norm": 11.375,
+      "learning_rate": 4.236e-05,
+      "loss": 1.2449,
+      "step": 1060
+    },
+    {
+      "epoch": 0.128822537924392,
+      "grad_norm": 10.6875,
+      "learning_rate": 4.276e-05,
+      "loss": 1.1361,
+      "step": 1070
+    },
+    {
+      "epoch": 0.13002648687695642,
+      "grad_norm": 11.5,
+      "learning_rate": 4.316e-05,
+      "loss": 1.1989,
+      "step": 1080
+    },
+    {
+      "epoch": 0.13123043582952082,
+      "grad_norm": 13.0,
+      "learning_rate": 4.356e-05,
+      "loss": 1.1004,
+      "step": 1090
+    },
+    {
+      "epoch": 0.13243438478208525,
+      "grad_norm": 10.125,
+      "learning_rate": 4.396e-05,
+      "loss": 1.1308,
+      "step": 1100
+    },
+    {
+      "epoch": 0.13243438478208525,
+      "eval/acc": 27.9069766998291,
+      "step": 1100
+    },
+    {
+      "epoch": 0.13243438478208525,
+      "eval_loss": 3.0177316665649414,
+      "eval_runtime": 0.2801,
+      "eval_samples_per_second": 153.54,
+      "eval_steps_per_second": 3.571,
+      "step": 1100
+    },
+    {
+      "epoch": 0.13363833373464964,
+      "grad_norm": 9.5,
+      "learning_rate": 4.436e-05,
+      "loss": 1.1862,
+      "step": 1110
+    },
+    {
+      "epoch": 0.13484228268721407,
+      "grad_norm": 13.75,
+      "learning_rate": 4.4760000000000005e-05,
+      "loss": 1.1764,
+      "step": 1120
+    },
+    {
+      "epoch": 0.13604623163977847,
+      "grad_norm": 30.625,
+      "learning_rate": 4.516e-05,
+      "loss": 1.0422,
+      "step": 1130
+    },
+    {
+      "epoch": 0.1372501805923429,
+      "grad_norm": 9.875,
+      "learning_rate": 4.5560000000000004e-05,
+      "loss": 1.1796,
+      "step": 1140
+    },
+    {
+      "epoch": 0.1384541295449073,
+      "grad_norm": 13.1875,
+      "learning_rate": 4.596e-05,
+      "loss": 1.0483,
+      "step": 1150
+    },
+    {
+      "epoch": 0.1396580784974717,
+      "grad_norm": 11.75,
+      "learning_rate": 4.636e-05,
+      "loss": 1.1647,
+      "step": 1160
+    },
+    {
+      "epoch": 0.14086202745003612,
+      "grad_norm": 13.375,
+      "learning_rate": 4.6760000000000006e-05,
+      "loss": 1.2839,
+      "step": 1170
+    },
+    {
+      "epoch": 0.14206597640260052,
+      "grad_norm": 42.0,
+      "learning_rate": 4.716e-05,
+      "loss": 1.1594,
+      "step": 1180
+    },
+    {
+      "epoch": 0.14326992535516495,
+      "grad_norm": 15.625,
+      "learning_rate": 4.7560000000000005e-05,
+      "loss": 1.1073,
+      "step": 1190
+    },
+    {
+      "epoch": 0.14447387430772934,
+      "grad_norm": 11.5,
+      "learning_rate": 4.796e-05,
+      "loss": 1.1593,
+      "step": 1200
+    },
+    {
+      "epoch": 0.14447387430772934,
+      "eval/acc": 26.162790298461914,
+      "step": 1200
+    },
+    {
+      "epoch": 0.14447387430772934,
+      "eval_loss": 3.0329606533050537,
+      "eval_runtime": 0.2185,
+      "eval_samples_per_second": 196.829,
+      "eval_steps_per_second": 4.577,
+      "step": 1200
+    },
+    {
+      "epoch": 0.14567782326029377,
+      "grad_norm": 12.5625,
+      "learning_rate": 4.836e-05,
+      "loss": 1.1088,
+      "step": 1210
+    },
+    {
+      "epoch": 0.14688177221285817,
+      "grad_norm": 10.4375,
+      "learning_rate": 4.876e-05,
+      "loss": 1.1565,
+      "step": 1220
+    },
+    {
+      "epoch": 0.1480857211654226,
+      "grad_norm": 11.3125,
+      "learning_rate": 4.9160000000000004e-05,
+      "loss": 1.0596,
+      "step": 1230
+    },
+    {
+      "epoch": 0.149289670117987,
+      "grad_norm": 11.375,
+      "learning_rate": 4.956e-05,
+      "loss": 1.2416,
+      "step": 1240
+    },
+    {
+      "epoch": 0.15049361907055142,
+      "grad_norm": 10.3125,
+      "learning_rate": 4.996e-05,
+      "loss": 1.0492,
+      "step": 1250
+    },
+    {
+      "epoch": 0.15169756802311582,
+      "grad_norm": 10.9375,
+      "learning_rate": 5.0360000000000006e-05,
+      "loss": 1.0263,
+      "step": 1260
+    },
+    {
+      "epoch": 0.15290151697568022,
+      "grad_norm": 11.0625,
+      "learning_rate": 5.076000000000001e-05,
+      "loss": 1.1197,
+      "step": 1270
+    },
+    {
+      "epoch": 0.15410546592824464,
+      "grad_norm": 33.25,
+      "learning_rate": 5.1160000000000005e-05,
+      "loss": 1.0614,
+      "step": 1280
+    },
+    {
+      "epoch": 0.15530941488080904,
+      "grad_norm": 11.3125,
+      "learning_rate": 5.1559999999999994e-05,
+      "loss": 1.0948,
+      "step": 1290
+    },
+    {
+      "epoch": 0.15651336383337347,
+      "grad_norm": 24.5,
+      "learning_rate": 5.196e-05,
+      "loss": 1.1113,
+      "step": 1300
+    },
+    {
+      "epoch": 0.15651336383337347,
+      "eval/acc": 25.581396102905273,
+      "step": 1300
+    },
+    {
+      "epoch": 0.15651336383337347,
+      "eval_loss": 2.944797992706299,
+      "eval_runtime": 0.3019,
+      "eval_samples_per_second": 142.434,
+      "eval_steps_per_second": 3.312,
+      "step": 1300
+    },
+    {
+      "epoch": 0.15771731278593787,
+      "grad_norm": 12.4375,
+      "learning_rate": 5.236e-05,
+      "loss": 0.9531,
+      "step": 1310
+    },
+    {
+      "epoch": 0.1589212617385023,
+      "grad_norm": 12.3125,
+      "learning_rate": 5.2759999999999996e-05,
+      "loss": 1.0079,
+      "step": 1320
+    },
+    {
+      "epoch": 0.1601252106910667,
+      "grad_norm": 13.1875,
+      "learning_rate": 5.316e-05,
+      "loss": 1.0674,
+      "step": 1330
+    },
+    {
+      "epoch": 0.16132915964363112,
+      "grad_norm": 16.875,
+      "learning_rate": 5.356e-05,
+      "loss": 1.1194,
+      "step": 1340
+    },
+    {
+      "epoch": 0.16253310859619552,
+      "grad_norm": 10.625,
+      "learning_rate": 5.396e-05,
+      "loss": 1.0057,
+      "step": 1350
+    },
+    {
+      "epoch": 0.16373705754875995,
+      "grad_norm": 9.125,
+      "learning_rate": 5.436e-05,
+      "loss": 1.1257,
+      "step": 1360
+    },
+    {
+      "epoch": 0.16494100650132434,
+      "grad_norm": 8.5,
+      "learning_rate": 5.476e-05,
+      "loss": 0.9545,
+      "step": 1370
+    },
+    {
+      "epoch": 0.16614495545388874,
+      "grad_norm": 10.25,
+      "learning_rate": 5.516e-05,
+      "loss": 1.0648,
+      "step": 1380
+    },
+    {
+      "epoch": 0.16734890440645317,
+      "grad_norm": 14.9375,
+      "learning_rate": 5.556e-05,
+      "loss": 1.0364,
+      "step": 1390
+    },
+    {
+      "epoch": 0.16855285335901757,
+      "grad_norm": 138.0,
+      "learning_rate": 5.596e-05,
+      "loss": 1.0255,
+      "step": 1400
+    },
+    {
+      "epoch": 0.16855285335901757,
+      "eval/acc": 27.9069766998291,
+      "step": 1400
+    },
+    {
+      "epoch": 0.16855285335901757,
+      "eval_loss": 2.763101100921631,
+      "eval_runtime": 0.2759,
+      "eval_samples_per_second": 155.826,
+      "eval_steps_per_second": 3.624,
+      "step": 1400
+    },
+    {
+      "epoch": 0.169756802311582,
+      "grad_norm": 11.8125,
+      "learning_rate": 5.636e-05,
+      "loss": 0.9813,
+      "step": 1410
+    },
+    {
+      "epoch": 0.1709607512641464,
+      "grad_norm": 9.1875,
+      "learning_rate": 5.6760000000000005e-05,
+      "loss": 0.9929,
+      "step": 1420
+    },
+    {
+      "epoch": 0.17216470021671082,
+      "grad_norm": 10.875,
+      "learning_rate": 5.716e-05,
+      "loss": 0.9113,
+      "step": 1430
+    },
+    {
+      "epoch": 0.17336864916927522,
+      "grad_norm": 19.375,
+      "learning_rate": 5.7560000000000005e-05,
+      "loss": 1.0711,
+      "step": 1440
+    },
+    {
+      "epoch": 0.17457259812183964,
+      "grad_norm": 9.8125,
+      "learning_rate": 5.796e-05,
+      "loss": 0.9322,
+      "step": 1450
+    },
+    {
+      "epoch": 0.17577654707440404,
+      "grad_norm": 10.5,
+      "learning_rate": 5.8360000000000004e-05,
+      "loss": 1.0316,
+      "step": 1460
+    },
+    {
+      "epoch": 0.17698049602696847,
+      "grad_norm": 10.25,
+      "learning_rate": 5.876000000000001e-05,
+      "loss": 1.0165,
+      "step": 1470
+    },
+    {
+      "epoch": 0.17818444497953287,
+      "grad_norm": 10.4375,
+      "learning_rate": 5.916e-05,
+      "loss": 1.0229,
+      "step": 1480
+    },
+    {
+      "epoch": 0.17938839393209727,
+      "grad_norm": 14.4375,
+      "learning_rate": 5.9560000000000006e-05,
+      "loss": 0.9684,
+      "step": 1490
+    },
+    {
+      "epoch": 0.1805923428846617,
+      "grad_norm": 8.375,
+      "learning_rate": 5.996e-05,
+      "loss": 0.9948,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1805923428846617,
+      "eval/acc": 34.88372039794922,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1805923428846617,
+      "eval_loss": 2.8177433013916016,
+      "eval_runtime": 0.208,
+      "eval_samples_per_second": 206.732,
+      "eval_steps_per_second": 4.808,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1817962918372261,
+      "grad_norm": 19.25,
+      "learning_rate": 6.0360000000000005e-05,
+      "loss": 0.9897,
+      "step": 1510
+    },
+    {
+      "epoch": 0.18300024078979052,
+      "grad_norm": 32.5,
+      "learning_rate": 6.076000000000001e-05,
+      "loss": 0.9217,
+      "step": 1520
+    },
+    {
+      "epoch": 0.18420418974235492,
+      "grad_norm": 9.5,
+      "learning_rate": 6.116e-05,
+      "loss": 1.0494,
+      "step": 1530
+    },
+    {
+      "epoch": 0.18540813869491934,
+      "grad_norm": 9.25,
+      "learning_rate": 6.156e-05,
+      "loss": 0.9359,
+      "step": 1540
+    },
+    {
+      "epoch": 0.18661208764748374,
+      "grad_norm": 11.375,
+      "learning_rate": 6.196000000000001e-05,
+      "loss": 0.9112,
+      "step": 1550
+    },
+    {
+      "epoch": 0.18781603660004817,
+      "grad_norm": 12.6875,
+      "learning_rate": 6.236e-05,
+      "loss": 1.07,
+      "step": 1560
+    },
+    {
+      "epoch": 0.18901998555261257,
+      "grad_norm": 11.1875,
+      "learning_rate": 6.276e-05,
+      "loss": 0.9853,
+      "step": 1570
+    },
+    {
+      "epoch": 0.19022393450517697,
+      "grad_norm": 8.375,
+      "learning_rate": 6.316000000000001e-05,
+      "loss": 0.9579,
+      "step": 1580
+    },
+    {
+      "epoch": 0.1914278834577414,
+      "grad_norm": 20.875,
+      "learning_rate": 6.356000000000001e-05,
+      "loss": 0.9401,
+      "step": 1590
+    },
+    {
+      "epoch": 0.1926318324103058,
+      "grad_norm": 8.9375,
+      "learning_rate": 6.396e-05,
+      "loss": 1.0279,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1926318324103058,
+      "eval/acc": 30.23255729675293,
+      "step": 1600
+    },
+    {
+      "epoch": 0.1926318324103058,
+      "eval_loss": 2.8526248931884766,
+      "eval_runtime": 0.3114,
+      "eval_samples_per_second": 138.103,
+      "eval_steps_per_second": 3.212,
+      "step": 1600
+    },
+    {
+      "epoch": 0.19383578136287022,
+      "grad_norm": 7.78125,
+      "learning_rate": 6.436e-05,
+      "loss": 0.8743,
+      "step": 1610
+    },
+    {
+      "epoch": 0.19503973031543462,
+      "grad_norm": 9.8125,
+      "learning_rate": 6.476e-05,
+      "loss": 0.8702,
+      "step": 1620
+    },
+    {
+      "epoch": 0.19624367926799904,
+      "grad_norm": 12.4375,
+      "learning_rate": 6.515999999999999e-05,
+      "loss": 1.0028,
+      "step": 1630
+    },
+    {
+      "epoch": 0.19744762822056344,
+      "grad_norm": 10.125,
+      "learning_rate": 6.556e-05,
+      "loss": 0.9377,
+      "step": 1640
+    },
+    {
+      "epoch": 0.19865157717312787,
+      "grad_norm": 8.9375,
+      "learning_rate": 6.596e-05,
+      "loss": 1.031,
+      "step": 1650
+    },
+    {
+      "epoch": 0.19985552612569227,
+      "grad_norm": 8.5625,
+      "learning_rate": 6.636e-05,
+      "loss": 1.0162,
+      "step": 1660
+    },
+    {
+      "epoch": 0.2010594750782567,
+      "grad_norm": 33.75,
+      "learning_rate": 6.676e-05,
+      "loss": 0.9448,
+      "step": 1670
+    },
+    {
+      "epoch": 0.2022634240308211,
+      "grad_norm": 9.625,
+      "learning_rate": 6.716e-05,
+      "loss": 1.0077,
+      "step": 1680
+    },
+    {
+      "epoch": 0.2034673729833855,
+      "grad_norm": 8.6875,
+      "learning_rate": 6.756e-05,
+      "loss": 0.9654,
+      "step": 1690
+    },
+    {
+      "epoch": 0.20467132193594992,
+      "grad_norm": 12.625,
+      "learning_rate": 6.796e-05,
+      "loss": 0.8899,
+      "step": 1700
+    },
+    {
+      "epoch": 0.20467132193594992,
+      "eval/acc": 32.55813980102539,
+      "step": 1700
+    },
+    {
+      "epoch": 0.20467132193594992,
+      "eval_loss": 2.7813549041748047,
+      "eval_runtime": 0.2132,
+      "eval_samples_per_second": 201.701,
+      "eval_steps_per_second": 4.691,
+      "step": 1700
+    },
+    {
+      "epoch": 0.20587527088851432,
+      "grad_norm": 12.0,
+      "learning_rate": 6.836e-05,
+      "loss": 1.0412,
+      "step": 1710
+    },
+    {
+      "epoch": 0.20707921984107874,
+      "grad_norm": 11.75,
+      "learning_rate": 6.876e-05,
+      "loss": 0.9239,
+      "step": 1720
+    },
+    {
+      "epoch": 0.20828316879364314,
+      "grad_norm": 11.375,
+      "learning_rate": 6.916000000000001e-05,
+      "loss": 0.9243,
+      "step": 1730
+    },
+    {
+      "epoch": 0.20948711774620757,
+      "grad_norm": 12.0,
+      "learning_rate": 6.956e-05,
+      "loss": 1.0204,
+      "step": 1740
+    },
+    {
+      "epoch": 0.21069106669877197,
+      "grad_norm": 13.0625,
+      "learning_rate": 6.996e-05,
+      "loss": 0.8811,
+      "step": 1750
+    },
+    {
+      "epoch": 0.2118950156513364,
+      "grad_norm": 17.0,
+      "learning_rate": 7.036e-05,
+      "loss": 0.8755,
+      "step": 1760
+    },
+    {
+      "epoch": 0.2130989646039008,
+      "grad_norm": 11.25,
+      "learning_rate": 7.076000000000001e-05,
+      "loss": 0.858,
+      "step": 1770
+    },
+    {
+      "epoch": 0.21430291355646522,
+      "grad_norm": 9.625,
+      "learning_rate": 7.116e-05,
+      "loss": 0.9076,
+      "step": 1780
+    },
+    {
+      "epoch": 0.21550686250902962,
+      "grad_norm": 10.4375,
+      "learning_rate": 7.156e-05,
+      "loss": 0.8817,
+      "step": 1790
+    },
+    {
+      "epoch": 0.21671081146159402,
+      "grad_norm": 12.8125,
+      "learning_rate": 7.196000000000001e-05,
+      "loss": 0.9121,
+      "step": 1800
+    },
+    {
+      "epoch": 0.21671081146159402,
+      "eval/acc": 30.813953399658203,
+      "step": 1800
+    },
+    {
+      "epoch": 0.21671081146159402,
+      "eval_loss": 2.6508796215057373,
+      "eval_runtime": 0.2185,
+      "eval_samples_per_second": 196.798,
+      "eval_steps_per_second": 4.577,
+      "step": 1800
+    },
+    {
+      "epoch": 0.21791476041415844,
+      "grad_norm": 16.5,
+      "learning_rate": 7.236e-05,
+      "loss": 0.9044,
+      "step": 1810
+    },
+    {
+      "epoch": 0.21911870936672284,
+      "grad_norm": 15.1875,
+      "learning_rate": 7.276e-05,
+      "loss": 0.9552,
+      "step": 1820
+    },
+    {
+      "epoch": 0.22032265831928727,
+      "grad_norm": 11.375,
+      "learning_rate": 7.316000000000001e-05,
+      "loss": 0.9264,
+      "step": 1830
+    },
+    {
+      "epoch": 0.22152660727185167,
+      "grad_norm": 8.8125,
+      "learning_rate": 7.356000000000001e-05,
+      "loss": 0.8928,
+      "step": 1840
+    },
+    {
+      "epoch": 0.2227305562244161,
+      "grad_norm": 9.625,
+      "learning_rate": 7.396e-05,
+      "loss": 0.9515,
+      "step": 1850
+    },
+    {
+      "epoch": 0.2239345051769805,
+      "grad_norm": 31.0,
+      "learning_rate": 7.436000000000001e-05,
+      "loss": 0.8989,
+      "step": 1860
+    },
+    {
+      "epoch": 0.22513845412954492,
+      "grad_norm": 9.5,
+      "learning_rate": 7.476000000000001e-05,
+      "loss": 1.0206,
+      "step": 1870
+    },
+    {
+      "epoch": 0.22634240308210932,
+      "grad_norm": 8.625,
+      "learning_rate": 7.516e-05,
+      "loss": 0.8961,
+      "step": 1880
+    },
+    {
+      "epoch": 0.22754635203467374,
+      "grad_norm": 9.0,
+      "learning_rate": 7.556000000000002e-05,
+      "loss": 0.9421,
+      "step": 1890
+    },
+    {
+      "epoch": 0.22875030098723814,
+      "grad_norm": 12.0625,
+      "learning_rate": 7.596000000000001e-05,
+      "loss": 0.9049,
+      "step": 1900
+    },
+    {
+      "epoch": 0.22875030098723814,
+      "eval/acc": 36.046512603759766,
+      "step": 1900
+    },
+    {
+      "epoch": 0.22875030098723814,
+      "eval_loss": 2.636018753051758,
+      "eval_runtime": 0.2084,
+      "eval_samples_per_second": 206.343,
+      "eval_steps_per_second": 4.799,
+      "step": 1900
+    },
+    {
+      "epoch": 0.22995424993980254,
+      "grad_norm": 8.0625,
+      "learning_rate": 7.636e-05,
+      "loss": 0.8983,
+      "step": 1910
+    },
+    {
+      "epoch": 0.23115819889236697,
+      "grad_norm": 11.875,
+      "learning_rate": 7.676e-05,
+      "loss": 0.9293,
+      "step": 1920
+    },
+    {
+      "epoch": 0.23236214784493137,
+      "grad_norm": 11.75,
+      "learning_rate": 7.716e-05,
+      "loss": 0.8602,
+      "step": 1930
+    },
+    {
+      "epoch": 0.2335660967974958,
+      "grad_norm": 11.5625,
+      "learning_rate": 7.756e-05,
+      "loss": 0.8078,
+      "step": 1940
+    },
+    {
+      "epoch": 0.2347700457500602,
+      "grad_norm": 9.125,
+      "learning_rate": 7.796e-05,
+      "loss": 0.8773,
+      "step": 1950
+    },
+    {
+      "epoch": 0.23597399470262462,
+      "grad_norm": 10.6875,
+      "learning_rate": 7.836e-05,
+      "loss": 0.8464,
+      "step": 1960
+    },
+    {
+      "epoch": 0.23717794365518902,
+      "grad_norm": 18.25,
+      "learning_rate": 7.876e-05,
+      "loss": 0.8779,
+      "step": 1970
+    },
+    {
+      "epoch": 0.23838189260775344,
+      "grad_norm": 10.875,
+      "learning_rate": 7.916e-05,
+      "loss": 0.9351,
+      "step": 1980
+    },
+    {
+      "epoch": 0.23958584156031784,
+      "grad_norm": 11.0,
+      "learning_rate": 7.956e-05,
+      "loss": 0.8581,
+      "step": 1990
+    },
+    {
+      "epoch": 0.24078979051288224,
+      "grad_norm": 8.875,
+      "learning_rate": 7.996e-05,
+      "loss": 0.9799,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24078979051288224,
+      "eval/acc": 36.046512603759766,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24078979051288224,
+      "eval_loss": 2.716654062271118,
+      "eval_runtime": 0.21,
+      "eval_samples_per_second": 204.721,
+      "eval_steps_per_second": 4.761,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24199373946544667,
+      "grad_norm": 11.0625,
+      "learning_rate": 8.036e-05,
+      "loss": 0.8678,
+      "step": 2010
+    },
+    {
+      "epoch": 0.24319768841801107,
+      "grad_norm": 12.125,
+      "learning_rate": 8.076e-05,
+      "loss": 0.8832,
+      "step": 2020
+    },
+    {
+      "epoch": 0.2444016373705755,
+      "grad_norm": 8.25,
+      "learning_rate": 8.116e-05,
+      "loss": 0.8689,
+      "step": 2030
+    },
+    {
+      "epoch": 0.2456055863231399,
+      "grad_norm": 6.53125,
+      "learning_rate": 8.156e-05,
+      "loss": 0.8829,
+      "step": 2040
+    },
+    {
+      "epoch": 0.24680953527570432,
+      "grad_norm": 9.5625,
+      "learning_rate": 8.196000000000001e-05,
+      "loss": 0.9181,
+      "step": 2050
+    },
+    {
+      "epoch": 0.24801348422826872,
+      "grad_norm": 22.875,
+      "learning_rate": 8.236e-05,
+      "loss": 0.8011,
+      "step": 2060
+    },
+    {
+      "epoch": 0.24921743318083314,
+      "grad_norm": 14.4375,
+      "learning_rate": 8.276e-05,
+      "loss": 0.9163,
+      "step": 2070
+    },
+    {
+      "epoch": 0.25042138213339754,
+      "grad_norm": 10.625,
+      "learning_rate": 8.316000000000001e-05,
+      "loss": 0.7869,
+      "step": 2080
+    },
+    {
+      "epoch": 0.25162533108596197,
+      "grad_norm": 11.0,
+      "learning_rate": 8.356e-05,
+      "loss": 0.8779,
+      "step": 2090
+    },
+    {
+      "epoch": 0.2528292800385264,
+      "grad_norm": 12.625,
+      "learning_rate": 8.396e-05,
+      "loss": 0.889,
+      "step": 2100
+    },
+    {
+      "epoch": 0.2528292800385264,
+      "eval/acc": 37.20930099487305,
+      "step": 2100
+    },
+    {
+      "epoch": 0.2528292800385264,
+      "eval_loss": 2.626293182373047,
+      "eval_runtime": 0.2735,
+      "eval_samples_per_second": 157.235,
+      "eval_steps_per_second": 3.657,
+      "step": 2100
+    },
+    {
+      "epoch": 0.25403322899109076,
+      "grad_norm": 8.3125,
+      "learning_rate": 8.436000000000001e-05,
+      "loss": 0.8363,
+      "step": 2110
+    },
+    {
+      "epoch": 0.2552371779436552,
+      "grad_norm": 8.625,
+      "learning_rate": 8.476000000000001e-05,
+      "loss": 0.8762,
+      "step": 2120
+    },
+    {
+      "epoch": 0.2564411268962196,
+      "grad_norm": 7.4375,
+      "learning_rate": 8.516e-05,
+      "loss": 0.7925,
+      "step": 2130
+    },
+    {
+      "epoch": 0.257645075848784,
+      "grad_norm": 9.1875,
+      "learning_rate": 8.556e-05,
+      "loss": 0.9575,
+      "step": 2140
+    },
+    {
+      "epoch": 0.2588490248013484,
+      "grad_norm": 9.8125,
+      "learning_rate": 8.596000000000001e-05,
+      "loss": 0.7551,
+      "step": 2150
+    },
+    {
+      "epoch": 0.26005297375391284,
+      "grad_norm": 7.15625,
+      "learning_rate": 8.636e-05,
+      "loss": 0.808,
+      "step": 2160
+    },
+    {
+      "epoch": 0.26125692270647727,
+      "grad_norm": 8.3125,
+      "learning_rate": 8.676e-05,
+      "loss": 0.9449,
+      "step": 2170
+    },
+    {
+      "epoch": 0.26246087165904164,
+      "grad_norm": 11.5,
+      "learning_rate": 8.716000000000001e-05,
+      "loss": 0.8712,
+      "step": 2180
+    },
+    {
+      "epoch": 0.26366482061160607,
+      "grad_norm": 8.0,
+      "learning_rate": 8.756000000000001e-05,
+      "loss": 0.9389,
+      "step": 2190
+    },
+    {
+      "epoch": 0.2648687695641705,
+      "grad_norm": 13.5,
+      "learning_rate": 8.796e-05,
+      "loss": 0.7875,
+      "step": 2200
+    },
+    {
+      "epoch": 0.2648687695641705,
+      "eval/acc": 35.46511459350586,
+      "step": 2200
+    },
+    {
+      "epoch": 0.2648687695641705,
+      "eval_loss": 2.5862526893615723,
+      "eval_runtime": 0.2151,
+      "eval_samples_per_second": 199.927,
+      "eval_steps_per_second": 4.649,
+      "step": 2200
+    },
+    {
+      "epoch": 0.26607271851673486,
+      "grad_norm": 11.5625,
+      "learning_rate": 8.836000000000001e-05,
+      "loss": 0.9947,
+      "step": 2210
+    },
+    {
+      "epoch": 0.2672766674692993,
+      "grad_norm": 8.25,
+      "learning_rate": 8.876e-05,
+      "loss": 0.717,
+      "step": 2220
+    },
+    {
+      "epoch": 0.2684806164218637,
+      "grad_norm": 26.25,
+      "learning_rate": 8.916e-05,
+      "loss": 0.8688,
+      "step": 2230
+    },
+    {
+      "epoch": 0.26968456537442814,
+      "grad_norm": 11.5,
+      "learning_rate": 8.956e-05,
+      "loss": 0.9134,
+      "step": 2240
+    },
+    {
+      "epoch": 0.2708885143269925,
+      "grad_norm": 6.875,
+      "learning_rate": 8.996e-05,
+      "loss": 0.8592,
+      "step": 2250
+    },
+    {
+      "epoch": 0.27209246327955694,
+      "grad_norm": 7.21875,
+      "learning_rate": 9.036e-05,
+      "loss": 0.6548,
+      "step": 2260
+    },
+    {
+      "epoch": 0.27329641223212137,
+      "grad_norm": 12.25,
+      "learning_rate": 9.076e-05,
+      "loss": 0.8613,
+      "step": 2270
+    },
+    {
+      "epoch": 0.2745003611846858,
+      "grad_norm": 8.875,
+      "learning_rate": 9.116e-05,
+      "loss": 0.7455,
+      "step": 2280
+    },
+    {
+      "epoch": 0.27570431013725016,
+      "grad_norm": 12.5625,
+      "learning_rate": 9.156e-05,
+      "loss": 0.8458,
+      "step": 2290
+    },
+    {
+      "epoch": 0.2769082590898146,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.196000000000001e-05,
+      "loss": 0.8003,
+      "step": 2300
+    },
+    {
+      "epoch": 0.2769082590898146,
+      "eval/acc": 32.55813980102539,
+      "step": 2300
+    },
+    {
+      "epoch": 0.2769082590898146,
+      "eval_loss": 2.6594340801239014,
+      "eval_runtime": 0.2129,
+      "eval_samples_per_second": 201.965,
+      "eval_steps_per_second": 4.697,
+      "step": 2300
+    },
+    {
+      "epoch": 0.278112208042379,
+      "grad_norm": 10.6875,
+      "learning_rate": 9.236e-05,
+      "loss": 0.812,
+      "step": 2310
+    },
+    {
+      "epoch": 0.2793161569949434,
+      "grad_norm": 12.1875,
+      "learning_rate": 9.276e-05,
+      "loss": 0.781,
+      "step": 2320
+    },
+    {
+      "epoch": 0.2805201059475078,
+      "grad_norm": 8.125,
+      "learning_rate": 9.316000000000001e-05,
+      "loss": 0.9682,
+      "step": 2330
+    },
+    {
+      "epoch": 0.28172405490007224,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.356e-05,
+      "loss": 0.7531,
+      "step": 2340
+    },
+    {
+      "epoch": 0.28292800385263667,
+      "grad_norm": 7.375,
+      "learning_rate": 9.396e-05,
+      "loss": 0.7235,
+      "step": 2350
+    },
+    {
+      "epoch": 0.28413195280520104,
+      "grad_norm": 7.8125,
+      "learning_rate": 9.436e-05,
+      "loss": 0.9204,
+      "step": 2360
+    },
+    {
+      "epoch": 0.28533590175776546,
+      "grad_norm": 6.65625,
+      "learning_rate": 9.476000000000001e-05,
+      "loss": 0.7636,
+      "step": 2370
+    },
+    {
+      "epoch": 0.2865398507103299,
+      "grad_norm": 9.625,
+      "learning_rate": 9.516e-05,
+      "loss": 0.855,
+      "step": 2380
+    },
+    {
+      "epoch": 0.2877437996628943,
+      "grad_norm": 9.6875,
+      "learning_rate": 9.556e-05,
+      "loss": 0.8643,
+      "step": 2390
+    },
+    {
+      "epoch": 0.2889477486154587,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.596000000000001e-05,
+      "loss": 0.8258,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2889477486154587,
+      "eval/acc": 36.627906799316406,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2889477486154587,
+      "eval_loss": 2.7174084186553955,
+      "eval_runtime": 0.2111,
+      "eval_samples_per_second": 203.672,
+      "eval_steps_per_second": 4.737,
+      "step": 2400
+    },
+    {
+      "epoch": 0.2901516975680231,
+      "grad_norm": 7.65625,
+      "learning_rate": 9.636e-05,
+      "loss": 0.8752,
+      "step": 2410
+    },
+    {
+      "epoch": 0.29135564652058754,
+      "grad_norm": 8.75,
+      "learning_rate": 9.676e-05,
+      "loss": 0.8082,
+      "step": 2420
+    },
+    {
+      "epoch": 0.2925595954731519,
+      "grad_norm": 10.4375,
+      "learning_rate": 9.716000000000001e-05,
+      "loss": 0.7538,
+      "step": 2430
+    },
+    {
+      "epoch": 0.29376354442571634,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.756000000000001e-05,
+      "loss": 0.7766,
+      "step": 2440
+    },
+    {
+      "epoch": 0.29496749337828077,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.796e-05,
+      "loss": 0.844,
+      "step": 2450
+    },
+    {
+      "epoch": 0.2961714423308452,
+      "grad_norm": 7.75,
+      "learning_rate": 9.836000000000001e-05,
+      "loss": 0.7127,
+      "step": 2460
+    },
+    {
+      "epoch": 0.29737539128340956,
+      "grad_norm": 11.5,
+      "learning_rate": 9.876000000000001e-05,
+      "loss": 0.8363,
+      "step": 2470
+    },
+    {
+      "epoch": 0.298579340235974,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.916e-05,
+      "loss": 0.7429,
+      "step": 2480
+    },
+    {
+      "epoch": 0.2997832891885384,
+      "grad_norm": 11.5,
+      "learning_rate": 9.956e-05,
+      "loss": 0.736,
+      "step": 2490
+    },
+    {
+      "epoch": 0.30098723814110284,
+      "grad_norm": 9.25,
+      "learning_rate": 9.996000000000001e-05,
+      "loss": 0.8365,
+      "step": 2500
+    },
+    {
+      "epoch": 0.30098723814110284,
+      "eval/acc": 39.53488540649414,
+      "step": 2500
+    },
+    {
+      "epoch": 0.30098723814110284,
+      "eval_loss": 2.713433027267456,
+      "eval_runtime": 0.2088,
+      "eval_samples_per_second": 205.919,
+      "eval_steps_per_second": 4.789,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3021911870936672,
+      "grad_norm": 7.03125,
+      "learning_rate": 9.996000000000001e-05,
+      "loss": 0.7664,
+      "step": 2510
+    },
+    {
+      "epoch": 0.30339513604623164,
+      "grad_norm": 7.75,
+      "learning_rate": 9.991555555555556e-05,
+      "loss": 0.9128,
+      "step": 2520
+    },
+    {
+      "epoch": 0.30459908499879607,
+      "grad_norm": 9.0,
+      "learning_rate": 9.987111111111111e-05,
+      "loss": 0.8045,
+      "step": 2530
+    },
+    {
+      "epoch": 0.30580303395136044,
+      "grad_norm": 8.9375,
+      "learning_rate": 9.982666666666667e-05,
+      "loss": 0.8292,
+      "step": 2540
+    },
+    {
+      "epoch": 0.30700698290392486,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.978222222222223e-05,
+      "loss": 0.7557,
+      "step": 2550
+    },
+    {
+      "epoch": 0.3082109318564893,
+      "grad_norm": 7.625,
+      "learning_rate": 9.973777777777778e-05,
+      "loss": 0.683,
+      "step": 2560
+    },
+    {
+      "epoch": 0.3094148808090537,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.969333333333334e-05,
+      "loss": 0.8052,
+      "step": 2570
+    },
+    {
+      "epoch": 0.3106188297616181,
+      "grad_norm": 8.4375,
+      "learning_rate": 9.964888888888889e-05,
+      "loss": 0.7819,
+      "step": 2580
+    },
+    {
+      "epoch": 0.3118227787141825,
+      "grad_norm": 10.8125,
+      "learning_rate": 9.960444444444444e-05,
+      "loss": 0.8452,
+      "step": 2590
+    },
+    {
+      "epoch": 0.31302672766674694,
+      "grad_norm": 6.21875,
+      "learning_rate": 9.956e-05,
+      "loss": 0.7478,
+      "step": 2600
+    },
+    {
+      "epoch": 0.31302672766674694,
+      "eval/acc": 34.88372039794922,
+      "step": 2600
+    },
+    {
+      "epoch": 0.31302672766674694,
+      "eval_loss": 2.6625020503997803,
+      "eval_runtime": 0.2061,
+      "eval_samples_per_second": 208.644,
+      "eval_steps_per_second": 4.852,
+      "step": 2600
+    },
+    {
+      "epoch": 0.31423067661931137,
+      "grad_norm": 7.375,
+      "learning_rate": 9.951555555555556e-05,
+      "loss": 0.7623,
+      "step": 2610
+    },
+    {
+      "epoch": 0.31543462557187574,
+      "grad_norm": 9.0,
+      "learning_rate": 9.947111111111111e-05,
+      "loss": 0.8223,
+      "step": 2620
+    },
+    {
+      "epoch": 0.31663857452444016,
+      "grad_norm": 6.75,
+      "learning_rate": 9.942666666666667e-05,
+      "loss": 0.7797,
+      "step": 2630
+    },
+    {
+      "epoch": 0.3178425234770046,
+      "grad_norm": 9.125,
+      "learning_rate": 9.938222222222224e-05,
+      "loss": 0.6746,
+      "step": 2640
+    },
+    {
+      "epoch": 0.31904647242956896,
+      "grad_norm": 8.5,
+      "learning_rate": 9.933777777777779e-05,
+      "loss": 0.8434,
+      "step": 2650
+    },
+    {
+      "epoch": 0.3202504213821334,
+      "grad_norm": 10.3125,
+      "learning_rate": 9.929333333333333e-05,
+      "loss": 0.8625,
+      "step": 2660
+    },
+    {
+      "epoch": 0.3214543703346978,
+      "grad_norm": 8.125,
+      "learning_rate": 9.92488888888889e-05,
+      "loss": 0.8003,
+      "step": 2670
+    },
+    {
+      "epoch": 0.32265831928726224,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.920444444444444e-05,
+      "loss": 0.8145,
+      "step": 2680
+    },
+    {
+      "epoch": 0.3238622682398266,
+      "grad_norm": 8.0,
+      "learning_rate": 9.916e-05,
+      "loss": 0.6519,
+      "step": 2690
+    },
+    {
+      "epoch": 0.32506621719239104,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.911555555555557e-05,
+      "loss": 0.7627,
+      "step": 2700
+    },
+    {
+      "epoch": 0.32506621719239104,
+      "eval/acc": 38.953487396240234,
+      "step": 2700
+    },
+    {
+      "epoch": 0.32506621719239104,
+      "eval_loss": 2.629239082336426,
+      "eval_runtime": 0.2162,
+      "eval_samples_per_second": 198.931,
+      "eval_steps_per_second": 4.626,
+      "step": 2700
+    },
+    {
+      "epoch": 0.32627016614495546,
+      "grad_norm": 7.625,
+      "learning_rate": 9.907111111111112e-05,
+      "loss": 0.7265,
+      "step": 2710
+    },
+    {
+      "epoch": 0.3274741150975199,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.902666666666666e-05,
+      "loss": 0.7468,
+      "step": 2720
+    },
+    {
+      "epoch": 0.32867806405008426,
+      "grad_norm": 8.5,
+      "learning_rate": 9.898222222222223e-05,
+      "loss": 0.7816,
+      "step": 2730
+    },
+    {
+      "epoch": 0.3298820130026487,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.893777777777779e-05,
+      "loss": 0.7828,
+      "step": 2740
+    },
+    {
+      "epoch": 0.3310859619552131,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.889333333333334e-05,
+      "loss": 0.8273,
+      "step": 2750
+    },
+    {
+      "epoch": 0.3322899109077775,
+      "grad_norm": 7.28125,
+      "learning_rate": 9.884888888888889e-05,
+      "loss": 0.6265,
+      "step": 2760
+    },
+    {
+      "epoch": 0.3334938598603419,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.880444444444445e-05,
+      "loss": 0.8716,
+      "step": 2770
+    },
+    {
+      "epoch": 0.33469780881290634,
+      "grad_norm": 6.0,
+      "learning_rate": 9.876000000000001e-05,
+      "loss": 0.7587,
+      "step": 2780
+    },
+    {
+      "epoch": 0.33590175776547077,
+      "grad_norm": 11.8125,
+      "learning_rate": 9.871555555555556e-05,
+      "loss": 0.836,
+      "step": 2790
+    },
+    {
+      "epoch": 0.33710570671803514,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.867111111111112e-05,
+      "loss": 0.7196,
+      "step": 2800
+    },
+    {
+      "epoch": 0.33710570671803514,
+      "eval/acc": 34.88372039794922,
+      "step": 2800
+    },
+    {
+      "epoch": 0.33710570671803514,
+      "eval_loss": 2.5979089736938477,
+      "eval_runtime": 0.212,
+      "eval_samples_per_second": 202.843,
+      "eval_steps_per_second": 4.717,
+      "step": 2800
+    },
+    {
+      "epoch": 0.33830965567059956,
+      "grad_norm": 8.125,
+      "learning_rate": 9.862666666666667e-05,
+      "loss": 0.7128,
+      "step": 2810
+    },
+    {
+      "epoch": 0.339513604623164,
+      "grad_norm": 7.0,
+      "learning_rate": 9.858222222222223e-05,
+      "loss": 0.8709,
+      "step": 2820
+    },
+    {
+      "epoch": 0.3407175535757284,
+      "grad_norm": 10.875,
+      "learning_rate": 9.853777777777778e-05,
+      "loss": 0.6885,
+      "step": 2830
+    },
+    {
+      "epoch": 0.3419215025282928,
+      "grad_norm": 6.625,
+      "learning_rate": 9.849333333333334e-05,
+      "loss": 0.8262,
+      "step": 2840
+    },
+    {
+      "epoch": 0.3431254514808572,
+      "grad_norm": 9.0625,
+      "learning_rate": 9.844888888888889e-05,
+      "loss": 0.6365,
+      "step": 2850
+    },
+    {
+      "epoch": 0.34432940043342164,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.840444444444445e-05,
+      "loss": 0.8177,
+      "step": 2860
+    },
+    {
+      "epoch": 0.345533349385986,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.836000000000001e-05,
+      "loss": 0.7043,
+      "step": 2870
+    },
+    {
+      "epoch": 0.34673729833855044,
+      "grad_norm": 10.4375,
+      "learning_rate": 9.831555555555556e-05,
+      "loss": 0.7503,
+      "step": 2880
+    },
+    {
+      "epoch": 0.34794124729111486,
+      "grad_norm": 7.375,
+      "learning_rate": 9.827111111111111e-05,
+      "loss": 0.7532,
+      "step": 2890
+    },
+    {
+      "epoch": 0.3491451962436793,
+      "grad_norm": 7.65625,
+      "learning_rate": 9.822666666666667e-05,
+      "loss": 0.6942,
+      "step": 2900
+    },
+    {
+      "epoch": 0.3491451962436793,
+      "eval/acc": 37.79069900512695,
+      "step": 2900
+    },
+    {
+      "epoch": 0.3491451962436793,
+      "eval_loss": 2.698911190032959,
+      "eval_runtime": 1.2554,
+      "eval_samples_per_second": 34.253,
+      "eval_steps_per_second": 0.797,
+      "step": 2900
+    },
+    {
+      "epoch": 0.35034914519624366,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.818222222222223e-05,
+      "loss": 0.7651,
+      "step": 2910
+    },
+    {
+      "epoch": 0.3515530941488081,
+      "grad_norm": 6.0,
+      "learning_rate": 9.813777777777778e-05,
+      "loss": 0.7786,
+      "step": 2920
+    },
+    {
+      "epoch": 0.3527570431013725,
+      "grad_norm": 9.375,
+      "learning_rate": 9.809333333333333e-05,
+      "loss": 0.8285,
+      "step": 2930
+    },
+    {
+      "epoch": 0.35396099205393694,
+      "grad_norm": 6.4375,
+      "learning_rate": 9.80488888888889e-05,
+      "loss": 0.7339,
+      "step": 2940
+    },
+    {
+      "epoch": 0.3551649410065013,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.800444444444446e-05,
+      "loss": 0.6948,
+      "step": 2950
+    },
+    {
+      "epoch": 0.35636888995906574,
+      "grad_norm": 11.4375,
+      "learning_rate": 9.796e-05,
+      "loss": 0.8455,
+      "step": 2960
+    },
+    {
+      "epoch": 0.35757283891163016,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.791555555555557e-05,
+      "loss": 0.791,
+      "step": 2970
+    },
+    {
+      "epoch": 0.35877678786419454,
+      "grad_norm": 7.84375,
+      "learning_rate": 9.787111111111111e-05,
+      "loss": 0.8574,
+      "step": 2980
+    },
+    {
+      "epoch": 0.35998073681675896,
+      "grad_norm": 9.4375,
+      "learning_rate": 9.782666666666666e-05,
+      "loss": 0.7923,
+      "step": 2990
+    },
+    {
+      "epoch": 0.3611846857693234,
+      "grad_norm": 8.0625,
+      "learning_rate": 9.778222222222222e-05,
+      "loss": 0.863,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3611846857693234,
+      "eval/acc": 41.86046600341797,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3611846857693234,
+      "eval_loss": 2.5240559577941895,
+      "eval_runtime": 0.2105,
+      "eval_samples_per_second": 204.269,
+      "eval_steps_per_second": 4.75,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3623886347218878,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.773777777777779e-05,
+      "loss": 0.7726,
+      "step": 3010
+    },
+    {
+      "epoch": 0.3635925836744522,
+      "grad_norm": 8.125,
+      "learning_rate": 9.769333333333334e-05,
+      "loss": 0.8234,
+      "step": 3020
+    },
+    {
+      "epoch": 0.3647965326270166,
+      "grad_norm": 7.90625,
+      "learning_rate": 9.764888888888888e-05,
+      "loss": 0.8125,
+      "step": 3030
+    },
+    {
+      "epoch": 0.36600048157958104,
+      "grad_norm": 5.875,
+      "learning_rate": 9.760444444444446e-05,
+      "loss": 0.739,
+      "step": 3040
+    },
+    {
+      "epoch": 0.3672044305321454,
+      "grad_norm": 32.75,
+      "learning_rate": 9.756000000000001e-05,
+      "loss": 0.8773,
+      "step": 3050
+    },
+    {
+      "epoch": 0.36840837948470984,
+      "grad_norm": 8.625,
+      "learning_rate": 9.751555555555556e-05,
+      "loss": 0.6411,
+      "step": 3060
+    },
+    {
+      "epoch": 0.36961232843727426,
+      "grad_norm": 10.0625,
+      "learning_rate": 9.747111111111112e-05,
+      "loss": 0.7757,
+      "step": 3070
+    },
+    {
+      "epoch": 0.3708162773898387,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.742666666666667e-05,
+      "loss": 0.8144,
+      "step": 3080
+    },
+    {
+      "epoch": 0.37202022634240306,
+      "grad_norm": 8.25,
+      "learning_rate": 9.738222222222223e-05,
+      "loss": 0.7915,
+      "step": 3090
+    },
+    {
+      "epoch": 0.3732241752949675,
+      "grad_norm": 9.5,
+      "learning_rate": 9.733777777777778e-05,
+      "loss": 0.7808,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3732241752949675,
+      "eval/acc": 39.53488540649414,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3732241752949675,
+      "eval_loss": 2.6263325214385986,
+      "eval_runtime": 0.2107,
+      "eval_samples_per_second": 204.065,
+      "eval_steps_per_second": 4.746,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3744281242475319,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.729333333333334e-05,
+      "loss": 0.6467,
+      "step": 3110
+    },
+    {
+      "epoch": 0.37563207320009634,
+      "grad_norm": 10.5625,
+      "learning_rate": 9.724888888888889e-05,
+      "loss": 0.7271,
+      "step": 3120
+    },
+    {
+      "epoch": 0.3768360221526607,
+      "grad_norm": 19.375,
+      "learning_rate": 9.720444444444445e-05,
+      "loss": 0.8248,
+      "step": 3130
+    },
+    {
+      "epoch": 0.37803997110522514,
+      "grad_norm": 11.6875,
+      "learning_rate": 9.716000000000001e-05,
+      "loss": 0.7468,
+      "step": 3140
+    },
+    {
+      "epoch": 0.37924392005778956,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.711555555555556e-05,
+      "loss": 0.8189,
+      "step": 3150
+    },
+    {
+      "epoch": 0.38044786901035393,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.707111111111111e-05,
+      "loss": 0.7265,
+      "step": 3160
+    },
+    {
+      "epoch": 0.38165181796291836,
+      "grad_norm": 11.9375,
+      "learning_rate": 9.702666666666667e-05,
+      "loss": 0.7502,
+      "step": 3170
+    },
+    {
+      "epoch": 0.3828557669154828,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.698222222222223e-05,
+      "loss": 0.8412,
+      "step": 3180
+    },
+    {
+      "epoch": 0.3840597158680472,
+      "grad_norm": 6.75,
+      "learning_rate": 9.693777777777778e-05,
+      "loss": 0.8689,
+      "step": 3190
+    },
+    {
+      "epoch": 0.3852636648206116,
+      "grad_norm": 7.6875,
+      "learning_rate": 9.689333333333333e-05,
+      "loss": 0.8053,
+      "step": 3200
+    },
+    {
+      "epoch": 0.3852636648206116,
+      "eval/acc": 39.53488540649414,
+      "step": 3200
+    },
+    {
+      "epoch": 0.3852636648206116,
+      "eval_loss": 2.6145706176757812,
+      "eval_runtime": 0.2093,
+      "eval_samples_per_second": 205.398,
+      "eval_steps_per_second": 4.777,
+      "step": 3200
+    },
+    {
+      "epoch": 0.386467613773176,
+      "grad_norm": 7.65625,
+      "learning_rate": 9.684888888888889e-05,
+      "loss": 0.7601,
+      "step": 3210
+    },
+    {
+      "epoch": 0.38767156272574044,
+      "grad_norm": 19.25,
+      "learning_rate": 9.680444444444445e-05,
+      "loss": 0.7944,
+      "step": 3220
+    },
+    {
+      "epoch": 0.38887551167830486,
+      "grad_norm": 9.375,
+      "learning_rate": 9.676e-05,
+      "loss": 0.839,
+      "step": 3230
+    },
+    {
+      "epoch": 0.39007946063086923,
+      "grad_norm": 8.5,
+      "learning_rate": 9.671555555555556e-05,
+      "loss": 0.7794,
+      "step": 3240
+    },
+    {
+      "epoch": 0.39128340958343366,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.667111111111111e-05,
+      "loss": 0.753,
+      "step": 3250
+    },
+    {
+      "epoch": 0.3924873585359981,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.662666666666667e-05,
+      "loss": 0.7326,
+      "step": 3260
+    },
+    {
+      "epoch": 0.39369130748856246,
+      "grad_norm": 13.4375,
+      "learning_rate": 9.658222222222222e-05,
+      "loss": 0.6754,
+      "step": 3270
+    },
+    {
+      "epoch": 0.3948952564411269,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.653777777777778e-05,
+      "loss": 0.757,
+      "step": 3280
+    },
+    {
+      "epoch": 0.3960992053936913,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.649333333333333e-05,
+      "loss": 0.9203,
+      "step": 3290
+    },
+    {
+      "epoch": 0.39730315434625574,
+      "grad_norm": 8.375,
+      "learning_rate": 9.64488888888889e-05,
+      "loss": 0.8552,
+      "step": 3300
+    },
+    {
+      "epoch": 0.39730315434625574,
+      "eval/acc": 44.1860466003418,
+      "step": 3300
+    },
+    {
+      "epoch": 0.39730315434625574,
+      "eval_loss": 2.571866273880005,
+      "eval_runtime": 0.2083,
+      "eval_samples_per_second": 206.479,
+      "eval_steps_per_second": 4.802,
+      "step": 3300
+    },
+    {
+      "epoch": 0.3985071032988201,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.640444444444446e-05,
+      "loss": 0.7811,
+      "step": 3310
+    },
+    {
+      "epoch": 0.39971105225138454,
+      "grad_norm": 11.75,
+      "learning_rate": 9.636e-05,
+      "loss": 0.6717,
+      "step": 3320
+    },
+    {
+      "epoch": 0.40091500120394896,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.631555555555555e-05,
+      "loss": 0.838,
+      "step": 3330
+    },
+    {
+      "epoch": 0.4021189501565134,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.627111111111112e-05,
+      "loss": 0.8568,
+      "step": 3340
+    },
+    {
+      "epoch": 0.40332289910907776,
+      "grad_norm": 7.3125,
+      "learning_rate": 9.622666666666668e-05,
+      "loss": 0.6742,
+      "step": 3350
+    },
+    {
+      "epoch": 0.4045268480616422,
+      "grad_norm": 7.875,
+      "learning_rate": 9.618222222222223e-05,
+      "loss": 0.7849,
+      "step": 3360
+    },
+    {
+      "epoch": 0.4057307970142066,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.613777777777779e-05,
+      "loss": 0.7537,
+      "step": 3370
+    },
+    {
+      "epoch": 0.406934745966771,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.609333333333334e-05,
+      "loss": 0.6935,
+      "step": 3380
+    },
+    {
+      "epoch": 0.4081386949193354,
+      "grad_norm": 6.3125,
+      "learning_rate": 9.604888888888889e-05,
+      "loss": 0.8065,
+      "step": 3390
+    },
+    {
+      "epoch": 0.40934264387189984,
+      "grad_norm": 26.25,
+      "learning_rate": 9.600444444444445e-05,
+      "loss": 0.6558,
+      "step": 3400
+    },
+    {
+      "epoch": 0.40934264387189984,
+      "eval/acc": 37.20930099487305,
+      "step": 3400
+    },
+    {
+      "epoch": 0.40934264387189984,
+      "eval_loss": 2.7212982177734375,
+      "eval_runtime": 0.2094,
+      "eval_samples_per_second": 205.345,
+      "eval_steps_per_second": 4.775,
+      "step": 3400
+    },
+    {
+      "epoch": 0.41054659282446426,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.596000000000001e-05,
+      "loss": 0.7642,
+      "step": 3410
+    },
+    {
+      "epoch": 0.41175054177702863,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.591555555555556e-05,
+      "loss": 0.7185,
+      "step": 3420
+    },
+    {
+      "epoch": 0.41295449072959306,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.58711111111111e-05,
+      "loss": 0.6634,
+      "step": 3430
+    },
+    {
+      "epoch": 0.4141584396821575,
+      "grad_norm": 4.96875,
+      "learning_rate": 9.582666666666668e-05,
+      "loss": 0.6383,
+      "step": 3440
+    },
+    {
+      "epoch": 0.4153623886347219,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.578222222222223e-05,
+      "loss": 0.8032,
+      "step": 3450
+    },
+    {
+      "epoch": 0.4165663375872863,
+      "grad_norm": 9.0625,
+      "learning_rate": 9.573777777777778e-05,
+      "loss": 0.7294,
+      "step": 3460
+    },
+    {
+      "epoch": 0.4177702865398507,
+      "grad_norm": 9.5,
+      "learning_rate": 9.569333333333334e-05,
+      "loss": 0.802,
+      "step": 3470
+    },
+    {
+      "epoch": 0.41897423549241514,
+      "grad_norm": 7.0,
+      "learning_rate": 9.56488888888889e-05,
+      "loss": 0.7307,
+      "step": 3480
+    },
+    {
+      "epoch": 0.4201781844449795,
+      "grad_norm": 6.34375,
+      "learning_rate": 9.560444444444445e-05,
+      "loss": 0.7239,
+      "step": 3490
+    },
+    {
+      "epoch": 0.42138213339754393,
+      "grad_norm": 6.5,
+      "learning_rate": 9.556e-05,
+      "loss": 0.6711,
+      "step": 3500
+    },
+    {
+      "epoch": 0.42138213339754393,
+      "eval/acc": 39.53488540649414,
+      "step": 3500
+    },
+    {
+      "epoch": 0.42138213339754393,
+      "eval_loss": 2.569326400756836,
+      "eval_runtime": 0.2066,
+      "eval_samples_per_second": 208.137,
+      "eval_steps_per_second": 4.84,
+      "step": 3500
+    },
+    {
+      "epoch": 0.42258608235010836,
+      "grad_norm": 8.125,
+      "learning_rate": 9.551555555555556e-05,
+      "loss": 0.695,
+      "step": 3510
+    },
+    {
+      "epoch": 0.4237900313026728,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.547111111111111e-05,
+      "loss": 0.8691,
+      "step": 3520
+    },
+    {
+      "epoch": 0.42499398025523716,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.542666666666667e-05,
+      "loss": 0.7582,
+      "step": 3530
+    },
+    {
+      "epoch": 0.4261979292078016,
+      "grad_norm": 7.25,
+      "learning_rate": 9.538222222222223e-05,
+      "loss": 0.7143,
+      "step": 3540
+    },
+    {
+      "epoch": 0.427401878160366,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.533777777777778e-05,
+      "loss": 0.6754,
+      "step": 3550
+    },
+    {
+      "epoch": 0.42860582711293044,
+      "grad_norm": 7.8125,
+      "learning_rate": 9.529333333333333e-05,
+      "loss": 0.7153,
+      "step": 3560
+    },
+    {
+      "epoch": 0.4298097760654948,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.52488888888889e-05,
+      "loss": 0.7293,
+      "step": 3570
+    },
+    {
+      "epoch": 0.43101372501805923,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.520444444444446e-05,
+      "loss": 0.7066,
+      "step": 3580
+    },
+    {
+      "epoch": 0.43221767397062366,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.516e-05,
+      "loss": 0.691,
+      "step": 3590
+    },
+    {
+      "epoch": 0.43342162292318803,
+      "grad_norm": 7.125,
+      "learning_rate": 9.511555555555555e-05,
+      "loss": 0.8239,
+      "step": 3600
+    },
+    {
+      "epoch": 0.43342162292318803,
+      "eval/acc": 44.1860466003418,
+      "step": 3600
+    },
+    {
+      "epoch": 0.43342162292318803,
+      "eval_loss": 2.4877374172210693,
+      "eval_runtime": 0.3957,
+      "eval_samples_per_second": 108.658,
+      "eval_steps_per_second": 2.527,
+      "step": 3600
+    },
+    {
+      "epoch": 0.43462557187575246,
+      "grad_norm": 6.375,
+      "learning_rate": 9.507111111111111e-05,
+      "loss": 0.6782,
+      "step": 3610
+    },
+    {
+      "epoch": 0.4358295208283169,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.502666666666668e-05,
+      "loss": 0.7602,
+      "step": 3620
+    },
+    {
+      "epoch": 0.4370334697808813,
+      "grad_norm": 8.125,
+      "learning_rate": 9.498222222222222e-05,
+      "loss": 0.7232,
+      "step": 3630
+    },
+    {
+      "epoch": 0.4382374187334457,
+      "grad_norm": 7.84375,
+      "learning_rate": 9.493777777777779e-05,
+      "loss": 0.729,
+      "step": 3640
+    },
+    {
+      "epoch": 0.4394413676860101,
+      "grad_norm": 8.375,
+      "learning_rate": 9.489333333333334e-05,
+      "loss": 0.8222,
+      "step": 3650
+    },
+    {
+      "epoch": 0.44064531663857454,
+      "grad_norm": 8.125,
+      "learning_rate": 9.48488888888889e-05,
+      "loss": 0.6918,
+      "step": 3660
+    },
+    {
+      "epoch": 0.44184926559113896,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.480444444444445e-05,
+      "loss": 0.6761,
+      "step": 3670
+    },
+    {
+      "epoch": 0.44305321454370333,
+      "grad_norm": 5.65625,
+      "learning_rate": 9.476000000000001e-05,
+      "loss": 0.7532,
+      "step": 3680
+    },
+    {
+      "epoch": 0.44425716349626776,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.471555555555556e-05,
+      "loss": 0.7072,
+      "step": 3690
+    },
+    {
+      "epoch": 0.4454611124488322,
+      "grad_norm": 6.5625,
+      "learning_rate": 9.46711111111111e-05,
+      "loss": 0.8405,
+      "step": 3700
+    },
+    {
+      "epoch": 0.4454611124488322,
+      "eval/acc": 39.53488540649414,
+      "step": 3700
+    },
+    {
+      "epoch": 0.4454611124488322,
+      "eval_loss": 2.615053176879883,
+      "eval_runtime": 4.8304,
+      "eval_samples_per_second": 8.902,
+      "eval_steps_per_second": 0.207,
+      "step": 3700
+    },
+    {
+      "epoch": 0.44666506140139656,
+      "grad_norm": 8.6875,
+      "learning_rate": 9.462666666666668e-05,
+      "loss": 0.7249,
+      "step": 3710
+    },
+    {
+      "epoch": 0.447869010353961,
+      "grad_norm": 8.4375,
+      "learning_rate": 9.458222222222223e-05,
+      "loss": 0.8561,
+      "step": 3720
+    },
+    {
+      "epoch": 0.4490729593065254,
+      "grad_norm": 7.3125,
+      "learning_rate": 9.453777777777778e-05,
+      "loss": 0.7884,
+      "step": 3730
+    },
+    {
+      "epoch": 0.45027690825908984,
+      "grad_norm": 7.34375,
+      "learning_rate": 9.449333333333334e-05,
+      "loss": 0.7169,
+      "step": 3740
+    },
+    {
+      "epoch": 0.4514808572116542,
+      "grad_norm": 5.5,
+      "learning_rate": 9.44488888888889e-05,
+      "loss": 0.7542,
+      "step": 3750
+    },
+    {
+      "epoch": 0.45268480616421863,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.440444444444445e-05,
+      "loss": 0.6292,
+      "step": 3760
+    },
+    {
+      "epoch": 0.45388875511678306,
+      "grad_norm": 8.9375,
+      "learning_rate": 9.436e-05,
+      "loss": 0.6682,
+      "step": 3770
+    },
+    {
+      "epoch": 0.4550927040693475,
+      "grad_norm": 5.09375,
+      "learning_rate": 9.431555555555556e-05,
+      "loss": 0.6499,
+      "step": 3780
+    },
+    {
+      "epoch": 0.45629665302191186,
+      "grad_norm": 8.5,
+      "learning_rate": 9.427111111111112e-05,
+      "loss": 0.7859,
+      "step": 3790
+    },
+    {
+      "epoch": 0.4575006019744763,
+      "grad_norm": 14.5,
+      "learning_rate": 9.422666666666667e-05,
+      "loss": 0.7987,
+      "step": 3800
+    },
+    {
+      "epoch": 0.4575006019744763,
+      "eval/acc": 39.53488540649414,
+      "step": 3800
+    },
+    {
+      "epoch": 0.4575006019744763,
+      "eval_loss": 2.645066022872925,
+      "eval_runtime": 0.6165,
+      "eval_samples_per_second": 69.745,
+      "eval_steps_per_second": 1.622,
+      "step": 3800
+    },
+    {
+      "epoch": 0.4587045509270407,
+      "grad_norm": 6.25,
+      "learning_rate": 9.418222222222223e-05,
+      "loss": 0.7035,
+      "step": 3810
+    },
+    {
+      "epoch": 0.4599084998796051,
+      "grad_norm": 6.46875,
+      "learning_rate": 9.413777777777778e-05,
+      "loss": 0.6329,
+      "step": 3820
+    },
+    {
+      "epoch": 0.4611124488321695,
+      "grad_norm": 8.875,
+      "learning_rate": 9.409333333333333e-05,
+      "loss": 0.7553,
+      "step": 3830
+    },
+    {
+      "epoch": 0.46231639778473393,
+      "grad_norm": 9.3125,
+      "learning_rate": 9.404888888888889e-05,
+      "loss": 0.6551,
+      "step": 3840
+    },
+    {
+      "epoch": 0.46352034673729836,
+      "grad_norm": 11.0625,
+      "learning_rate": 9.400444444444445e-05,
+      "loss": 0.6634,
+      "step": 3850
+    },
+    {
+      "epoch": 0.46472429568986273,
+      "grad_norm": 6.71875,
+      "learning_rate": 9.396e-05,
+      "loss": 0.6527,
+      "step": 3860
+    },
+    {
+      "epoch": 0.46592824464242716,
+      "grad_norm": 6.75,
+      "learning_rate": 9.391555555555555e-05,
+      "loss": 0.8268,
+      "step": 3870
+    },
+    {
+      "epoch": 0.4671321935949916,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.387111111111113e-05,
+      "loss": 0.742,
+      "step": 3880
+    },
+    {
+      "epoch": 0.468336142547556,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.382666666666667e-05,
+      "loss": 0.7446,
+      "step": 3890
+    },
+    {
+      "epoch": 0.4695400915001204,
+      "grad_norm": 7.0625,
+      "learning_rate": 9.378222222222222e-05,
+      "loss": 0.7764,
+      "step": 3900
+    },
+    {
+      "epoch": 0.4695400915001204,
+      "eval/acc": 37.79069900512695,
+      "step": 3900
+    },
+    {
+      "epoch": 0.4695400915001204,
+      "eval_loss": 2.6463897228240967,
+      "eval_runtime": 1.4145,
+      "eval_samples_per_second": 30.4,
+      "eval_steps_per_second": 0.707,
+      "step": 3900
+    },
+    {
+      "epoch": 0.4707440404526848,
+      "grad_norm": 5.625,
+      "learning_rate": 9.373777777777778e-05,
+      "loss": 0.7248,
+      "step": 3910
+    },
+    {
+      "epoch": 0.47194798940524924,
+      "grad_norm": 7.09375,
+      "learning_rate": 9.369333333333333e-05,
+      "loss": 0.6977,
+      "step": 3920
+    },
+    {
+      "epoch": 0.4731519383578136,
+      "grad_norm": 7.53125,
+      "learning_rate": 9.36488888888889e-05,
+      "loss": 0.6496,
+      "step": 3930
+    },
+    {
+      "epoch": 0.47435588731037803,
+      "grad_norm": 11.0,
+      "learning_rate": 9.360444444444444e-05,
+      "loss": 0.7309,
+      "step": 3940
+    },
+    {
+      "epoch": 0.47555983626294246,
+      "grad_norm": 10.5625,
+      "learning_rate": 9.356e-05,
+      "loss": 0.7837,
+      "step": 3950
+    },
+    {
+      "epoch": 0.4767637852155069,
+      "grad_norm": 6.9375,
+      "learning_rate": 9.351555555555555e-05,
+      "loss": 0.6769,
+      "step": 3960
+    },
+    {
+      "epoch": 0.47796773416807126,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.347111111111112e-05,
+      "loss": 0.642,
+      "step": 3970
+    },
+    {
+      "epoch": 0.4791716831206357,
+      "grad_norm": 9.125,
+      "learning_rate": 9.342666666666668e-05,
+      "loss": 0.6947,
+      "step": 3980
+    },
+    {
+      "epoch": 0.4803756320732001,
+      "grad_norm": 7.4375,
+      "learning_rate": 9.338222222222223e-05,
+      "loss": 0.5902,
+      "step": 3990
+    },
+    {
+      "epoch": 0.4815795810257645,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.333777777777777e-05,
+      "loss": 0.6075,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4815795810257645,
+      "eval/acc": 34.88372039794922,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4815795810257645,
+      "eval_loss": 2.6985960006713867,
+      "eval_runtime": 0.2767,
+      "eval_samples_per_second": 155.399,
+      "eval_steps_per_second": 3.614,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4827835299783289,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.329333333333334e-05,
+      "loss": 0.7166,
+      "step": 4010
+    },
+    {
+      "epoch": 0.48398747893089333,
+      "grad_norm": 6.375,
+      "learning_rate": 9.32488888888889e-05,
+      "loss": 0.6136,
+      "step": 4020
+    },
+    {
+      "epoch": 0.48519142788345776,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.320444444444445e-05,
+      "loss": 0.7948,
+      "step": 4030
+    },
+    {
+      "epoch": 0.48639537683602213,
+      "grad_norm": 7.5625,
+      "learning_rate": 9.316000000000001e-05,
+      "loss": 0.7253,
+      "step": 4040
+    },
+    {
+      "epoch": 0.48759932578858656,
+      "grad_norm": 7.1875,
+      "learning_rate": 9.311555555555556e-05,
+      "loss": 0.7386,
+      "step": 4050
+    },
+    {
+      "epoch": 0.488803274741151,
+      "grad_norm": 7.71875,
+      "learning_rate": 9.307111111111112e-05,
+      "loss": 0.7222,
+      "step": 4060
+    },
+    {
+      "epoch": 0.4900072236937154,
+      "grad_norm": 10.8125,
+      "learning_rate": 9.302666666666667e-05,
+      "loss": 0.6298,
+      "step": 4070
+    },
+    {
+      "epoch": 0.4912111726462798,
+      "grad_norm": 14.25,
+      "learning_rate": 9.298222222222223e-05,
+      "loss": 0.6551,
+      "step": 4080
+    },
+    {
+      "epoch": 0.4924151215988442,
+      "grad_norm": 7.75,
+      "learning_rate": 9.293777777777778e-05,
+      "loss": 0.7201,
+      "step": 4090
+    },
+    {
+      "epoch": 0.49361907055140863,
+      "grad_norm": 9.0625,
+      "learning_rate": 9.289333333333334e-05,
+      "loss": 0.708,
+      "step": 4100
+    },
+    {
+      "epoch": 0.49361907055140863,
+      "eval/acc": 34.88372039794922,
+      "step": 4100
+    },
+    {
+      "epoch": 0.49361907055140863,
+      "eval_loss": 2.7673676013946533,
+      "eval_runtime": 0.3468,
+      "eval_samples_per_second": 124.003,
+      "eval_steps_per_second": 2.884,
+      "step": 4100
+    },
+    {
+      "epoch": 0.494823019503973,
+      "grad_norm": 7.9375,
+      "learning_rate": 9.28488888888889e-05,
+      "loss": 0.6997,
+      "step": 4110
+    },
+    {
+      "epoch": 0.49602696845653743,
+      "grad_norm": 6.84375,
+      "learning_rate": 9.280444444444445e-05,
+      "loss": 0.6195,
+      "step": 4120
+    },
+    {
+      "epoch": 0.49723091740910186,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.276e-05,
+      "loss": 0.765,
+      "step": 4130
+    },
+    {
+      "epoch": 0.4984348663616663,
+      "grad_norm": 7.8125,
+      "learning_rate": 9.271555555555556e-05,
+      "loss": 0.7097,
+      "step": 4140
+    },
+    {
+      "epoch": 0.49963881531423066,
+      "grad_norm": 7.75,
+      "learning_rate": 9.267111111111112e-05,
+      "loss": 0.7067,
+      "step": 4150
+    },
+    {
+      "epoch": 0.5008427642667951,
+      "grad_norm": 27.875,
+      "learning_rate": 9.262666666666667e-05,
+      "loss": 0.7989,
+      "step": 4160
+    },
+    {
+      "epoch": 0.5020467132193595,
+      "grad_norm": 8.0,
+      "learning_rate": 9.258222222222222e-05,
+      "loss": 0.6744,
+      "step": 4170
+    },
+    {
+      "epoch": 0.5032506621719239,
+      "grad_norm": 7.96875,
+      "learning_rate": 9.253777777777778e-05,
+      "loss": 0.738,
+      "step": 4180
+    },
+    {
+      "epoch": 0.5044546111244883,
+      "grad_norm": 7.21875,
+      "learning_rate": 9.249333333333334e-05,
+      "loss": 0.7021,
+      "step": 4190
+    },
+    {
+      "epoch": 0.5056585600770528,
+      "grad_norm": 9.6875,
+      "learning_rate": 9.244888888888889e-05,
+      "loss": 0.7133,
+      "step": 4200
+    },
+    {
+      "epoch": 0.5056585600770528,
+      "eval/acc": 32.55813980102539,
+      "step": 4200
+    },
+    {
+      "epoch": 0.5056585600770528,
+      "eval_loss": 2.7288577556610107,
+      "eval_runtime": 0.2266,
+      "eval_samples_per_second": 189.803,
+      "eval_steps_per_second": 4.414,
+      "step": 4200
+    },
+    {
+      "epoch": 0.5068625090296172,
+      "grad_norm": 10.5,
+      "learning_rate": 9.240444444444445e-05,
+      "loss": 0.6886,
+      "step": 4210
+    },
+    {
+      "epoch": 0.5080664579821815,
+      "grad_norm": 9.0625,
+      "learning_rate": 9.236e-05,
+      "loss": 0.7944,
+      "step": 4220
+    },
+    {
+      "epoch": 0.509270406934746,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.231555555555555e-05,
+      "loss": 0.7869,
+      "step": 4230
+    },
+    {
+      "epoch": 0.5104743558873104,
+      "grad_norm": 6.375,
+      "learning_rate": 9.227111111111111e-05,
+      "loss": 0.6245,
+      "step": 4240
+    },
+    {
+      "epoch": 0.5116783048398748,
+      "grad_norm": 9.9375,
+      "learning_rate": 9.222666666666668e-05,
+      "loss": 0.7006,
+      "step": 4250
+    },
+    {
+      "epoch": 0.5128822537924392,
+      "grad_norm": 6.1875,
+      "learning_rate": 9.218222222222222e-05,
+      "loss": 0.7588,
+      "step": 4260
+    },
+    {
+      "epoch": 0.5140862027450036,
+      "grad_norm": 10.6875,
+      "learning_rate": 9.213777777777777e-05,
+      "loss": 0.737,
+      "step": 4270
+    },
+    {
+      "epoch": 0.515290151697568,
+      "grad_norm": 6.15625,
+      "learning_rate": 9.209333333333335e-05,
+      "loss": 0.6774,
+      "step": 4280
+    },
+    {
+      "epoch": 0.5164941006501325,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.20488888888889e-05,
+      "loss": 0.6972,
+      "step": 4290
+    },
+    {
+      "epoch": 0.5176980496026968,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.200444444444445e-05,
+      "loss": 0.6423,
+      "step": 4300
+    },
+    {
+      "epoch": 0.5176980496026968,
+      "eval/acc": 38.953487396240234,
+      "step": 4300
+    },
+    {
+      "epoch": 0.5176980496026968,
+      "eval_loss": 2.7444300651550293,
+      "eval_runtime": 0.2708,
+      "eval_samples_per_second": 158.776,
+      "eval_steps_per_second": 3.692,
+      "step": 4300
+    },
+    {
+      "epoch": 0.5189019985552613,
+      "grad_norm": 6.8125,
+      "learning_rate": 9.196000000000001e-05,
+      "loss": 0.7705,
+      "step": 4310
+    },
+    {
+      "epoch": 0.5201059475078257,
+      "grad_norm": 5.90625,
+      "learning_rate": 9.191555555555556e-05,
+      "loss": 0.7534,
+      "step": 4320
+    },
+    {
+      "epoch": 0.52130989646039,
+      "grad_norm": 9.25,
+      "learning_rate": 9.187111111111112e-05,
+      "loss": 0.6586,
+      "step": 4330
+    },
+    {
+      "epoch": 0.5225138454129545,
+      "grad_norm": 7.53125,
+      "learning_rate": 9.182666666666667e-05,
+      "loss": 0.7459,
+      "step": 4340
+    },
+    {
+      "epoch": 0.5237177943655189,
+      "grad_norm": 6.09375,
+      "learning_rate": 9.178222222222223e-05,
+      "loss": 0.7088,
+      "step": 4350
+    },
+    {
+      "epoch": 0.5249217433180833,
+      "grad_norm": 8.5,
+      "learning_rate": 9.173777777777778e-05,
+      "loss": 0.7313,
+      "step": 4360
+    },
+    {
+      "epoch": 0.5261256922706478,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.169333333333334e-05,
+      "loss": 0.7364,
+      "step": 4370
+    },
+    {
+      "epoch": 0.5273296412232121,
+      "grad_norm": 7.09375,
+      "learning_rate": 9.16488888888889e-05,
+      "loss": 0.6962,
+      "step": 4380
+    },
+    {
+      "epoch": 0.5285335901757765,
+      "grad_norm": 6.28125,
+      "learning_rate": 9.160444444444445e-05,
+      "loss": 0.6817,
+      "step": 4390
+    },
+    {
+      "epoch": 0.529737539128341,
+      "grad_norm": 8.25,
+      "learning_rate": 9.156e-05,
+      "loss": 0.6786,
+      "step": 4400
+    },
+    {
+      "epoch": 0.529737539128341,
+      "eval/acc": 34.88372039794922,
+      "step": 4400
+    },
+    {
+      "epoch": 0.529737539128341,
+      "eval_loss": 2.728501081466675,
+      "eval_runtime": 0.3599,
+      "eval_samples_per_second": 119.474,
+      "eval_steps_per_second": 2.778,
+      "step": 4400
+    },
+    {
+      "epoch": 0.5309414880809054,
+      "grad_norm": 7.59375,
+      "learning_rate": 9.151555555555556e-05,
+      "loss": 0.6744,
+      "step": 4410
+    },
+    {
+      "epoch": 0.5321454370334697,
+      "grad_norm": 8.0625,
+      "learning_rate": 9.147111111111112e-05,
+      "loss": 0.8287,
+      "step": 4420
+    },
+    {
+      "epoch": 0.5333493859860342,
+      "grad_norm": 8.1875,
+      "learning_rate": 9.142666666666667e-05,
+      "loss": 0.7069,
+      "step": 4430
+    },
+    {
+      "epoch": 0.5345533349385986,
+      "grad_norm": 8.125,
+      "learning_rate": 9.138222222222222e-05,
+      "loss": 0.662,
+      "step": 4440
+    },
+    {
+      "epoch": 0.5357572838911631,
+      "grad_norm": 7.46875,
+      "learning_rate": 9.133777777777778e-05,
+      "loss": 0.7424,
+      "step": 4450
+    },
+    {
+      "epoch": 0.5369612328437274,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.129333333333334e-05,
+      "loss": 0.7308,
+      "step": 4460
+    },
+    {
+      "epoch": 0.5381651817962918,
+      "grad_norm": 8.3125,
+      "learning_rate": 9.124888888888889e-05,
+      "loss": 0.7524,
+      "step": 4470
+    },
+    {
+      "epoch": 0.5393691307488563,
+      "grad_norm": 6.40625,
+      "learning_rate": 9.120444444444445e-05,
+      "loss": 0.7523,
+      "step": 4480
+    },
+    {
+      "epoch": 0.5405730797014207,
+      "grad_norm": 7.65625,
+      "learning_rate": 9.116e-05,
+      "loss": 0.647,
+      "step": 4490
+    },
+    {
+      "epoch": 0.541777028653985,
+      "grad_norm": 6.875,
+      "learning_rate": 9.111555555555556e-05,
+      "loss": 0.6547,
+      "step": 4500
+    },
+    {
+      "epoch": 0.541777028653985,
+      "eval/acc": 37.20930099487305,
+      "step": 4500
+    },
+    {
+      "epoch": 0.541777028653985,
+      "eval_loss": 2.8390543460845947,
+      "eval_runtime": 0.2096,
+      "eval_samples_per_second": 205.2,
+      "eval_steps_per_second": 4.772,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5429809776065495,
+      "grad_norm": 9.375,
+      "learning_rate": 9.107111111111111e-05,
+      "loss": 0.6773,
+      "step": 4510
+    },
+    {
+      "epoch": 0.5441849265591139,
+      "grad_norm": 10.1875,
+      "learning_rate": 9.102666666666667e-05,
+      "loss": 0.704,
+      "step": 4520
+    },
+    {
+      "epoch": 0.5453888755116783,
+      "grad_norm": 5.0625,
+      "learning_rate": 9.098222222222222e-05,
+      "loss": 0.6303,
+      "step": 4530
+    },
+    {
+      "epoch": 0.5465928244642427,
+      "grad_norm": 8.25,
+      "learning_rate": 9.093777777777777e-05,
+      "loss": 0.7469,
+      "step": 4540
+    },
+    {
+      "epoch": 0.5477967734168071,
+      "grad_norm": 7.375,
+      "learning_rate": 9.089333333333335e-05,
+      "loss": 0.6995,
+      "step": 4550
+    },
+    {
+      "epoch": 0.5490007223693716,
+      "grad_norm": 7.78125,
+      "learning_rate": 9.08488888888889e-05,
+      "loss": 0.6965,
+      "step": 4560
+    },
+    {
+      "epoch": 0.550204671321936,
+      "grad_norm": 13.625,
+      "learning_rate": 9.080444444444444e-05,
+      "loss": 0.759,
+      "step": 4570
+    },
+    {
+      "epoch": 0.5514086202745003,
+      "grad_norm": 6.875,
+      "learning_rate": 9.076e-05,
+      "loss": 0.7284,
+      "step": 4580
+    },
+    {
+      "epoch": 0.5526125692270648,
+      "grad_norm": 5.875,
+      "learning_rate": 9.071555555555557e-05,
+      "loss": 0.6721,
+      "step": 4590
+    },
+    {
+      "epoch": 0.5538165181796292,
+      "grad_norm": 5.46875,
+      "learning_rate": 9.067111111111112e-05,
+      "loss": 0.6522,
+      "step": 4600
+    },
+    {
+      "epoch": 0.5538165181796292,
+      "eval/acc": 39.53488540649414,
+      "step": 4600
+    },
+    {
+      "epoch": 0.5538165181796292,
+      "eval_loss": 2.801618814468384,
+      "eval_runtime": 0.2155,
+      "eval_samples_per_second": 199.501,
+      "eval_steps_per_second": 4.64,
+      "step": 4600
+    },
+    {
+      "epoch": 0.5550204671321936,
+      "grad_norm": 8.5625,
+      "learning_rate": 9.062666666666666e-05,
+      "loss": 0.6399,
+      "step": 4610
+    },
+    {
+      "epoch": 0.556224416084758,
+      "grad_norm": 7.40625,
+      "learning_rate": 9.058222222222223e-05,
+      "loss": 0.7303,
+      "step": 4620
+    },
+    {
+      "epoch": 0.5574283650373224,
+      "grad_norm": 6.96875,
+      "learning_rate": 9.053777777777777e-05,
+      "loss": 0.7126,
+      "step": 4630
+    },
+    {
+      "epoch": 0.5586323139898868,
+      "grad_norm": 7.15625,
+      "learning_rate": 9.049333333333334e-05,
+      "loss": 0.702,
+      "step": 4640
+    },
+    {
+      "epoch": 0.5598362629424513,
+      "grad_norm": 6.625,
+      "learning_rate": 9.04488888888889e-05,
+      "loss": 0.6957,
+      "step": 4650
+    },
+    {
+      "epoch": 0.5610402118950156,
+      "grad_norm": 7.90625,
+      "learning_rate": 9.040444444444445e-05,
+      "loss": 0.703,
+      "step": 4660
+    },
+    {
+      "epoch": 0.5622441608475801,
+      "grad_norm": 7.75,
+      "learning_rate": 9.036e-05,
+      "loss": 0.7195,
+      "step": 4670
+    },
+    {
+      "epoch": 0.5634481098001445,
+      "grad_norm": 6.59375,
+      "learning_rate": 9.031555555555557e-05,
+      "loss": 0.6445,
+      "step": 4680
+    },
+    {
+      "epoch": 0.5646520587527089,
+      "grad_norm": 25.125,
+      "learning_rate": 9.027111111111112e-05,
+      "loss": 0.699,
+      "step": 4690
+    },
+    {
+      "epoch": 0.5658560077052733,
+      "grad_norm": 8.125,
+      "learning_rate": 9.022666666666667e-05,
+      "loss": 0.716,
+      "step": 4700
+    },
+    {
+      "epoch": 0.5658560077052733,
+      "eval/acc": 34.88372039794922,
+      "step": 4700
+    },
+    {
+      "epoch": 0.5658560077052733,
+      "eval_loss": 2.777444839477539,
+      "eval_runtime": 0.218,
+      "eval_samples_per_second": 197.287,
+      "eval_steps_per_second": 4.588,
+      "step": 4700
+    },
+    {
+      "epoch": 0.5670599566578377,
+      "grad_norm": 7.0,
+      "learning_rate": 9.018222222222223e-05,
+      "loss": 0.693,
+      "step": 4710
+    },
+    {
+      "epoch": 0.5682639056104021,
+      "grad_norm": 8.8125,
+      "learning_rate": 9.013777777777779e-05,
+      "loss": 0.7,
+      "step": 4720
+    },
+    {
+      "epoch": 0.5694678545629666,
+      "grad_norm": 7.0,
+      "learning_rate": 9.009333333333334e-05,
+      "loss": 0.6616,
+      "step": 4730
+    },
+    {
+      "epoch": 0.5706718035155309,
+      "grad_norm": 7.75,
+      "learning_rate": 9.004888888888889e-05,
+      "loss": 0.7987,
+      "step": 4740
+    },
+    {
+      "epoch": 0.5718757524680953,
+      "grad_norm": 6.53125,
+      "learning_rate": 9.000444444444445e-05,
+      "loss": 0.7162,
+      "step": 4750
+    },
+    {
+      "epoch": 0.5730797014206598,
+      "grad_norm": 8.6875,
+      "learning_rate": 8.996e-05,
+      "loss": 0.673,
+      "step": 4760
+    },
+    {
+      "epoch": 0.5742836503732242,
+      "grad_norm": 6.5625,
+      "learning_rate": 8.991555555555556e-05,
+      "loss": 0.7389,
+      "step": 4770
+    },
+    {
+      "epoch": 0.5754875993257886,
+      "grad_norm": 7.25,
+      "learning_rate": 8.987111111111112e-05,
+      "loss": 0.6674,
+      "step": 4780
+    },
+    {
+      "epoch": 0.576691548278353,
+      "grad_norm": 8.8125,
+      "learning_rate": 8.982666666666667e-05,
+      "loss": 0.7464,
+      "step": 4790
+    },
+    {
+      "epoch": 0.5778954972309174,
+      "grad_norm": 7.65625,
+      "learning_rate": 8.978222222222222e-05,
+      "loss": 0.6979,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5778954972309174,
+      "eval/acc": 37.20930099487305,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5778954972309174,
+      "eval_loss": 2.7990331649780273,
+      "eval_runtime": 0.207,
+      "eval_samples_per_second": 207.72,
+      "eval_steps_per_second": 4.831,
+      "step": 4800
+    },
+    {
+      "epoch": 0.5790994461834819,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.973777777777778e-05,
+      "loss": 0.7292,
+      "step": 4810
+    },
+    {
+      "epoch": 0.5803033951360462,
+      "grad_norm": 7.34375,
+      "learning_rate": 8.969333333333334e-05,
+      "loss": 0.6484,
+      "step": 4820
+    },
+    {
+      "epoch": 0.5815073440886106,
+      "grad_norm": 7.96875,
+      "learning_rate": 8.964888888888889e-05,
+      "loss": 0.6246,
+      "step": 4830
+    },
+    {
+      "epoch": 0.5827112930411751,
+      "grad_norm": 5.4375,
+      "learning_rate": 8.960444444444444e-05,
+      "loss": 0.6978,
+      "step": 4840
+    },
+    {
+      "epoch": 0.5839152419937395,
+      "grad_norm": 7.25,
+      "learning_rate": 8.956e-05,
+      "loss": 0.6848,
+      "step": 4850
+    },
+    {
+      "epoch": 0.5851191909463038,
+      "grad_norm": 8.9375,
+      "learning_rate": 8.951555555555557e-05,
+      "loss": 0.7541,
+      "step": 4860
+    },
+    {
+      "epoch": 0.5863231398988683,
+      "grad_norm": 8.6875,
+      "learning_rate": 8.947111111111111e-05,
+      "loss": 0.6872,
+      "step": 4870
+    },
+    {
+      "epoch": 0.5875270888514327,
+      "grad_norm": 6.375,
+      "learning_rate": 8.942666666666668e-05,
+      "loss": 0.7521,
+      "step": 4880
+    },
+    {
+      "epoch": 0.5887310378039972,
+      "grad_norm": 7.34375,
+      "learning_rate": 8.938222222222222e-05,
+      "loss": 0.6741,
+      "step": 4890
+    },
+    {
+      "epoch": 0.5899349867565615,
+      "grad_norm": 9.25,
+      "learning_rate": 8.933777777777779e-05,
+      "loss": 0.7085,
+      "step": 4900
+    },
+    {
+      "epoch": 0.5899349867565615,
+      "eval/acc": 32.55813980102539,
+      "step": 4900
+    },
+    {
+      "epoch": 0.5899349867565615,
+      "eval_loss": 2.822793483734131,
+      "eval_runtime": 0.2077,
+      "eval_samples_per_second": 206.985,
+      "eval_steps_per_second": 4.814,
+      "step": 4900
+    },
+    {
+      "epoch": 0.5911389357091259,
+      "grad_norm": 6.75,
+      "learning_rate": 8.929333333333333e-05,
+      "loss": 0.6908,
+      "step": 4910
+    },
+    {
+      "epoch": 0.5923428846616904,
+      "grad_norm": 14.3125,
+      "learning_rate": 8.92488888888889e-05,
+      "loss": 0.6954,
+      "step": 4920
+    },
+    {
+      "epoch": 0.5935468336142548,
+      "grad_norm": 5.03125,
+      "learning_rate": 8.920444444444444e-05,
+      "loss": 0.6255,
+      "step": 4930
+    },
+    {
+      "epoch": 0.5947507825668191,
+      "grad_norm": 7.3125,
+      "learning_rate": 8.916e-05,
+      "loss": 0.6094,
+      "step": 4940
+    },
+    {
+      "epoch": 0.5959547315193836,
+      "grad_norm": 6.875,
+      "learning_rate": 8.911555555555557e-05,
+      "loss": 0.6488,
+      "step": 4950
+    },
+    {
+      "epoch": 0.597158680471948,
+      "grad_norm": 6.90625,
+      "learning_rate": 8.907111111111112e-05,
+      "loss": 0.6333,
+      "step": 4960
+    },
+    {
+      "epoch": 0.5983626294245123,
+      "grad_norm": 7.0,
+      "learning_rate": 8.902666666666667e-05,
+      "loss": 0.6687,
+      "step": 4970
+    },
+    {
+      "epoch": 0.5995665783770768,
+      "grad_norm": 8.9375,
+      "learning_rate": 8.898222222222223e-05,
+      "loss": 0.6762,
+      "step": 4980
+    },
+    {
+      "epoch": 0.6007705273296412,
+      "grad_norm": 7.53125,
+      "learning_rate": 8.893777777777779e-05,
+      "loss": 0.6007,
+      "step": 4990
+    },
+    {
+      "epoch": 0.6019744762822057,
+      "grad_norm": 5.78125,
+      "learning_rate": 8.889333333333334e-05,
+      "loss": 0.682,
+      "step": 5000
+    },
+    {
+      "epoch": 0.6019744762822057,
+      "eval/acc": 32.55813980102539,
+      "step": 5000
+    },
+    {
+      "epoch": 0.6019744762822057,
+      "eval_loss": 2.827073097229004,
+      "eval_runtime": 0.2073,
+      "eval_samples_per_second": 207.385,
+      "eval_steps_per_second": 4.823,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 25000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}