Reacherx commited on Nov 4

Commit

f4de988

verified ·

1 Parent(s): 0e4e9ad

Training in progress, step 900, checkpoint

Browse files

Files changed (28) hide show

last-checkpoint/global_step900/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step900/zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1602 -2

last-checkpoint/global_step900/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05fe1b88528bc46c4cda49bc4a01e42631384a5ea55da387a14f37bb9f785760
+size 349379

last-checkpoint/global_step900/zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:119684ca6eaa3304b994cb0ca6c2c609e538093f85761f264540a302c687be22
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:413314a6a3536e2f73fe9573223a0cbb1e8f9cdd371e04a01a424d018c570781
+size 349379

last-checkpoint/global_step900/zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b92cf0ad31e096c86ab41dd988952e16a54bc7f14e74a94f660354a7eee1914
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9b322a9d34c580b99dca38dbfa503d05445f05e0c8bff821677bd7cddc1a9e6
+size 349379

last-checkpoint/global_step900/zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bb8a8779ed7b2dc721eeb785d5c61873aaf0e9ed94ba9ff998093c74752f20d
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87a017205025f69240e8cc591a021675de1f51493494e1a1c697aa668c064cab
+size 349379

last-checkpoint/global_step900/zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:384c0989a10a126c5c7d7a7b9f72ef35dfbc398c32123846e2e07689adb315ed
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0213f55026cc7c7de26d71c0bb2024ddec98ebc52ac67317eccef8c445e0966
+size 349379

last-checkpoint/global_step900/zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:734e259c2a11627b96a7376440289a0348721cd16e144afe1cb7adff22cdb64c
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36c4ead9b8b685f4c23f1b9a5bbc53944f33083843794dc22b7d5be6fc0e4658
+size 349379

last-checkpoint/global_step900/zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f60d5aabd902cfd76d5ba9511081474460690487134a6d64ffa3925cf0e289f3
+size 14215152302

last-checkpoint/global_step900/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e336a3fc477735f2e6b4433383835db995837cbe62f524c6bd77f33cd0809b55
+size 349379

last-checkpoint/global_step900/zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8da30a63edbc2ef896c289a68bd85a2ba5fa2d18271b4b4308d28e04462d33d2
+size 14215152302

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step800~~


1	+ global_step900

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88b65313b7da3a700baa760ac5ad8add99bf390086f8c5154512d7f1da169a9d
 size 4968242840

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d5584d7d8ab8fce5f0e749132bbd3603c179d400f9070f72b405c26541a0715
 size 4968242840

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e901aeec62b6b83bb95a7940a5886b722fadf06414d94b0b8a379200b022b62b
 size 4991495688

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bd51885a17a33d56a018bb7e738b8b0c7a07ac55b6bd73b2b6ed36b2e7574a5
 size 4991495688

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6857ecc27e007eaee9d8929ecb5ad6d623203cdd2d0366bfff04bb5884cffbd
 size 4932750920

 version https://git-lfs.github.com/spec/v1
+oid sha256:8292604de962a9f1ec484afd5166e29c0f1f034160f26d3a7baaa899b90a1470
 size 4932750920

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcb835b11499a67cbf19802321b68ea3e3ee7ca21c9d1b5fe90cd6a20076083e
 size 1691924368

 version https://git-lfs.github.com/spec/v1
+oid sha256:088ee4e5f47e8e54e48083a414d467ece0362d7407c886cb087a8147a723d99a
 size 1691924368

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:675484fa00046dc2cfc706e877a51328ad54a9e32d261ee56392e9fd31660503
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbd53c58df8917500ea3a32f627b80f3093bc83d5395e17696aff262f3065ed1
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:786c9e6af7c37c4359662349def8af02e5383f25fcb70587757cd07292496180
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d2c713e5d5a3e9e920fa84d9b959311a0590a9d39ac1eb57d11c7092870f80c
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f489e1aa25e7abfdb7ee5b7c42c2024a2c130b51238f90ea60b89beba32e7255
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:275171564de734632c71fef1b2e29ca6bf24c1b021438853efcba459a4fe3f11
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2071fd54ef3a300d73f7c38e490c9b8dc45eb00aa992f5bd451002c8a0715d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:38d4d671511a83b2975532f867cdacdb632409e481223d65aab40d4a541d5c1c
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1aec1ccbad836bfadbe6f7022031a9ba302619cc19a2f0e2f40dfd6545649f79
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4964e7fca7c3842d7e50a180f381cc988728d1d3219dbac2badaa370566a6ce6
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2c61b099807b3bc5138fdd05f9c2bc743ce34640dc17724698924b5f742c39d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:545620e1f74e91eaf4d0ab187a660a53712e5d0ab01ed4b4923841a0ae812429
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2713a28e3b13111ad1726481a868b28e9c89fbcc86eb856b1e45c849c3e0b5e6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a36705df35ce87e1a2f3b1395aa333e8f140488116fb59129918c2657e4b071
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:173695d232d5cd26ad7781b9459c96a820f64aeb38a786dcb3286d0a8ab79468
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5af295ce1b3dcf465f79b8946f0d8fa680faeb4b08aa2de4700def074a628db
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24479804161566707,
   "eval_steps": 500,
-  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12807,6 +12807,1606 @@
       "rewards/format_reward": 1.0,
       "step": 800,
       "temporal_rewards": 1.0
     }
   ],
   "logging_steps": 1.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.27539779681762544,
   "eval_steps": 500,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/format_reward": 1.0,
       "step": 800,
       "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 207.0357208251953,
+      "epoch": 0.24510403916768667,
+      "grad_norm": 2.9281723699853845,
+      "kl": 0.0657958984375,
+      "learning_rate": 8.622788645990524e-07,
+      "loss": 0.0026,
+      "reward": 2.047179937362671,
+      "reward_std": 0.2067583054304123,
+      "rewards/accuracy_reward": 0.7293230295181274,
+      "rewards/format_reward": 1.0,
+      "step": 801,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 179.07144165039062,
+      "epoch": 0.24541003671970624,
+      "grad_norm": 4.134309138458019,
+      "kl": 0.06689453125,
+      "learning_rate": 8.619474197126057e-07,
+      "loss": 0.0027,
+      "reward": 1.4867311716079712,
+      "reward_std": 0.10263003408908844,
+      "rewards/accuracy_reward": 0.32958826422691345,
+      "rewards/format_reward": 1.0,
+      "step": 802,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 148.30357360839844,
+      "epoch": 0.24571603427172584,
+      "grad_norm": 4.751302590383965,
+      "kl": 0.07086181640625,
+      "learning_rate": 8.616156403377282e-07,
+      "loss": 0.0028,
+      "reward": 1.7162678241729736,
+      "reward_std": 0.32455798983573914,
+      "rewards/accuracy_reward": 0.5037676692008972,
+      "rewards/format_reward": 1.0,
+      "step": 803,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 227.0535888671875,
+      "epoch": 0.2460220318237454,
+      "grad_norm": 5.991111880083119,
+      "kl": 0.0748291015625,
+      "learning_rate": 8.612835267810286e-07,
+      "loss": 0.003,
+      "reward": 1.684024453163147,
+      "reward_std": 0.1964358240365982,
+      "rewards/accuracy_reward": 0.4233100712299347,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 804,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 168.83929443359375,
+      "epoch": 0.246328029375765,
+      "grad_norm": 9.316771002327046,
+      "kl": 0.12939453125,
+      "learning_rate": 8.609510793494254e-07,
+      "loss": 0.0052,
+      "reward": 1.8607145547866821,
+      "reward_std": 0.22949722409248352,
+      "rewards/accuracy_reward": 0.594643235206604,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 805,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 148.375,
+      "epoch": 0.24663402692778458,
+      "grad_norm": 2.536873948888703,
+      "kl": 0.07196044921875,
+      "learning_rate": 8.606182983501446e-07,
+      "loss": 0.0029,
+      "reward": 1.4161813259124756,
+      "reward_std": 0.2212689369916916,
+      "rewards/accuracy_reward": 0.31260988116264343,
+      "rewards/format_reward": 1.0,
+      "step": 806,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 239.0357208251953,
+      "epoch": 0.24694002447980415,
+      "grad_norm": 2.2992367339007482,
+      "kl": 0.08148193359375,
+      "learning_rate": 8.602851840907212e-07,
+      "loss": 0.0033,
+      "reward": 1.5467685461044312,
+      "reward_std": 0.09967747330665588,
+      "rewards/accuracy_reward": 0.2967683970928192,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 807,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 261.6785888671875,
+      "epoch": 0.24724602203182375,
+      "grad_norm": 2.6163619560973426,
+      "kl": 0.06671142578125,
+      "learning_rate": 8.599517368789979e-07,
+      "loss": 0.0027,
+      "reward": 1.467833399772644,
+      "reward_std": 0.15854676067829132,
+      "rewards/accuracy_reward": 0.267833411693573,
+      "rewards/format_reward": 1.0,
+      "step": 808,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 245.71429443359375,
+      "epoch": 0.24755201958384332,
+      "grad_norm": 1.876303446324673,
+      "kl": 0.0562744140625,
+      "learning_rate": 8.596179570231248e-07,
+      "loss": 0.0023,
+      "reward": 1.8534244298934937,
+      "reward_std": 0.17602498829364777,
+      "rewards/accuracy_reward": 0.5623528361320496,
+      "rewards/format_reward": 1.0,
+      "step": 809,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 160.96429443359375,
+      "epoch": 0.24785801713586292,
+      "grad_norm": 1.983593074435128,
+      "kl": 0.0673828125,
+      "learning_rate": 8.592838448315599e-07,
+      "loss": 0.0027,
+      "reward": 1.7673360109329224,
+      "reward_std": 0.03303138539195061,
+      "rewards/accuracy_reward": 0.5459073185920715,
+      "rewards/format_reward": 1.0,
+      "step": 810,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 232.12501525878906,
+      "epoch": 0.2481640146878825,
+      "grad_norm": 3.0190110438589124,
+      "kl": 0.06878662109375,
+      "learning_rate": 8.589494006130679e-07,
+      "loss": 0.0028,
+      "reward": 1.5021908283233643,
+      "reward_std": 0.12059634923934937,
+      "rewards/accuracy_reward": 0.3129049837589264,
+      "rewards/format_reward": 1.0,
+      "step": 811,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 286.26788330078125,
+      "epoch": 0.2484700122399021,
+      "grad_norm": 1.7801210792367876,
+      "kl": 0.08331298828125,
+      "learning_rate": 8.58614624676721e-07,
+      "loss": 0.0033,
+      "reward": 1.9375736713409424,
+      "reward_std": 0.1051332876086235,
+      "rewards/accuracy_reward": 0.6411451101303101,
+      "rewards/format_reward": 1.0,
+      "step": 812,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 252.19644165039062,
+      "epoch": 0.24877600979192166,
+      "grad_norm": 2.9742718067292033,
+      "kl": 0.062042236328125,
+      "learning_rate": 8.582795173318969e-07,
+      "loss": 0.0025,
+      "reward": 1.7696127891540527,
+      "reward_std": 0.12452299147844315,
+      "rewards/accuracy_reward": 0.4981841444969177,
+      "rewards/format_reward": 1.0,
+      "step": 813,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 256.75,
+      "epoch": 0.24908200734394126,
+      "grad_norm": 2.2704735528170277,
+      "kl": 0.07305908203125,
+      "learning_rate": 8.579440788882806e-07,
+      "loss": 0.0029,
+      "reward": 1.5697615146636963,
+      "reward_std": 0.06264042109251022,
+      "rewards/accuracy_reward": 0.3036900758743286,
+      "rewards/format_reward": 1.0,
+      "step": 814,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 221.60714721679688,
+      "epoch": 0.24938800489596083,
+      "grad_norm": 1.623507735144211,
+      "kl": 0.062255859375,
+      "learning_rate": 8.576083096558624e-07,
+      "loss": 0.0025,
+      "reward": 1.9773122072219849,
+      "reward_std": 0.08393806964159012,
+      "rewards/accuracy_reward": 0.6844549775123596,
+      "rewards/format_reward": 1.0,
+      "step": 815,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 206.00001525878906,
+      "epoch": 0.24969400244798043,
+      "grad_norm": 2.1482537052968547,
+      "kl": 0.0755615234375,
+      "learning_rate": 8.572722099449388e-07,
+      "loss": 0.003,
+      "reward": 1.7175023555755615,
+      "reward_std": 0.11727368831634521,
+      "rewards/accuracy_reward": 0.4639308750629425,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 816,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 222.7857208251953,
+      "epoch": 0.25,
+      "grad_norm": 4.595475850035951,
+      "kl": 0.0740966796875,
+      "learning_rate": 8.569357800661111e-07,
+      "loss": 0.003,
+      "reward": 1.8679395914077759,
+      "reward_std": 0.12349120527505875,
+      "rewards/accuracy_reward": 0.5572252869606018,
+      "rewards/format_reward": 1.0,
+      "step": 817,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 183.33929443359375,
+      "epoch": 0.2503059975520196,
+      "grad_norm": 3.5483816862668784,
+      "kl": 0.1090087890625,
+      "learning_rate": 8.565990203302864e-07,
+      "loss": 0.0044,
+      "reward": 1.993505597114563,
+      "reward_std": 0.18882004916667938,
+      "rewards/accuracy_reward": 0.7095768451690674,
+      "rewards/format_reward": 1.0,
+      "step": 818,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 366.2321472167969,
+      "epoch": 0.25061199510403914,
+      "grad_norm": 4.026645332394576,
+      "kl": 0.0811767578125,
+      "learning_rate": 8.562619310486763e-07,
+      "loss": 0.0032,
+      "reward": 1.833251714706421,
+      "reward_std": 0.04854978993535042,
+      "rewards/accuracy_reward": 0.3868231177330017,
+      "rewards/format_reward": 1.0,
+      "step": 819,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 243.7857208251953,
+      "epoch": 0.25091799265605874,
+      "grad_norm": 4.76954015263035,
+      "kl": 0.06488037109375,
+      "learning_rate": 8.559245125327965e-07,
+      "loss": 0.0026,
+      "reward": 1.9217417240142822,
+      "reward_std": 0.25500017404556274,
+      "rewards/accuracy_reward": 0.6449559330940247,
+      "rewards/format_reward": 1.0,
+      "step": 820,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 213.19644165039062,
+      "epoch": 0.25122399020807834,
+      "grad_norm": 1.8782121986183875,
+      "kl": 0.07269287109375,
+      "learning_rate": 8.55586765094468e-07,
+      "loss": 0.0029,
+      "reward": 1.7066212892532349,
+      "reward_std": 0.1408018320798874,
+      "rewards/accuracy_reward": 0.48697829246520996,
+      "rewards/format_reward": 1.0,
+      "step": 821,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 154.46429443359375,
+      "epoch": 0.25152998776009794,
+      "grad_norm": 2.802553457575392,
+      "kl": 0.059600830078125,
+      "learning_rate": 8.552486890458146e-07,
+      "loss": 0.0024,
+      "reward": 1.9007517099380493,
+      "reward_std": 0.17006878554821014,
+      "rewards/accuracy_reward": 0.6811087727546692,
+      "rewards/format_reward": 1.0,
+      "step": 822,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 254.5535888671875,
+      "epoch": 0.2518359853121175,
+      "grad_norm": 2.2104544083520765,
+      "kl": 0.06500244140625,
+      "learning_rate": 8.549102846992649e-07,
+      "loss": 0.0026,
+      "reward": 1.7576632499694824,
+      "reward_std": 0.028187856078147888,
+      "rewards/accuracy_reward": 0.4862346649169922,
+      "rewards/format_reward": 1.0,
+      "step": 823,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 139.6607208251953,
+      "epoch": 0.2521419828641371,
+      "grad_norm": 3.899024552852272,
+      "kl": 0.0740966796875,
+      "learning_rate": 8.5457155236755e-07,
+      "loss": 0.003,
+      "reward": 1.9015222787857056,
+      "reward_std": 0.16740469634532928,
+      "rewards/accuracy_reward": 0.7265222072601318,
+      "rewards/format_reward": 1.0,
+      "step": 824,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 182.2678680419922,
+      "epoch": 0.2524479804161567,
+      "grad_norm": 3.813733151425986,
+      "kl": 0.080322265625,
+      "learning_rate": 8.542324923637045e-07,
+      "loss": 0.0032,
+      "reward": 1.6101853847503662,
+      "reward_std": 0.07268591970205307,
+      "rewards/accuracy_reward": 0.41732820868492126,
+      "rewards/format_reward": 1.0,
+      "step": 825,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 193.80357360839844,
+      "epoch": 0.2527539779681763,
+      "grad_norm": 2.3299012963911707,
+      "kl": 0.06707763671875,
+      "learning_rate": 8.538931050010659e-07,
+      "loss": 0.0027,
+      "reward": 1.664027452468872,
+      "reward_std": 0.2882187068462372,
+      "rewards/accuracy_reward": 0.5425989031791687,
+      "rewards/format_reward": 1.0,
+      "step": 826,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 156.67857360839844,
+      "epoch": 0.2530599755201958,
+      "grad_norm": 2.555255650663871,
+      "kl": 0.06451416015625,
+      "learning_rate": 8.535533905932737e-07,
+      "loss": 0.0026,
+      "reward": 1.6659547090530396,
+      "reward_std": 0.1807582676410675,
+      "rewards/accuracy_reward": 0.5177403688430786,
+      "rewards/format_reward": 1.0,
+      "step": 827,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 120.48214721679688,
+      "epoch": 0.2533659730722154,
+      "grad_norm": 5.737746204248841,
+      "kl": 0.079833984375,
+      "learning_rate": 8.532133494542705e-07,
+      "loss": 0.0032,
+      "reward": 1.9454082250595093,
+      "reward_std": 0.00841815210878849,
+      "rewards/accuracy_reward": 0.6882654428482056,
+      "rewards/format_reward": 1.0,
+      "step": 828,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 211.7678680419922,
+      "epoch": 0.253671970624235,
+      "grad_norm": 3.114541528996617,
+      "kl": 0.06292724609375,
+      "learning_rate": 8.528729818983e-07,
+      "loss": 0.0025,
+      "reward": 1.7419655323028564,
+      "reward_std": 0.3375326693058014,
+      "rewards/accuracy_reward": 0.5526796579360962,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 829,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 173.35714721679688,
+      "epoch": 0.25397796817625456,
+      "grad_norm": 67.6969972123076,
+      "kl": 0.068115234375,
+      "learning_rate": 8.525322882399082e-07,
+      "loss": 0.0027,
+      "reward": 1.6851218938827515,
+      "reward_std": 0.09688737243413925,
+      "rewards/accuracy_reward": 0.48512178659439087,
+      "rewards/format_reward": 1.0,
+      "step": 830,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 178.55357360839844,
+      "epoch": 0.25428396572827416,
+      "grad_norm": 1.4363689395781298,
+      "kl": 0.0780029296875,
+      "learning_rate": 8.52191268793942e-07,
+      "loss": 0.0031,
+      "reward": 1.9075700044631958,
+      "reward_std": 0.028506727889180183,
+      "rewards/accuracy_reward": 0.6254270672798157,
+      "rewards/format_reward": 1.0,
+      "step": 831,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 191.42857360839844,
+      "epoch": 0.25458996328029376,
+      "grad_norm": 3.293920291757542,
+      "kl": 0.08331298828125,
+      "learning_rate": 8.518499238755496e-07,
+      "loss": 0.0033,
+      "reward": 1.807334542274475,
+      "reward_std": 0.17562764883041382,
+      "rewards/accuracy_reward": 0.54662024974823,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 832,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 261.51788330078125,
+      "epoch": 0.25489596083231336,
+      "grad_norm": 2.5882653330593115,
+      "kl": 0.076171875,
+      "learning_rate": 8.515082538001798e-07,
+      "loss": 0.003,
+      "reward": 1.561861276626587,
+      "reward_std": 0.2398105412721634,
+      "rewards/accuracy_reward": 0.3225754499435425,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 833,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 179.7678680419922,
+      "epoch": 0.2552019583843329,
+      "grad_norm": 2.0572353102018313,
+      "kl": 0.0810546875,
+      "learning_rate": 8.511662588835823e-07,
+      "loss": 0.0032,
+      "reward": 1.509498953819275,
+      "reward_std": 0.19672635197639465,
+      "rewards/accuracy_reward": 0.32199880480766296,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 834,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 183.33929443359375,
+      "epoch": 0.2555079559363525,
+      "grad_norm": 1.9340557459916523,
+      "kl": 0.0640869140625,
+      "learning_rate": 8.508239394418064e-07,
+      "loss": 0.0026,
+      "reward": 1.706633448600769,
+      "reward_std": 0.06095283478498459,
+      "rewards/accuracy_reward": 0.4923476576805115,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 835,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 137.07144165039062,
+      "epoch": 0.2558139534883721,
+      "grad_norm": 3.9407094375455114,
+      "kl": 0.054473876953125,
+      "learning_rate": 8.504812957912018e-07,
+      "loss": 0.0022,
+      "reward": 1.9000000953674316,
+      "reward_std": 0.23574510216712952,
+      "rewards/accuracy_reward": 0.6964285969734192,
+      "rewards/format_reward": 1.0,
+      "step": 836,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 188.94644165039062,
+      "epoch": 0.2561199510403917,
+      "grad_norm": 4.029147261922757,
+      "kl": 0.0792236328125,
+      "learning_rate": 8.501383282484176e-07,
+      "loss": 0.0032,
+      "reward": 1.6178863048553467,
+      "reward_std": 0.11477590352296829,
+      "rewards/accuracy_reward": 0.3321720063686371,
+      "rewards/format_reward": 1.0,
+      "step": 837,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 205.98214721679688,
+      "epoch": 0.25642594859241125,
+      "grad_norm": 11.476990775610078,
+      "kl": 0.071044921875,
+      "learning_rate": 8.497950371304023e-07,
+      "loss": 0.0028,
+      "reward": 2.0091044902801514,
+      "reward_std": 0.22341029345989227,
+      "rewards/accuracy_reward": 0.7216044068336487,
+      "rewards/format_reward": 1.0,
+      "step": 838,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.42857142857142855,
+      "completion_length": 125.21429443359375,
+      "epoch": 0.25673194614443084,
+      "grad_norm": 1.7000676273670414,
+      "kl": 0.07147216796875,
+      "learning_rate": 8.494514227544034e-07,
+      "loss": 0.0029,
+      "reward": 1.5309561491012573,
+      "reward_std": 0.07276370376348495,
+      "rewards/accuracy_reward": 0.37917035818099976,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 839,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 249.60714721679688,
+      "epoch": 0.25703794369645044,
+      "grad_norm": 2.175181403729273,
+      "kl": 0.1136474609375,
+      "learning_rate": 8.491074854379671e-07,
+      "loss": 0.0045,
+      "reward": 1.8630489110946655,
+      "reward_std": 0.2111286222934723,
+      "rewards/accuracy_reward": 0.586263120174408,
+      "rewards/format_reward": 0.9285714626312256,
+      "step": 840,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 171.73214721679688,
+      "epoch": 0.25734394124847,
+      "grad_norm": 3.892248304212202,
+      "kl": 0.07586669921875,
+      "learning_rate": 8.487632254989379e-07,
+      "loss": 0.003,
+      "reward": 1.962437391281128,
+      "reward_std": 0.15512388944625854,
+      "rewards/accuracy_reward": 0.6874372959136963,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 841,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 166.9107208251953,
+      "epoch": 0.2576499388004896,
+      "grad_norm": 2.675161584719784,
+      "kl": 0.08343505859375,
+      "learning_rate": 8.484186432554586e-07,
+      "loss": 0.0033,
+      "reward": 1.5791218280792236,
+      "reward_std": 0.13287338614463806,
+      "rewards/accuracy_reward": 0.36126458644866943,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 842,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 221.23214721679688,
+      "epoch": 0.2579559363525092,
+      "grad_norm": 2.02453164520589,
+      "kl": 0.086669921875,
+      "learning_rate": 8.480737390259702e-07,
+      "loss": 0.0035,
+      "reward": 1.5743305683135986,
+      "reward_std": 0.09532348066568375,
+      "rewards/accuracy_reward": 0.32433053851127625,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 843,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 114.85714721679688,
+      "epoch": 0.2582619339045288,
+      "grad_norm": 7.990069827061059,
+      "kl": 0.06591796875,
+      "learning_rate": 8.477285131292107e-07,
+      "loss": 0.0026,
+      "reward": 1.89658522605896,
+      "reward_std": 0.1812773495912552,
+      "rewards/accuracy_reward": 0.6501566767692566,
+      "rewards/format_reward": 1.0,
+      "step": 844,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 275.3571472167969,
+      "epoch": 0.25856793145654833,
+      "grad_norm": 4.670054056493445,
+      "kl": 0.06304931640625,
+      "learning_rate": 8.473829658842153e-07,
+      "loss": 0.0025,
+      "reward": 1.863919734954834,
+      "reward_std": 0.10707426816225052,
+      "rewards/accuracy_reward": 0.5067769289016724,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 845,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 190.7857208251953,
+      "epoch": 0.2588739290085679,
+      "grad_norm": 3.696883423375172,
+      "kl": 0.09039306640625,
+      "learning_rate": 8.47037097610317e-07,
+      "loss": 0.0036,
+      "reward": 1.8291937112808228,
+      "reward_std": 0.30012595653533936,
+      "rewards/accuracy_reward": 0.5559793710708618,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 846,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 205.21429443359375,
+      "epoch": 0.2591799265605875,
+      "grad_norm": 2.92257295296219,
+      "kl": 0.09735107421875,
+      "learning_rate": 8.466909086271443e-07,
+      "loss": 0.0039,
+      "reward": 1.9195644855499268,
+      "reward_std": 0.17363081872463226,
+      "rewards/accuracy_reward": 0.6017073392868042,
+      "rewards/format_reward": 1.0,
+      "step": 847,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 166.2857208251953,
+      "epoch": 0.2594859241126071,
+      "grad_norm": 4.839827480327019,
+      "kl": 0.06756591796875,
+      "learning_rate": 8.463443992546234e-07,
+      "loss": 0.0027,
+      "reward": 1.7144334316253662,
+      "reward_std": 0.2880959212779999,
+      "rewards/accuracy_reward": 0.5072907209396362,
+      "rewards/format_reward": 1.0,
+      "step": 848,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 135.55357360839844,
+      "epoch": 0.25979192166462667,
+      "grad_norm": 5.993414281952189,
+      "kl": 0.06500244140625,
+      "learning_rate": 8.459975698129753e-07,
+      "loss": 0.0026,
+      "reward": 1.5761994123458862,
+      "reward_std": 0.23083187639713287,
+      "rewards/accuracy_reward": 0.39941367506980896,
+      "rewards/format_reward": 1.0,
+      "step": 849,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.7142857142857143,
+      "all_wrong": 0.0,
+      "completion_length": 209.3928680419922,
+      "epoch": 0.26009791921664627,
+      "grad_norm": 1.1340119659986048,
+      "kl": 0.081298828125,
+      "learning_rate": 8.456504206227177e-07,
+      "loss": 0.0033,
+      "reward": 2.096266746520996,
+      "reward_std": 0.08216449618339539,
+      "rewards/accuracy_reward": 0.7694810032844543,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 850,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 109.80357360839844,
+      "epoch": 0.26040391676866587,
+      "grad_norm": 4.222691355310761,
+      "kl": 0.0751953125,
+      "learning_rate": 8.453029520046634e-07,
+      "loss": 0.003,
+      "reward": 1.9611623287200928,
+      "reward_std": 0.14106816053390503,
+      "rewards/accuracy_reward": 0.677233874797821,
+      "rewards/format_reward": 1.0,
+      "step": 851,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 138.8928680419922,
+      "epoch": 0.2607099143206854,
+      "grad_norm": 2.9274501393456176,
+      "kl": 0.06640625,
+      "learning_rate": 8.449551642799204e-07,
+      "loss": 0.0027,
+      "reward": 2.114285707473755,
+      "reward_std": 0.27120646834373474,
+      "rewards/accuracy_reward": 0.8571429252624512,
+      "rewards/format_reward": 1.0,
+      "step": 852,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 217.67857360839844,
+      "epoch": 0.261015911872705,
+      "grad_norm": 1.926086918566909,
+      "kl": 0.078369140625,
+      "learning_rate": 8.446070577698915e-07,
+      "loss": 0.0031,
+      "reward": 1.6957752704620361,
+      "reward_std": 0.04128192737698555,
+      "rewards/accuracy_reward": 0.42791807651519775,
+      "rewards/format_reward": 1.0,
+      "step": 853,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 218.55357360839844,
+      "epoch": 0.2613219094247246,
+      "grad_norm": 3.7384806739684255,
+      "kl": 0.075927734375,
+      "learning_rate": 8.442586327962746e-07,
+      "loss": 0.003,
+      "reward": 1.6708444356918335,
+      "reward_std": 0.19737550616264343,
+      "rewards/accuracy_reward": 0.4119158089160919,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 854,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 190.7678680419922,
+      "epoch": 0.2616279069767442,
+      "grad_norm": 4.253646327546919,
+      "kl": 0.07208251953125,
+      "learning_rate": 8.439098896810614e-07,
+      "loss": 0.0029,
+      "reward": 1.5890089273452759,
+      "reward_std": 0.2665659487247467,
+      "rewards/accuracy_reward": 0.4193660020828247,
+      "rewards/format_reward": 1.0,
+      "step": 855,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 209.08929443359375,
+      "epoch": 0.26193390452876375,
+      "grad_norm": 7.368057295625036,
+      "kl": 0.09344482421875,
+      "learning_rate": 8.435608287465376e-07,
+      "loss": 0.0037,
+      "reward": 1.756385087966919,
+      "reward_std": 0.22209163010120392,
+      "rewards/accuracy_reward": 0.5438850522041321,
+      "rewards/format_reward": 0.9464285969734192,
+      "step": 856,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 275.625,
+      "epoch": 0.26223990208078335,
+      "grad_norm": 2.9501313048424405,
+      "kl": 0.0986328125,
+      "learning_rate": 8.43211450315283e-07,
+      "loss": 0.0039,
+      "reward": 1.6245818138122559,
+      "reward_std": 0.288144052028656,
+      "rewards/accuracy_reward": 0.38529595732688904,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 857,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 256.8214416503906,
+      "epoch": 0.26254589963280295,
+      "grad_norm": 4.252341850089602,
+      "kl": 0.0767822265625,
+      "learning_rate": 8.428617547101705e-07,
+      "loss": 0.0031,
+      "reward": 1.735701560974121,
+      "reward_std": 0.12338480353355408,
+      "rewards/accuracy_reward": 0.444629967212677,
+      "rewards/format_reward": 1.0,
+      "step": 858,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 260.14288330078125,
+      "epoch": 0.26285189718482255,
+      "grad_norm": 2.0754843149035613,
+      "kl": 0.09075927734375,
+      "learning_rate": 8.425117422543662e-07,
+      "loss": 0.0036,
+      "reward": 1.9669040441513062,
+      "reward_std": 0.21213708817958832,
+      "rewards/accuracy_reward": 0.6383326649665833,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 859,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 209.7857208251953,
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.1579992600990177,
+      "kl": 0.07696533203125,
+      "learning_rate": 8.421614132713291e-07,
+      "loss": 0.0031,
+      "reward": 1.8583227396011353,
+      "reward_std": 0.029287781566381454,
+      "rewards/accuracy_reward": 0.5511797666549683,
+      "rewards/format_reward": 1.0,
+      "step": 860,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 175.25001525878906,
+      "epoch": 0.2634638922888617,
+      "grad_norm": 2.271360656952098,
+      "kl": 0.064208984375,
+      "learning_rate": 8.418107680848106e-07,
+      "loss": 0.0026,
+      "reward": 1.578763723373413,
+      "reward_std": 0.08131464570760727,
+      "rewards/accuracy_reward": 0.34840652346611023,
+      "rewards/format_reward": 1.0,
+      "step": 861,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 181.87501525878906,
+      "epoch": 0.2637698898408813,
+      "grad_norm": 3.4384761464367695,
+      "kl": 0.0611572265625,
+      "learning_rate": 8.414598070188541e-07,
+      "loss": 0.0024,
+      "reward": 1.7330061197280884,
+      "reward_std": 0.16418743133544922,
+      "rewards/accuracy_reward": 0.488363116979599,
+      "rewards/format_reward": 1.0,
+      "step": 862,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 242.6607208251953,
+      "epoch": 0.26407588739290083,
+      "grad_norm": 5.694668293113178,
+      "kl": 0.07659912109375,
+      "learning_rate": 8.411085303977954e-07,
+      "loss": 0.0031,
+      "reward": 1.8662446737289429,
+      "reward_std": 0.2061271071434021,
+      "rewards/accuracy_reward": 0.5251731872558594,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 863,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 208.46429443359375,
+      "epoch": 0.26438188494492043,
+      "grad_norm": 3.3670758880528613,
+      "kl": 0.08154296875,
+      "learning_rate": 8.407569385462614e-07,
+      "loss": 0.0033,
+      "reward": 1.8434805870056152,
+      "reward_std": 0.27712368965148926,
+      "rewards/accuracy_reward": 0.5720521807670593,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 864,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 238.94644165039062,
+      "epoch": 0.26468788249694003,
+      "grad_norm": 3.0431561776514036,
+      "kl": 0.08380126953125,
+      "learning_rate": 8.40405031789171e-07,
+      "loss": 0.0034,
+      "reward": 1.9124431610107422,
+      "reward_std": 0.06434178352355957,
+      "rewards/accuracy_reward": 0.5338715314865112,
+      "rewards/format_reward": 1.0,
+      "step": 865,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 121.92857360839844,
+      "epoch": 0.26499388004895963,
+      "grad_norm": 3.4914420316550565,
+      "kl": 0.07379150390625,
+      "learning_rate": 8.400528104517335e-07,
+      "loss": 0.003,
+      "reward": 1.9986642599105835,
+      "reward_std": 0.189077690243721,
+      "rewards/accuracy_reward": 0.7308071851730347,
+      "rewards/format_reward": 1.0,
+      "step": 866,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 198.8928680419922,
+      "epoch": 0.2652998776009792,
+      "grad_norm": 4.592100148789711,
+      "kl": 0.073974609375,
+      "learning_rate": 8.39700274859449e-07,
+      "loss": 0.003,
+      "reward": 1.7516790628433228,
+      "reward_std": 0.18580719828605652,
+      "rewards/accuracy_reward": 0.487393319606781,
+      "rewards/format_reward": 1.0,
+      "step": 867,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 131.33929443359375,
+      "epoch": 0.26560587515299877,
+      "grad_norm": 3.07398773389383,
+      "kl": 0.06939697265625,
+      "learning_rate": 8.393474253381081e-07,
+      "loss": 0.0028,
+      "reward": 1.7859539985656738,
+      "reward_std": 0.10873201489448547,
+      "rewards/accuracy_reward": 0.571668267250061,
+      "rewards/format_reward": 1.0,
+      "step": 868,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 252.7857208251953,
+      "epoch": 0.26591187270501837,
+      "grad_norm": 5.434152016124052,
+      "kl": 0.074462890625,
+      "learning_rate": 8.389942622137917e-07,
+      "loss": 0.003,
+      "reward": 1.732815146446228,
+      "reward_std": 0.04574719816446304,
+      "rewards/accuracy_reward": 0.3971007168292999,
+      "rewards/format_reward": 1.0,
+      "step": 869,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 163.5178680419922,
+      "epoch": 0.26621787025703797,
+      "grad_norm": 2.5700748516679117,
+      "kl": 0.07745361328125,
+      "learning_rate": 8.386407858128706e-07,
+      "loss": 0.0031,
+      "reward": 1.822379231452942,
+      "reward_std": 0.09795420616865158,
+      "rewards/accuracy_reward": 0.5830934643745422,
+      "rewards/format_reward": 1.0,
+      "step": 870,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 308.71429443359375,
+      "epoch": 0.2665238678090575,
+      "grad_norm": 11.736614064127435,
+      "kl": 0.373779296875,
+      "learning_rate": 8.382869964620043e-07,
+      "loss": 0.015,
+      "reward": 1.428949236869812,
+      "reward_std": 0.24033333361148834,
+      "rewards/accuracy_reward": 0.17359207570552826,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 871,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 295.6607360839844,
+      "epoch": 0.2668298653610771,
+      "grad_norm": 3.7904993786293204,
+      "kl": 0.09088134765625,
+      "learning_rate": 8.379328944881423e-07,
+      "loss": 0.0036,
+      "reward": 1.7479736804962158,
+      "reward_std": 0.1676667034626007,
+      "rewards/accuracy_reward": 0.3872593343257904,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 872,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 348.8571472167969,
+      "epoch": 0.2671358629130967,
+      "grad_norm": 2.2910548072438606,
+      "kl": 0.081787109375,
+      "learning_rate": 8.375784802185231e-07,
+      "loss": 0.0033,
+      "reward": 1.61097252368927,
+      "reward_std": 0.27649515867233276,
+      "rewards/accuracy_reward": 0.3288295865058899,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 873,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 137.33929443359375,
+      "epoch": 0.26744186046511625,
+      "grad_norm": 9.477587189657482,
+      "kl": 0.1707763671875,
+      "learning_rate": 8.372237539806729e-07,
+      "loss": 0.0068,
+      "reward": 1.7725310325622559,
+      "reward_std": 0.10993125289678574,
+      "rewards/accuracy_reward": 0.5653882026672363,
+      "rewards/format_reward": 1.0,
+      "step": 874,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 139.67857360839844,
+      "epoch": 0.26774785801713585,
+      "grad_norm": 3.0317667233515655,
+      "kl": 0.072021484375,
+      "learning_rate": 8.36868716102407e-07,
+      "loss": 0.0029,
+      "reward": 1.7030521631240845,
+      "reward_std": 0.12748095393180847,
+      "rewards/accuracy_reward": 0.5262664556503296,
+      "rewards/format_reward": 1.0,
+      "step": 875,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 209.87501525878906,
+      "epoch": 0.26805385556915545,
+      "grad_norm": 2.3417260897973846,
+      "kl": 0.09869384765625,
+      "learning_rate": 8.365133669118289e-07,
+      "loss": 0.0039,
+      "reward": 1.5527209043502808,
+      "reward_std": 0.14238658547401428,
+      "rewards/accuracy_reward": 0.302720844745636,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 876,
+      "temporal_rewards": 0.714285671710968
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 221.87501525878906,
+      "epoch": 0.26835985312117505,
+      "grad_norm": 1.4544164125883434,
+      "kl": 0.0880126953125,
+      "learning_rate": 8.361577067373289e-07,
+      "loss": 0.0035,
+      "reward": 1.9879584312438965,
+      "reward_std": 0.06715244054794312,
+      "rewards/accuracy_reward": 0.6915298700332642,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 877,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.0,
+      "all_wrong": 0.0,
+      "completion_length": 137.6428680419922,
+      "epoch": 0.2686658506731946,
+      "grad_norm": 4.041225889721134,
+      "kl": 0.07952880859375,
+      "learning_rate": 8.358017359075853e-07,
+      "loss": 0.0032,
+      "reward": 1.634163737297058,
+      "reward_std": 0.3102668523788452,
+      "rewards/accuracy_reward": 0.4466637969017029,
+      "rewards/format_reward": 1.0,
+      "step": 878,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 202.58929443359375,
+      "epoch": 0.2689718482252142,
+      "grad_norm": 2.865476731408168,
+      "kl": 0.071044921875,
+      "learning_rate": 8.354454547515632e-07,
+      "loss": 0.0028,
+      "reward": 1.960200309753418,
+      "reward_std": 0.12427835166454315,
+      "rewards/accuracy_reward": 0.6244859099388123,
+      "rewards/format_reward": 1.0,
+      "step": 879,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 230.96429443359375,
+      "epoch": 0.2692778457772338,
+      "grad_norm": 4.795281271108613,
+      "kl": 0.07501220703125,
+      "learning_rate": 8.35088863598515e-07,
+      "loss": 0.003,
+      "reward": 1.6301624774932861,
+      "reward_std": 0.20454014837741852,
+      "rewards/accuracy_reward": 0.42301949858665466,
+      "rewards/format_reward": 1.0,
+      "step": 880,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 174.5178680419922,
+      "epoch": 0.2695838433292534,
+      "grad_norm": 22.401908979877813,
+      "kl": 1.875,
+      "learning_rate": 8.347319627779788e-07,
+      "loss": 0.075,
+      "reward": 1.7476712465286255,
+      "reward_std": 0.35592812299728394,
+      "rewards/accuracy_reward": 0.5530281662940979,
+      "rewards/format_reward": 0.9642857313156128,
+      "step": 881,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 189.82144165039062,
+      "epoch": 0.26988984088127294,
+      "grad_norm": 10.071232157212238,
+      "kl": 0.0775146484375,
+      "learning_rate": 8.343747526197796e-07,
+      "loss": 0.0031,
+      "reward": 1.7986595630645752,
+      "reward_std": 0.3468095064163208,
+      "rewards/accuracy_reward": 0.545087993144989,
+      "rewards/format_reward": 1.0,
+      "step": 882,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 136.7857208251953,
+      "epoch": 0.27019583843329253,
+      "grad_norm": 5.112804545427567,
+      "kl": 0.07208251953125,
+      "learning_rate": 8.340172334540279e-07,
+      "loss": 0.0029,
+      "reward": 1.667857050895691,
+      "reward_std": 0.29825282096862793,
+      "rewards/accuracy_reward": 0.5178571939468384,
+      "rewards/format_reward": 1.0,
+      "step": 883,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 232.73214721679688,
+      "epoch": 0.27050183598531213,
+      "grad_norm": 3.5504006872403204,
+      "kl": 0.072998046875,
+      "learning_rate": 8.336594056111197e-07,
+      "loss": 0.0029,
+      "reward": 1.5460340976715088,
+      "reward_std": 0.10997889935970306,
+      "rewards/accuracy_reward": 0.3103196620941162,
+      "rewards/format_reward": 1.0,
+      "step": 884,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 153.32144165039062,
+      "epoch": 0.2708078335373317,
+      "grad_norm": 5.335782717652437,
+      "kl": 0.0709228515625,
+      "learning_rate": 8.333012694217365e-07,
+      "loss": 0.0028,
+      "reward": 1.7492895126342773,
+      "reward_std": 0.12363868951797485,
+      "rewards/accuracy_reward": 0.5189323425292969,
+      "rewards/format_reward": 1.0,
+      "step": 885,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.0,
+      "completion_length": 184.60714721679688,
+      "epoch": 0.2711138310893513,
+      "grad_norm": 3.8542094040952666,
+      "kl": 0.0665283203125,
+      "learning_rate": 8.329428252168445e-07,
+      "loss": 0.0027,
+      "reward": 1.9230225086212158,
+      "reward_std": 0.23322181403636932,
+      "rewards/accuracy_reward": 0.6712366342544556,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 886,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 255.35714721679688,
+      "epoch": 0.2714198286413709,
+      "grad_norm": 6.692207465796444,
+      "kl": 0.083740234375,
+      "learning_rate": 8.325840733276947e-07,
+      "loss": 0.0033,
+      "reward": 1.7804242372512817,
+      "reward_std": 0.03548278659582138,
+      "rewards/accuracy_reward": 0.43756699562072754,
+      "rewards/format_reward": 1.0,
+      "step": 887,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 231.6428680419922,
+      "epoch": 0.2717258261933905,
+      "grad_norm": 2.5721424140087072,
+      "kl": 0.0772705078125,
+      "learning_rate": 8.322250140858228e-07,
+      "loss": 0.0031,
+      "reward": 1.7938824892044067,
+      "reward_std": 0.15584063529968262,
+      "rewards/accuracy_reward": 0.47959670424461365,
+      "rewards/format_reward": 1.0,
+      "step": 888,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 142.1607208251953,
+      "epoch": 0.27203182374541,
+      "grad_norm": 4.045289295991584,
+      "kl": 0.0728759765625,
+      "learning_rate": 8.318656478230477e-07,
+      "loss": 0.0029,
+      "reward": 1.7569411993026733,
+      "reward_std": 0.26805686950683594,
+      "rewards/accuracy_reward": 0.5855125188827515,
+      "rewards/format_reward": 1.0,
+      "step": 889,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 157.42857360839844,
+      "epoch": 0.2723378212974296,
+      "grad_norm": 5.628418656090372,
+      "kl": 0.0838623046875,
+      "learning_rate": 8.315059748714728e-07,
+      "loss": 0.0034,
+      "reward": 1.9179658889770508,
+      "reward_std": 0.310136616230011,
+      "rewards/accuracy_reward": 0.6751086711883545,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 890,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.42857142857142855,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 144.21429443359375,
+      "epoch": 0.2726438188494492,
+      "grad_norm": 2.9699381051247133,
+      "kl": 0.072998046875,
+      "learning_rate": 8.311459955634843e-07,
+      "loss": 0.0029,
+      "reward": 1.8272987604141235,
+      "reward_std": 0.03353741019964218,
+      "rewards/accuracy_reward": 0.5665844678878784,
+      "rewards/format_reward": 1.0,
+      "step": 891,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.2857142857142857,
+      "completion_length": 172.32144165039062,
+      "epoch": 0.2729498164014688,
+      "grad_norm": 2.5078210503509757,
+      "kl": 0.07110595703125,
+      "learning_rate": 8.307857102317521e-07,
+      "loss": 0.0028,
+      "reward": 1.698065996170044,
+      "reward_std": 0.03687385469675064,
+      "rewards/accuracy_reward": 0.4587802290916443,
+      "rewards/format_reward": 1.0,
+      "step": 892,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 226.8035888671875,
+      "epoch": 0.27325581395348836,
+      "grad_norm": 2.847612355217105,
+      "kl": 0.0662841796875,
+      "learning_rate": 8.304251192092284e-07,
+      "loss": 0.0027,
+      "reward": 1.7976547479629517,
+      "reward_std": 0.20810642838478088,
+      "rewards/accuracy_reward": 0.5190832614898682,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 893,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.5714285714285714,
+      "all_wrong": 0.0,
+      "completion_length": 215.75001525878906,
+      "epoch": 0.27356181150550796,
+      "grad_norm": 7.342437663901097,
+      "kl": 0.071044921875,
+      "learning_rate": 8.300642228291484e-07,
+      "loss": 0.0028,
+      "reward": 2.001753568649292,
+      "reward_std": 0.07981517910957336,
+      "rewards/accuracy_reward": 0.6910392642021179,
+      "rewards/format_reward": 1.0,
+      "step": 894,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 245.8035888671875,
+      "epoch": 0.27386780905752756,
+      "grad_norm": 2.8686174982836996,
+      "kl": 0.1077880859375,
+      "learning_rate": 8.297030214250291e-07,
+      "loss": 0.0043,
+      "reward": 1.7279855012893677,
+      "reward_std": 0.20766517519950867,
+      "rewards/accuracy_reward": 0.46548548340797424,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 895,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 180.87501525878906,
+      "epoch": 0.2741738066095471,
+      "grad_norm": 3.844679218873974,
+      "kl": 0.06439208984375,
+      "learning_rate": 8.293415153306697e-07,
+      "loss": 0.0026,
+      "reward": 1.570464015007019,
+      "reward_std": 0.27158409357070923,
+      "rewards/accuracy_reward": 0.44546398520469666,
+      "rewards/format_reward": 1.0,
+      "step": 896,
+      "temporal_rewards": 0.5714285373687744
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 244.7857208251953,
+      "epoch": 0.2744798041615667,
+      "grad_norm": 5.30272222373688,
+      "kl": 0.0797119140625,
+      "learning_rate": 8.289797048801503e-07,
+      "loss": 0.0032,
+      "reward": 1.8444569110870361,
+      "reward_std": 0.18049336969852448,
+      "rewards/accuracy_reward": 0.5033854246139526,
+      "rewards/format_reward": 1.0,
+      "step": 897,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.2857142857142857,
+      "all_wrong": 0.0,
+      "completion_length": 219.85714721679688,
+      "epoch": 0.2747858017135863,
+      "grad_norm": 4.238591988137467,
+      "kl": 0.0887451171875,
+      "learning_rate": 8.286175904078332e-07,
+      "loss": 0.0035,
+      "reward": 1.8598953485488892,
+      "reward_std": 0.446624755859375,
+      "rewards/accuracy_reward": 0.6420382261276245,
+      "rewards/format_reward": 0.9285714626312256,
+      "step": 898,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.0,
+      "completion_length": 179.73214721679688,
+      "epoch": 0.2750917992656059,
+      "grad_norm": 3.3254751036491594,
+      "kl": 0.07159423828125,
+      "learning_rate": 8.282551722483611e-07,
+      "loss": 0.0029,
+      "reward": 1.7057297229766846,
+      "reward_std": 0.18852263689041138,
+      "rewards/accuracy_reward": 0.4735867381095886,
+      "rewards/format_reward": 1.0,
+      "step": 899,
+      "temporal_rewards": 0.8571428656578064
+    },
+    {
+      "all_correct": 0.14285714285714285,
+      "all_wrong": 0.14285714285714285,
+      "completion_length": 187.19644165039062,
+      "epoch": 0.27539779681762544,
+      "grad_norm": 4.612353811363961,
+      "kl": 0.08416748046875,
+      "learning_rate": 8.278924507366573e-07,
+      "loss": 0.0034,
+      "reward": 1.6086270809173584,
+      "reward_std": 0.11791487783193588,
+      "rewards/accuracy_reward": 0.38184139132499695,
+      "rewards/format_reward": 0.9821429252624512,
+      "step": 900,
+      "temporal_rewards": 0.714285671710968
     }
   ],
   "logging_steps": 1.0,