{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.23337222870478413,
  "eval_steps": 500,
  "global_step": 2200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1719.0,
      "completions/mean_length": 680.875,
      "completions/mean_terminated_length": 427.7037048339844,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.00010607828577490188,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.0,
      "learning_rate": 8e-06,
      "loss": 0.3843,
      "num_tokens": 79324.0,
      "reward": 1.4974994659423828,
      "reward_std": 0.8458996415138245,
      "rewards/reward_fn/mean": 1.4974994659423828,
      "rewards/reward_fn/std": 0.8458995819091797,
      "step": 1
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1127.0,
      "completions/max_terminated_length": 1127.0,
      "completions/mean_length": 215.25,
      "completions/mean_terminated_length": 215.25,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.00021215657154980376,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.008525475102942437,
      "learning_rate": 7.9996e-06,
      "loss": 0.0045,
      "num_tokens": 116452.0,
      "reward": 2.7323050498962402,
      "reward_std": 0.185869961977005,
      "rewards/reward_fn/mean": 2.7323050498962402,
      "rewards/reward_fn/std": 0.1858699470758438,
      "step": 2
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 332.0,
      "completions/max_terminated_length": 332.0,
      "completions/mean_length": 81.03125,
      "completions/mean_terminated_length": 81.03125,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.0003182348573247056,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2158203125,
      "kl": 0.01689625042490661,
      "learning_rate": 7.9992e-06,
      "loss": 0.0007,
      "num_tokens": 155109.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 3
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1005.0,
      "completions/max_terminated_length": 1005.0,
      "completions/mean_length": 332.375,
      "completions/mean_terminated_length": 332.375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.0004243131430996075,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.007169858436100185,
      "learning_rate": 7.9988e-06,
      "loss": 0.0173,
      "num_tokens": 206385.0,
      "reward": 2.862459897994995,
      "reward_std": 0.067531056702137,
      "rewards/reward_fn/mean": 2.862459897994995,
      "rewards/reward_fn/std": 0.067531056702137,
      "step": 4
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 397.0,
      "completions/max_terminated_length": 397.0,
      "completions/mean_length": 239.96875,
      "completions/mean_terminated_length": 239.96875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.0005303914288745094,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08251953125,
      "kl": 0.012080345884896815,
      "learning_rate": 7.9984e-06,
      "loss": 0.0005,
      "num_tokens": 246896.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 5
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 528.0,
      "completions/max_terminated_length": 528.0,
      "completions/mean_length": 268.71875,
      "completions/mean_terminated_length": 268.71875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.0006364697146494112,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.011115878820419312,
      "learning_rate": 7.998e-06,
      "loss": 0.0878,
      "num_tokens": 284999.0,
      "reward": 3.22149658203125,
      "reward_std": 0.9693878889083862,
      "rewards/reward_fn/mean": 3.22149658203125,
      "rewards/reward_fn/std": 0.969387948513031,
      "step": 6
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1717.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 400.0,
      "completions/mean_terminated_length": 400.0,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.0007425480004243131,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0703125,
      "kl": 0.007328710809815675,
      "learning_rate": 7.9976e-06,
      "loss": -0.119,
      "num_tokens": 331847.0,
      "reward": 2.9880638122558594,
      "reward_std": 0.7341222763061523,
      "rewards/reward_fn/mean": 2.9880638122558594,
      "rewards/reward_fn/std": 0.7341222763061523,
      "step": 7
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1423.0,
      "completions/mean_length": 340.5625,
      "completions/mean_terminated_length": 285.4838562011719,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.000848626286199215,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.00942237873096019,
      "learning_rate": 7.9972e-06,
      "loss": 0.3223,
      "num_tokens": 384729.0,
      "reward": 3.8373069763183594,
      "reward_std": 0.731940746307373,
      "rewards/reward_fn/mean": 3.8373069763183594,
      "rewards/reward_fn/std": 0.731940746307373,
      "step": 8
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 429.0,
      "completions/max_terminated_length": 429.0,
      "completions/mean_length": 165.0625,
      "completions/mean_terminated_length": 165.0625,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.0009547045719741168,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08935546875,
      "kl": 0.013073404785245657,
      "learning_rate": 7.9968e-06,
      "loss": 0.0005,
      "num_tokens": 422107.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 9
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 946.0,
      "completions/max_terminated_length": 946.0,
      "completions/mean_length": 356.03125,
      "completions/mean_terminated_length": 356.03125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.0010607828577490189,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.008752175432164222,
      "learning_rate": 7.9964e-06,
      "loss": 0.0989,
      "num_tokens": 488924.0,
      "reward": 3.7715067863464355,
      "reward_std": 0.5657153129577637,
      "rewards/reward_fn/mean": 3.7715067863464355,
      "rewards/reward_fn/std": 0.5657153725624084,
      "step": 10
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 458.0,
      "completions/max_terminated_length": 458.0,
      "completions/mean_length": 132.59375,
      "completions/mean_terminated_length": 132.59375,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.0011668611435239206,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.796875,
      "kl": 0.013385511934757233,
      "learning_rate": 7.996e-06,
      "loss": -0.0505,
      "num_tokens": 529903.0,
      "reward": 3.9310073852539062,
      "reward_std": 0.2188190072774887,
      "rewards/reward_fn/mean": 3.9310073852539062,
      "rewards/reward_fn/std": 0.2188190221786499,
      "step": 11
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 412.0,
      "completions/max_terminated_length": 412.0,
      "completions/mean_length": 254.96875,
      "completions/mean_terminated_length": 254.96875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.0012729394292988225,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07568359375,
      "kl": 0.011238898383453488,
      "learning_rate": 7.995599999999998e-06,
      "loss": 0.0004,
      "num_tokens": 570670.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 12
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1664.0,
      "completions/max_terminated_length": 1664.0,
      "completions/mean_length": 629.1875,
      "completions/mean_terminated_length": 629.1875,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "epoch": 0.0013790177150737244,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.007070357620250434,
      "learning_rate": 7.9952e-06,
      "loss": 0.0796,
      "num_tokens": 638228.0,
      "reward": 3.1080098152160645,
      "reward_std": 0.934657096862793,
      "rewards/reward_fn/mean": 3.1080098152160645,
      "rewards/reward_fn/std": 0.934657096862793,
      "step": 13
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1005.0,
      "completions/mean_length": 623.21875,
      "completions/mean_terminated_length": 475.82757568359375,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.0014850960008486263,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.984375,
      "kl": 0.007602842408232391,
      "learning_rate": 7.9948e-06,
      "loss": 0.0701,
      "num_tokens": 698267.0,
      "reward": 2.447237014770508,
      "reward_std": 0.8652064204216003,
      "rewards/reward_fn/mean": 2.447237014770508,
      "rewards/reward_fn/std": 0.8652064204216003,
      "step": 14
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.0,
      "completions/max_terminated_length": 363.0,
      "completions/mean_length": 247.125,
      "completions/mean_terminated_length": 247.125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.0015911742866235282,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.012013918720185757,
      "learning_rate": 7.9944e-06,
      "loss": -0.0071,
      "num_tokens": 745183.0,
      "reward": 3.933253765106201,
      "reward_std": 0.2631880044937134,
      "rewards/reward_fn/mean": 3.933253765106201,
      "rewards/reward_fn/std": 0.263187974691391,
      "step": 15
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1180.0,
      "completions/max_terminated_length": 1180.0,
      "completions/mean_length": 416.46875,
      "completions/mean_terminated_length": 416.46875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.00169725257239843,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.01027172978501767,
      "learning_rate": 7.994e-06,
      "loss": 0.0592,
      "num_tokens": 789742.0,
      "reward": 2.780426502227783,
      "reward_std": 0.21798433363437653,
      "rewards/reward_fn/mean": 2.780426502227783,
      "rewards/reward_fn/std": 0.21798425912857056,
      "step": 16
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 463.0,
      "completions/max_terminated_length": 463.0,
      "completions/mean_length": 223.59375,
      "completions/mean_terminated_length": 223.59375,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.001803330858173332,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.013605716056190431,
      "learning_rate": 7.9936e-06,
      "loss": 0.012,
      "num_tokens": 835201.0,
      "reward": 2.994292736053467,
      "reward_std": 0.4485239088535309,
      "rewards/reward_fn/mean": 2.994292736053467,
      "rewards/reward_fn/std": 0.4485238790512085,
      "step": 17
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 963.0,
      "completions/max_terminated_length": 963.0,
      "completions/mean_length": 200.9375,
      "completions/mean_terminated_length": 200.9375,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.0019094091439482337,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.59375,
      "kl": 0.011645498918369412,
      "learning_rate": 7.9932e-06,
      "loss": 0.0843,
      "num_tokens": 862143.0,
      "reward": 3.747105121612549,
      "reward_std": 0.5640392899513245,
      "rewards/reward_fn/mean": 3.747105121612549,
      "rewards/reward_fn/std": 0.5640392899513245,
      "step": 18
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.0,
      "completions/max_terminated_length": 639.0,
      "completions/mean_length": 387.59375,
      "completions/mean_terminated_length": 387.59375,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.002015487429723136,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.007694089494179934,
      "learning_rate": 7.992799999999999e-06,
      "loss": 0.0621,
      "num_tokens": 910226.0,
      "reward": 3.5295071601867676,
      "reward_std": 0.6173213124275208,
      "rewards/reward_fn/mean": 3.5295071601867676,
      "rewards/reward_fn/std": 0.617321252822876,
      "step": 19
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 453.0,
      "completions/max_terminated_length": 453.0,
      "completions/mean_length": 208.96875,
      "completions/mean_terminated_length": 208.96875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.0021215657154980377,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.015368042862974107,
      "learning_rate": 7.9924e-06,
      "loss": 0.0099,
      "num_tokens": 940337.0,
      "reward": 3.5482964515686035,
      "reward_std": 0.8371409177780151,
      "rewards/reward_fn/mean": 3.5482964515686035,
      "rewards/reward_fn/std": 0.8371408581733704,
      "step": 20
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 605.0,
      "completions/max_terminated_length": 605.0,
      "completions/mean_length": 173.0,
      "completions/mean_terminated_length": 173.0,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.0022276440012729396,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.014460677281022072,
      "learning_rate": 7.991999999999999e-06,
      "loss": -0.0116,
      "num_tokens": 960817.0,
      "reward": 3.8916022777557373,
      "reward_std": 0.45123252272605896,
      "rewards/reward_fn/mean": 3.8916022777557373,
      "rewards/reward_fn/std": 0.4512324333190918,
      "step": 21
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 575.0,
      "completions/max_terminated_length": 575.0,
      "completions/mean_length": 380.53125,
      "completions/mean_terminated_length": 380.53125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.002333722287047841,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.09375,
      "kl": 0.010017184424214065,
      "learning_rate": 7.9916e-06,
      "loss": 0.0591,
      "num_tokens": 1025506.0,
      "reward": 2.726224184036255,
      "reward_std": 0.2123180776834488,
      "rewards/reward_fn/mean": 2.726224184036255,
      "rewards/reward_fn/std": 0.2123180478811264,
      "step": 22
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1530.0,
      "completions/max_terminated_length": 1530.0,
      "completions/mean_length": 537.15625,
      "completions/mean_terminated_length": 537.15625,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.002439800572822743,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.078125,
      "kl": 0.008808196464087814,
      "learning_rate": 7.991199999999999e-06,
      "loss": -0.0658,
      "num_tokens": 1081447.0,
      "reward": 2.7414865493774414,
      "reward_std": 0.947241485118866,
      "rewards/reward_fn/mean": 2.7414865493774414,
      "rewards/reward_fn/std": 0.9472415447235107,
      "step": 23
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 751.0,
      "completions/max_terminated_length": 751.0,
      "completions/mean_length": 412.5625,
      "completions/mean_terminated_length": 412.5625,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.002545878858597645,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.03125,
      "kl": 0.009269667672924697,
      "learning_rate": 7.9908e-06,
      "loss": -0.0071,
      "num_tokens": 1141273.0,
      "reward": 2.676821231842041,
      "reward_std": 0.5632266998291016,
      "rewards/reward_fn/mean": 2.676821231842041,
      "rewards/reward_fn/std": 0.5632267594337463,
      "step": 24
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 439.0,
      "completions/max_terminated_length": 439.0,
      "completions/mean_length": 322.75,
      "completions/mean_terminated_length": 322.75,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.002651957144372547,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.011170931567903608,
      "learning_rate": 7.9904e-06,
      "loss": 0.0352,
      "num_tokens": 1196913.0,
      "reward": 3.0973877906799316,
      "reward_std": 0.7358191609382629,
      "rewards/reward_fn/mean": 3.0973877906799316,
      "rewards/reward_fn/std": 0.7358191609382629,
      "step": 25
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 928.0,
      "completions/max_terminated_length": 928.0,
      "completions/mean_length": 245.03125,
      "completions/mean_terminated_length": 245.03125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.0027580354301474487,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.01611144037451595,
      "learning_rate": 7.99e-06,
      "loss": 0.1088,
      "num_tokens": 1239122.0,
      "reward": 2.7557084560394287,
      "reward_std": 0.3039965033531189,
      "rewards/reward_fn/mean": 2.7557084560394287,
      "rewards/reward_fn/std": 0.3039964735507965,
      "step": 26
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.0,
      "completions/max_terminated_length": 336.0,
      "completions/mean_length": 174.46875,
      "completions/mean_terminated_length": 174.46875,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.0028641137159223506,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.53125,
      "kl": 0.016508221509866416,
      "learning_rate": 7.9896e-06,
      "loss": 0.0277,
      "num_tokens": 1273281.0,
      "reward": 3.8924479484558105,
      "reward_std": 0.4453147053718567,
      "rewards/reward_fn/mean": 3.8924479484558105,
      "rewards/reward_fn/std": 0.4453147053718567,
      "step": 27
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 559.0,
      "completions/max_terminated_length": 559.0,
      "completions/mean_length": 229.53125,
      "completions/mean_terminated_length": 229.53125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.0029701920016972526,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.21875,
      "kl": 0.01914752251468599,
      "learning_rate": 7.9892e-06,
      "loss": -0.0023,
      "num_tokens": 1329714.0,
      "reward": 3.8488998413085938,
      "reward_std": 0.40621453523635864,
      "rewards/reward_fn/mean": 3.8488998413085938,
      "rewards/reward_fn/std": 0.40621453523635864,
      "step": 28
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1542.0,
      "completions/mean_length": 632.59375,
      "completions/mean_terminated_length": 538.2333374023438,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.0030762702874721545,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.01128252933267504,
      "learning_rate": 7.9888e-06,
      "loss": 0.2658,
      "num_tokens": 1391141.0,
      "reward": 2.293217658996582,
      "reward_std": 0.7491805553436279,
      "rewards/reward_fn/mean": 2.293217658996582,
      "rewards/reward_fn/std": 0.7491805553436279,
      "step": 29
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 855.0,
      "completions/max_terminated_length": 855.0,
      "completions/mean_length": 457.8125,
      "completions/mean_terminated_length": 457.8125,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.0031823485732470564,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.00988059863448143,
      "learning_rate": 7.9884e-06,
      "loss": -0.0261,
      "num_tokens": 1421887.0,
      "reward": 1.8365099430084229,
      "reward_std": 0.3920939862728119,
      "rewards/reward_fn/mean": 1.8365099430084229,
      "rewards/reward_fn/std": 0.3920939564704895,
      "step": 30
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 622.0,
      "completions/max_terminated_length": 622.0,
      "completions/mean_length": 234.03125,
      "completions/mean_terminated_length": 234.03125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.0032884268590219583,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.016112850280478597,
      "learning_rate": 7.988e-06,
      "loss": 0.0618,
      "num_tokens": 1464800.0,
      "reward": 3.961313009262085,
      "reward_std": 0.21884705126285553,
      "rewards/reward_fn/mean": 3.961313009262085,
      "rewards/reward_fn/std": 0.21884708106517792,
      "step": 31
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1348.0,
      "completions/max_terminated_length": 1348.0,
      "completions/mean_length": 319.59375,
      "completions/mean_terminated_length": 319.59375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.00339450514479686,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.015100088901817799,
      "learning_rate": 7.9876e-06,
      "loss": 0.1985,
      "num_tokens": 1511891.0,
      "reward": 2.7325994968414307,
      "reward_std": 0.19626843929290771,
      "rewards/reward_fn/mean": 2.7325994968414307,
      "rewards/reward_fn/std": 0.19626840949058533,
      "step": 32
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.0,
      "completions/max_terminated_length": 343.0,
      "completions/mean_length": 215.96875,
      "completions/mean_terminated_length": 215.96875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.003500583430571762,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.013935832539573312,
      "learning_rate": 7.987199999999999e-06,
      "loss": 0.076,
      "num_tokens": 1553202.0,
      "reward": 3.828774929046631,
      "reward_std": 0.564949631690979,
      "rewards/reward_fn/mean": 3.828774929046631,
      "rewards/reward_fn/std": 0.564949631690979,
      "step": 33
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 409.0,
      "completions/max_terminated_length": 409.0,
      "completions/mean_length": 220.25,
      "completions/mean_terminated_length": 220.25,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.003606661716346664,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.021082005463540554,
      "learning_rate": 7.9868e-06,
      "loss": 0.0509,
      "num_tokens": 1598394.0,
      "reward": 3.139282464981079,
      "reward_std": 0.714324951171875,
      "rewards/reward_fn/mean": 3.139282464981079,
      "rewards/reward_fn/std": 0.7143248915672302,
      "step": 34
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 619.0,
      "completions/mean_length": 389.8125,
      "completions/mean_terminated_length": 336.32257080078125,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.003712740002121566,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.014661112450994551,
      "learning_rate": 7.986399999999999e-06,
      "loss": 0.1028,
      "num_tokens": 1643572.0,
      "reward": 2.1648662090301514,
      "reward_std": 0.8039337992668152,
      "rewards/reward_fn/mean": 2.1648662090301514,
      "rewards/reward_fn/std": 0.8039337396621704,
      "step": 35
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 458.0,
      "completions/max_terminated_length": 458.0,
      "completions/mean_length": 271.8125,
      "completions/mean_terminated_length": 271.8125,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.0038188182878964674,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.017005216563120484,
      "learning_rate": 7.986e-06,
      "loss": -0.0162,
      "num_tokens": 1687534.0,
      "reward": 2.9149179458618164,
      "reward_std": 0.5480148196220398,
      "rewards/reward_fn/mean": 2.9149179458618164,
      "rewards/reward_fn/std": 0.548014760017395,
      "step": 36
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 584.0,
      "completions/max_terminated_length": 584.0,
      "completions/mean_length": 226.96875,
      "completions/mean_terminated_length": 226.96875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.00392489657367137,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.019651910522952676,
      "learning_rate": 7.9856e-06,
      "loss": -0.0033,
      "num_tokens": 1750637.0,
      "reward": 3.9629361629486084,
      "reward_std": 0.20966489613056183,
      "rewards/reward_fn/mean": 3.9629361629486084,
      "rewards/reward_fn/std": 0.2096649408340454,
      "step": 37
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/max_terminated_length": 324.0,
      "completions/mean_length": 197.71875,
      "completions/mean_terminated_length": 197.71875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.004030974859446272,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07080078125,
      "kl": 0.011529933894053102,
      "learning_rate": 7.9852e-06,
      "loss": 0.0005,
      "num_tokens": 1800452.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 38
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 464.0,
      "completions/max_terminated_length": 464.0,
      "completions/mean_length": 299.71875,
      "completions/mean_terminated_length": 299.71875,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.0041370531452211735,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.01613133493810892,
      "learning_rate": 7.9848e-06,
      "loss": 0.0467,
      "num_tokens": 1848923.0,
      "reward": 3.5235185623168945,
      "reward_std": 0.5581008195877075,
      "rewards/reward_fn/mean": 3.5235185623168945,
      "rewards/reward_fn/std": 0.5581007599830627,
      "step": 39
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 531.0,
      "completions/max_terminated_length": 531.0,
      "completions/mean_length": 186.75,
      "completions/mean_terminated_length": 186.75,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.0042431314309960754,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.01886003592517227,
      "learning_rate": 7.9844e-06,
      "loss": 0.0008,
      "num_tokens": 1891123.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 40
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.0,
      "completions/max_terminated_length": 351.0,
      "completions/mean_length": 200.5,
      "completions/mean_terminated_length": 200.5,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.004349209716770977,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09033203125,
      "kl": 0.018136992235668004,
      "learning_rate": 7.984e-06,
      "loss": 0.0007,
      "num_tokens": 1931971.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 41
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 967.84375,
      "completions/mean_terminated_length": 856.1034545898438,
      "completions/min_length": 413.0,
      "completions/min_terminated_length": 413.0,
      "epoch": 0.004455288002545879,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.15625,
      "kl": 0.010472592199221253,
      "learning_rate": 7.9836e-06,
      "loss": 0.2691,
      "num_tokens": 1998782.0,
      "reward": 1.5388916730880737,
      "reward_std": 0.5033364295959473,
      "rewards/reward_fn/mean": 1.5388916730880737,
      "rewards/reward_fn/std": 0.5033363699913025,
      "step": 42
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 688.0,
      "completions/mean_length": 342.9375,
      "completions/mean_terminated_length": 287.93548583984375,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.00456136628832078,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.013179327361285686,
      "learning_rate": 7.9832e-06,
      "loss": 0.1886,
      "num_tokens": 2051996.0,
      "reward": 3.7020716667175293,
      "reward_std": 0.7320355772972107,
      "rewards/reward_fn/mean": 3.7020716667175293,
      "rewards/reward_fn/std": 0.7320355772972107,
      "step": 43
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.0,
      "completions/max_terminated_length": 566.0,
      "completions/mean_length": 215.46875,
      "completions/mean_terminated_length": 215.46875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.004667444574095682,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.020010275882668793,
      "learning_rate": 7.9828e-06,
      "loss": 0.0128,
      "num_tokens": 2097803.0,
      "reward": 2.742847204208374,
      "reward_std": 0.29240480065345764,
      "rewards/reward_fn/mean": 2.742847204208374,
      "rewards/reward_fn/std": 0.2924048602581024,
      "step": 44
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 415.0,
      "completions/max_terminated_length": 415.0,
      "completions/mean_length": 160.34375,
      "completions/mean_terminated_length": 160.34375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.004773522859870584,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.014989322167821229,
      "learning_rate": 7.9824e-06,
      "loss": 0.1524,
      "num_tokens": 2121654.0,
      "reward": 3.8570432662963867,
      "reward_std": 0.3882334530353546,
      "rewards/reward_fn/mean": 3.8570432662963867,
      "rewards/reward_fn/std": 0.3882334530353546,
      "step": 45
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 162.0,
      "completions/max_terminated_length": 162.0,
      "completions/mean_length": 79.71875,
      "completions/mean_terminated_length": 79.71875,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.004879601145645486,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.28515625,
      "kl": 0.026190617179963738,
      "learning_rate": 7.981999999999999e-06,
      "loss": 0.001,
      "num_tokens": 2166573.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 46
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1247.0,
      "completions/max_terminated_length": 1247.0,
      "completions/mean_length": 449.5,
      "completions/mean_terminated_length": 449.5,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.004985679431420388,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.012275198707357049,
      "learning_rate": 7.9816e-06,
      "loss": 0.0033,
      "num_tokens": 2217437.0,
      "reward": 2.856170654296875,
      "reward_std": 0.6345119476318359,
      "rewards/reward_fn/mean": 2.856170654296875,
      "rewards/reward_fn/std": 0.6345118880271912,
      "step": 47
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 711.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 306.9375,
      "completions/mean_terminated_length": 306.9375,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.00509175771719529,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.01920297823380679,
      "learning_rate": 7.9812e-06,
      "loss": -0.0138,
      "num_tokens": 2275419.0,
      "reward": 3.279310703277588,
      "reward_std": 1.086318016052246,
      "rewards/reward_fn/mean": 3.279310703277588,
      "rewards/reward_fn/std": 1.086318016052246,
      "step": 48
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1867.0,
      "completions/max_terminated_length": 1867.0,
      "completions/mean_length": 594.375,
      "completions/mean_terminated_length": 594.375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.005197836002970192,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.012267176411114633,
      "learning_rate": 7.9808e-06,
      "loss": -0.0321,
      "num_tokens": 2330535.0,
      "reward": 2.3844780921936035,
      "reward_std": 0.69173663854599,
      "rewards/reward_fn/mean": 2.3844780921936035,
      "rewards/reward_fn/std": 0.6917366981506348,
      "step": 49
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 385.0,
      "completions/max_terminated_length": 385.0,
      "completions/mean_length": 249.34375,
      "completions/mean_terminated_length": 249.34375,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.005303914288745094,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.01791852479800582,
      "learning_rate": 7.9804e-06,
      "loss": 0.0302,
      "num_tokens": 2371474.0,
      "reward": 3.0003445148468018,
      "reward_std": 0.6457379460334778,
      "rewards/reward_fn/mean": 3.0003445148468018,
      "rewards/reward_fn/std": 0.6457379460334778,
      "step": 50
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 905.0,
      "completions/mean_length": 387.53125,
      "completions/mean_terminated_length": 333.9677429199219,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.0054099925745199956,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.013383313198573887,
      "learning_rate": 7.98e-06,
      "loss": 0.1146,
      "num_tokens": 2425219.0,
      "reward": 2.647240161895752,
      "reward_std": 0.7234665155410767,
      "rewards/reward_fn/mean": 2.647240161895752,
      "rewards/reward_fn/std": 0.7234665155410767,
      "step": 51
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 895.0,
      "completions/max_terminated_length": 895.0,
      "completions/mean_length": 232.125,
      "completions/mean_terminated_length": 232.125,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.0055160708602948975,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.022899470990523696,
      "learning_rate": 7.979599999999999e-06,
      "loss": -0.0405,
      "num_tokens": 2461511.0,
      "reward": 3.963773488998413,
      "reward_std": 0.20492826402187347,
      "rewards/reward_fn/mean": 3.963773488998413,
      "rewards/reward_fn/std": 0.20492829382419586,
      "step": 52
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.0,
      "completions/max_terminated_length": 361.0,
      "completions/mean_length": 172.5625,
      "completions/mean_terminated_length": 172.5625,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.005622149146069799,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1015625,
      "kl": 0.01780761929694563,
      "learning_rate": 7.9792e-06,
      "loss": 0.0007,
      "num_tokens": 2512409.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 53
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 513.375,
      "completions/mean_terminated_length": 513.375,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.005728227431844701,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.014814406633377075,
      "learning_rate": 7.978799999999999e-06,
      "loss": 0.0129,
      "num_tokens": 2564133.0,
      "reward": 2.456674575805664,
      "reward_std": 0.6039776802062988,
      "rewards/reward_fn/mean": 2.456674575805664,
      "rewards/reward_fn/std": 0.603977620601654,
      "step": 54
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1566.0,
      "completions/mean_length": 824.21875,
      "completions/mean_terminated_length": 649.3928833007812,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.005834305717619603,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.01389779313467443,
      "learning_rate": 7.9784e-06,
      "loss": 0.3627,
      "num_tokens": 2627980.0,
      "reward": 2.1529626846313477,
      "reward_std": 0.9413007497787476,
      "rewards/reward_fn/mean": 2.1529626846313477,
      "rewards/reward_fn/std": 0.9413006901741028,
      "step": 55
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1513.0,
      "completions/mean_length": 473.125,
      "completions/mean_terminated_length": 422.32257080078125,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.005940384003394505,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.013784538023173809,
      "learning_rate": 7.977999999999999e-06,
      "loss": 0.1598,
      "num_tokens": 2673968.0,
      "reward": 3.6430978775024414,
      "reward_std": 0.9269182682037354,
      "rewards/reward_fn/mean": 3.6430978775024414,
      "rewards/reward_fn/std": 0.9269182682037354,
      "step": 56
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 195.0,
      "completions/max_terminated_length": 195.0,
      "completions/mean_length": 157.90625,
      "completions/mean_terminated_length": 157.90625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.006046462289169407,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.013763216906227171,
      "learning_rate": 7.9776e-06,
      "loss": 0.0307,
      "num_tokens": 2732653.0,
      "reward": 3.931234836578369,
      "reward_std": 0.3889950215816498,
      "rewards/reward_fn/mean": 3.931234836578369,
      "rewards/reward_fn/std": 0.3889950215816498,
      "step": 57
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 670.0,
      "completions/max_terminated_length": 670.0,
      "completions/mean_length": 297.25,
      "completions/mean_terminated_length": 297.25,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.006152540574944309,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.011821337277069688,
      "learning_rate": 7.977199999999999e-06,
      "loss": 0.1431,
      "num_tokens": 2788469.0,
      "reward": 3.0665931701660156,
      "reward_std": 0.08242907375097275,
      "rewards/reward_fn/mean": 3.0665931701660156,
      "rewards/reward_fn/std": 0.08242906630039215,
      "step": 58
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 193.65625,
      "completions/mean_terminated_length": 193.65625,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.006258618860719211,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.021005364251323044,
      "learning_rate": 7.9768e-06,
      "loss": 0.0154,
      "num_tokens": 2829578.0,
      "reward": 2.730905532836914,
      "reward_std": 0.29996997117996216,
      "rewards/reward_fn/mean": 2.730905532836914,
      "rewards/reward_fn/std": 0.29996997117996216,
      "step": 59
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1575.0,
      "completions/max_terminated_length": 1575.0,
      "completions/mean_length": 298.59375,
      "completions/mean_terminated_length": 298.59375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.006364697146494113,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.018938414519652724,
      "learning_rate": 7.9764e-06,
      "loss": -0.063,
      "num_tokens": 2892893.0,
      "reward": 3.3888978958129883,
      "reward_std": 0.7617525458335876,
      "rewards/reward_fn/mean": 3.3888978958129883,
      "rewards/reward_fn/std": 0.7617525458335876,
      "step": 60
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 816.0,
      "completions/max_terminated_length": 816.0,
      "completions/mean_length": 214.6875,
      "completions/mean_terminated_length": 214.6875,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.006470775432269015,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.020086537464521825,
      "learning_rate": 7.976e-06,
      "loss": -0.0565,
      "num_tokens": 2946067.0,
      "reward": 3.9270145893096924,
      "reward_std": 0.4128677546977997,
      "rewards/reward_fn/mean": 3.9270145893096924,
      "rewards/reward_fn/std": 0.4128677546977997,
      "step": 61
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1099.0,
      "completions/max_terminated_length": 1099.0,
      "completions/mean_length": 351.71875,
      "completions/mean_terminated_length": 351.71875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.0065768537180439166,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.015736156376078725,
      "learning_rate": 7.9756e-06,
      "loss": 0.0296,
      "num_tokens": 2986666.0,
      "reward": 2.2112362384796143,
      "reward_std": 0.4881065785884857,
      "rewards/reward_fn/mean": 2.2112362384796143,
      "rewards/reward_fn/std": 0.4881065785884857,
      "step": 62
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1397.0,
      "completions/max_terminated_length": 1397.0,
      "completions/mean_length": 321.15625,
      "completions/mean_terminated_length": 321.15625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.0066829320038188185,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.020156427985057235,
      "learning_rate": 7.9752e-06,
      "loss": -0.0779,
      "num_tokens": 3028399.0,
      "reward": 3.290408134460449,
      "reward_std": 0.9479041695594788,
      "rewards/reward_fn/mean": 3.290408134460449,
      "rewards/reward_fn/std": 0.9479042291641235,
      "step": 63
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 723.0,
      "completions/max_terminated_length": 723.0,
      "completions/mean_length": 186.84375,
      "completions/mean_terminated_length": 186.84375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.00678901028959372,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12451171875,
      "kl": 0.020627434947527945,
      "learning_rate": 7.9748e-06,
      "loss": 0.0008,
      "num_tokens": 3068138.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 64
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 366.90625,
      "completions/mean_terminated_length": 366.90625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.006895088575368622,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.016033415216952562,
      "learning_rate": 7.9744e-06,
      "loss": -0.0287,
      "num_tokens": 3117607.0,
      "reward": 3.5806355476379395,
      "reward_std": 0.6227185130119324,
      "rewards/reward_fn/mean": 3.5806355476379395,
      "rewards/reward_fn/std": 0.6227185130119324,
      "step": 65
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1295.0,
      "completions/max_terminated_length": 1295.0,
      "completions/mean_length": 466.875,
      "completions/mean_terminated_length": 466.875,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.007001166861143524,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.014832770335488021,
      "learning_rate": 7.974e-06,
      "loss": -0.007,
      "num_tokens": 3199139.0,
      "reward": 3.7774386405944824,
      "reward_std": 0.7030869126319885,
      "rewards/reward_fn/mean": 3.7774386405944824,
      "rewards/reward_fn/std": 0.7030869126319885,
      "step": 66
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1649.0,
      "completions/max_terminated_length": 1649.0,
      "completions/mean_length": 424.65625,
      "completions/mean_terminated_length": 424.65625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.007107245146918426,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2265625,
      "kl": 0.014696288155391812,
      "learning_rate": 7.9736e-06,
      "loss": -0.0192,
      "num_tokens": 3249912.0,
      "reward": 3.6228115558624268,
      "reward_std": 0.7114648818969727,
      "rewards/reward_fn/mean": 3.6228115558624268,
      "rewards/reward_fn/std": 0.7114648818969727,
      "step": 67
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 293.25,
      "completions/mean_terminated_length": 293.25,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.007213323432693328,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.02517524897120893,
      "learning_rate": 7.9732e-06,
      "loss": -0.0745,
      "num_tokens": 3296032.0,
      "reward": 2.7536492347717285,
      "reward_std": 0.27405858039855957,
      "rewards/reward_fn/mean": 2.7536492347717285,
      "rewards/reward_fn/std": 0.27405858039855957,
      "step": 68
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 210.0,
      "completions/max_terminated_length": 210.0,
      "completions/mean_length": 149.15625,
      "completions/mean_terminated_length": 149.15625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.00731940171846823,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.158203125,
      "kl": 0.02772362041287124,
      "learning_rate": 7.9728e-06,
      "loss": 0.0011,
      "num_tokens": 3344869.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 69
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.0,
      "completions/max_terminated_length": 498.0,
      "completions/mean_length": 158.4375,
      "completions/mean_terminated_length": 158.4375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.007425480004243132,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1513671875,
      "kl": 0.03019587113521993,
      "learning_rate": 7.9724e-06,
      "loss": 0.0012,
      "num_tokens": 3386675.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 70
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1326.0,
      "completions/max_terminated_length": 1326.0,
      "completions/mean_length": 496.65625,
      "completions/mean_terminated_length": 496.65625,
      "completions/min_length": 370.0,
      "completions/min_terminated_length": 370.0,
      "epoch": 0.007531558290018034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0859375,
      "kl": 0.014372375677339733,
      "learning_rate": 7.972e-06,
      "loss": -0.0032,
      "num_tokens": 3450248.0,
      "reward": 3.8883559703826904,
      "reward_std": 0.46508049964904785,
      "rewards/reward_fn/mean": 3.8883559703826904,
      "rewards/reward_fn/std": 0.46508049964904785,
      "step": 71
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1761.0,
      "completions/max_terminated_length": 1761.0,
      "completions/mean_length": 621.75,
      "completions/mean_terminated_length": 621.75,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.007637636575792935,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1328125,
      "kl": 0.011013327515684068,
      "learning_rate": 7.9716e-06,
      "loss": -0.0858,
      "num_tokens": 3501984.0,
      "reward": 2.3477916717529297,
      "reward_std": 0.5000441074371338,
      "rewards/reward_fn/mean": 2.3477916717529297,
      "rewards/reward_fn/std": 0.5000441074371338,
      "step": 72
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/max_terminated_length": 334.0,
      "completions/mean_length": 145.28125,
      "completions/mean_terminated_length": 145.28125,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.007743714861567837,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10546875,
      "kl": 0.015902561601251364,
      "learning_rate": 7.9712e-06,
      "loss": 0.0006,
      "num_tokens": 3547529.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 73
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 291.71875,
      "completions/mean_terminated_length": 291.71875,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.00784979314734274,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.018224395578727126,
      "learning_rate": 7.9708e-06,
      "loss": 0.0441,
      "num_tokens": 3604480.0,
      "reward": 3.9649553298950195,
      "reward_std": 0.19824209809303284,
      "rewards/reward_fn/mean": 3.9649553298950195,
      "rewards/reward_fn/std": 0.19824212789535522,
      "step": 74
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1167.0,
      "completions/max_terminated_length": 1167.0,
      "completions/mean_length": 360.15625,
      "completions/mean_terminated_length": 360.15625,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.00795587143311764,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.017522861482575536,
      "learning_rate": 7.970399999999999e-06,
      "loss": -0.0247,
      "num_tokens": 3672165.0,
      "reward": 3.7407755851745605,
      "reward_std": 0.573284924030304,
      "rewards/reward_fn/mean": 3.7407755851745605,
      "rewards/reward_fn/std": 0.573284924030304,
      "step": 75
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 440.0,
      "completions/max_terminated_length": 440.0,
      "completions/mean_length": 99.71875,
      "completions/mean_terminated_length": 99.71875,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.008061949718892543,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.25,
      "kl": 0.03133802697993815,
      "learning_rate": 7.97e-06,
      "loss": 0.0013,
      "num_tokens": 3725628.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 76
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 884.0,
      "completions/max_terminated_length": 884.0,
      "completions/mean_length": 389.125,
      "completions/mean_terminated_length": 389.125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.008168028004667444,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.014990110415965319,
      "learning_rate": 7.969599999999999e-06,
      "loss": 0.2218,
      "num_tokens": 3776256.0,
      "reward": 3.630524158477783,
      "reward_std": 0.8723556399345398,
      "rewards/reward_fn/mean": 3.630524158477783,
      "rewards/reward_fn/std": 0.8723556399345398,
      "step": 77
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 323.0,
      "completions/max_terminated_length": 323.0,
      "completions/mean_length": 94.4375,
      "completions/mean_terminated_length": 94.4375,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.008274106290442347,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.169921875,
      "kl": 0.022003972087986767,
      "learning_rate": 7.9692e-06,
      "loss": 0.0009,
      "num_tokens": 3821742.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 78
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1045.0,
      "completions/max_terminated_length": 1045.0,
      "completions/mean_length": 323.96875,
      "completions/mean_terminated_length": 323.96875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.008380184576217248,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.014573617372661829,
      "learning_rate": 7.968799999999999e-06,
      "loss": -0.0192,
      "num_tokens": 3903693.0,
      "reward": 3.9266436100006104,
      "reward_std": 0.4149664342403412,
      "rewards/reward_fn/mean": 3.9266436100006104,
      "rewards/reward_fn/std": 0.414966344833374,
      "step": 79
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1355.0,
      "completions/max_terminated_length": 1355.0,
      "completions/mean_length": 343.5,
      "completions/mean_terminated_length": 343.5,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.008486262861992151,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.020087406621314585,
      "learning_rate": 7.9684e-06,
      "loss": -0.0134,
      "num_tokens": 3961789.0,
      "reward": 2.6687002182006836,
      "reward_std": 0.5339718461036682,
      "rewards/reward_fn/mean": 2.6687002182006836,
      "rewards/reward_fn/std": 0.5339718461036682,
      "step": 80
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 804.0,
      "completions/max_terminated_length": 804.0,
      "completions/mean_length": 216.4375,
      "completions/mean_terminated_length": 216.4375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.008592341147767052,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0849609375,
      "kl": 0.020208495436236262,
      "learning_rate": 7.967999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 3997675.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 81
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 481.0,
      "completions/mean_length": 260.25,
      "completions/mean_terminated_length": 202.5806427001953,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.008698419433541955,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.020875858957879245,
      "learning_rate": 7.9676e-06,
      "loss": 0.179,
      "num_tokens": 4048243.0,
      "reward": 3.6548068523406982,
      "reward_std": 0.8150468468666077,
      "rewards/reward_fn/mean": 3.6548068523406982,
      "rewards/reward_fn/std": 0.8150468468666077,
      "step": 82
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1148.0,
      "completions/max_terminated_length": 1148.0,
      "completions/mean_length": 388.71875,
      "completions/mean_terminated_length": 388.71875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.008804497719316856,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.01721180323511362,
      "learning_rate": 7.967199999999999e-06,
      "loss": 0.0637,
      "num_tokens": 4095434.0,
      "reward": 3.598665714263916,
      "reward_std": 0.7542276978492737,
      "rewards/reward_fn/mean": 3.598665714263916,
      "rewards/reward_fn/std": 0.7542277574539185,
      "step": 83
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 964.0,
      "completions/max_terminated_length": 964.0,
      "completions/mean_length": 254.9375,
      "completions/mean_terminated_length": 254.9375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.008910576005091759,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1298828125,
      "kl": 0.02156881894916296,
      "learning_rate": 7.9668e-06,
      "loss": 0.0009,
      "num_tokens": 4131016.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 84
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2013.0,
      "completions/mean_length": 667.65625,
      "completions/mean_terminated_length": 575.6333618164062,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.00901665429086666,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.014661238761618733,
      "learning_rate": 7.9664e-06,
      "loss": 0.1817,
      "num_tokens": 4186685.0,
      "reward": 3.415998935699463,
      "reward_std": 1.1627610921859741,
      "rewards/reward_fn/mean": 3.415998935699463,
      "rewards/reward_fn/std": 1.1627610921859741,
      "step": 85
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 941.0,
      "completions/max_terminated_length": 941.0,
      "completions/mean_length": 220.0625,
      "completions/mean_terminated_length": 220.0625,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.00912273257664156,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.109375,
      "kl": 0.025990084279328585,
      "learning_rate": 7.966e-06,
      "loss": 0.001,
      "num_tokens": 4221695.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 86
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 187.3125,
      "completions/mean_terminated_length": 187.3125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.009228810862416463,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.025184703757986426,
      "learning_rate": 7.9656e-06,
      "loss": -0.0135,
      "num_tokens": 4261897.0,
      "reward": 3.9673728942871094,
      "reward_std": 0.18456710875034332,
      "rewards/reward_fn/mean": 3.9673728942871094,
      "rewards/reward_fn/std": 0.18456712365150452,
      "step": 87
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 575.0,
      "completions/max_terminated_length": 575.0,
      "completions/mean_length": 194.1875,
      "completions/mean_terminated_length": 194.1875,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.009334889148191364,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.022489528637379408,
      "learning_rate": 7.9652e-06,
      "loss": -0.0187,
      "num_tokens": 4299119.0,
      "reward": 3.961916446685791,
      "reward_std": 0.21543395519256592,
      "rewards/reward_fn/mean": 3.961916446685791,
      "rewards/reward_fn/std": 0.2154339849948883,
      "step": 88
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 261.6875,
      "completions/mean_terminated_length": 261.6875,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.009440967433966267,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5625,
      "kl": 0.022605838836170733,
      "learning_rate": 7.9648e-06,
      "loss": 0.0996,
      "num_tokens": 4336069.0,
      "reward": 3.928297281265259,
      "reward_std": 0.4056117832660675,
      "rewards/reward_fn/mean": 3.928297281265259,
      "rewards/reward_fn/std": 0.4056117534637451,
      "step": 89
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1217.0,
      "completions/max_terminated_length": 1217.0,
      "completions/mean_length": 338.84375,
      "completions/mean_terminated_length": 338.84375,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.009547045719741168,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.01582270860671997,
      "learning_rate": 7.9644e-06,
      "loss": 0.0102,
      "num_tokens": 4382624.0,
      "reward": 2.761922597885132,
      "reward_std": 0.05517864227294922,
      "rewards/reward_fn/mean": 2.761922597885132,
      "rewards/reward_fn/std": 0.0551786907017231,
      "step": 90
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1949.0,
      "completions/mean_length": 521.09375,
      "completions/mean_terminated_length": 471.83868408203125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.009653124005516071,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.017371521913446486,
      "learning_rate": 7.964e-06,
      "loss": 0.1239,
      "num_tokens": 4444611.0,
      "reward": 2.9266998767852783,
      "reward_std": 0.650079607963562,
      "rewards/reward_fn/mean": 2.9266998767852783,
      "rewards/reward_fn/std": 0.6500796675682068,
      "step": 91
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1358.0,
      "completions/mean_length": 721.9375,
      "completions/mean_terminated_length": 584.7586059570312,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.009759202291290972,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.014051761128939688,
      "learning_rate": 7.9636e-06,
      "loss": 0.2817,
      "num_tokens": 4517121.0,
      "reward": 2.6343460083007812,
      "reward_std": 1.013836145401001,
      "rewards/reward_fn/mean": 2.6343460083007812,
      "rewards/reward_fn/std": 1.013836145401001,
      "step": 92
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1004.0,
      "completions/max_terminated_length": 1004.0,
      "completions/mean_length": 215.28125,
      "completions/mean_terminated_length": 215.28125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.009865280577065875,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.02322612050920725,
      "learning_rate": 7.963199999999999e-06,
      "loss": 0.2232,
      "num_tokens": 4553546.0,
      "reward": 3.925776481628418,
      "reward_std": 0.41987186670303345,
      "rewards/reward_fn/mean": 3.925776481628418,
      "rewards/reward_fn/std": 0.41987186670303345,
      "step": 93
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1399.0,
      "completions/mean_length": 771.09375,
      "completions/mean_terminated_length": 639.0,
      "completions/min_length": 438.0,
      "completions/min_terminated_length": 438.0,
      "epoch": 0.009971358862840776,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.013376953662373126,
      "learning_rate": 7.9628e-06,
      "loss": 0.2941,
      "num_tokens": 4608653.0,
      "reward": 2.248654365539551,
      "reward_std": 0.8817570805549622,
      "rewards/reward_fn/mean": 2.248654365539551,
      "rewards/reward_fn/std": 0.8817570805549622,
      "step": 94
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1296.0,
      "completions/max_terminated_length": 1296.0,
      "completions/mean_length": 284.0625,
      "completions/mean_terminated_length": 284.0625,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.010077437148615679,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.023674980737268925,
      "learning_rate": 7.962399999999999e-06,
      "loss": 0.1735,
      "num_tokens": 4647151.0,
      "reward": 3.8580751419067383,
      "reward_std": 0.5584725737571716,
      "rewards/reward_fn/mean": 3.8580751419067383,
      "rewards/reward_fn/std": 0.5584725737571716,
      "step": 95
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.21875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 1389.5625,
      "completions/mean_terminated_length": 1205.199951171875,
      "completions/min_length": 511.0,
      "completions/min_terminated_length": 511.0,
      "epoch": 0.01018351543439058,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.6640625,
      "kl": 0.007312611152883619,
      "learning_rate": 7.962e-06,
      "loss": 0.1159,
      "num_tokens": 4724609.0,
      "reward": 1.842115879058838,
      "reward_std": 0.8588997721672058,
      "rewards/reward_fn/mean": 1.842115879058838,
      "rewards/reward_fn/std": 0.8588997721672058,
      "step": 96
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 535.0,
      "completions/max_terminated_length": 535.0,
      "completions/mean_length": 259.625,
      "completions/mean_terminated_length": 259.625,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.010289593720165482,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.024402482667937875,
      "learning_rate": 7.9616e-06,
      "loss": -0.0928,
      "num_tokens": 4767957.0,
      "reward": 3.3132870197296143,
      "reward_std": 0.9708902835845947,
      "rewards/reward_fn/mean": 3.3132870197296143,
      "rewards/reward_fn/std": 0.9708903431892395,
      "step": 97
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1990.0,
      "completions/mean_length": 894.5,
      "completions/mean_terminated_length": 817.6000366210938,
      "completions/min_length": 413.0,
      "completions/min_terminated_length": 413.0,
      "epoch": 0.010395672005940384,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.91015625,
      "kl": 0.00991345732472837,
      "learning_rate": 7.9612e-06,
      "loss": 0.1967,
      "num_tokens": 4841413.0,
      "reward": 2.7717971801757812,
      "reward_std": 1.1707860231399536,
      "rewards/reward_fn/mean": 2.7717971801757812,
      "rewards/reward_fn/std": 1.1707861423492432,
      "step": 98
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 496.0,
      "completions/mean_terminated_length": 445.93548583984375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.010501750291715286,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.016304848017171025,
      "learning_rate": 7.9608e-06,
      "loss": 0.2749,
      "num_tokens": 4894405.0,
      "reward": 2.716887950897217,
      "reward_std": 0.5000027418136597,
      "rewards/reward_fn/mean": 2.716887950897217,
      "rewards/reward_fn/std": 0.5000027418136597,
      "step": 99
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 444.0,
      "completions/max_terminated_length": 444.0,
      "completions/mean_length": 207.90625,
      "completions/mean_terminated_length": 207.90625,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.010607828577490187,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.02409674203954637,
      "learning_rate": 7.9604e-06,
      "loss": -0.0608,
      "num_tokens": 4929506.0,
      "reward": 3.7197184562683105,
      "reward_std": 0.753462016582489,
      "rewards/reward_fn/mean": 3.7197184562683105,
      "rewards/reward_fn/std": 0.753462016582489,
      "step": 100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1949.0,
      "completions/max_terminated_length": 1949.0,
      "completions/mean_length": 374.3125,
      "completions/mean_terminated_length": 374.3125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.01071390686326509,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.062255859375,
      "kl": 0.015362917329184711,
      "learning_rate": 7.96e-06,
      "loss": 0.0006,
      "num_tokens": 4983948.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1179.0,
      "completions/max_terminated_length": 1179.0,
      "completions/mean_length": 286.6875,
      "completions/mean_terminated_length": 286.6875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.010819985149039991,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.024223619606345892,
      "learning_rate": 7.959599999999999e-06,
      "loss": -0.098,
      "num_tokens": 5024674.0,
      "reward": 3.859476089477539,
      "reward_std": 0.5529555678367615,
      "rewards/reward_fn/mean": 3.859476089477539,
      "rewards/reward_fn/std": 0.5529556274414062,
      "step": 102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 381.0,
      "completions/max_terminated_length": 381.0,
      "completions/mean_length": 120.125,
      "completions/mean_terminated_length": 120.125,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.010926063434814894,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.134765625,
      "kl": 0.017856702557764947,
      "learning_rate": 7.9592e-06,
      "loss": 0.0007,
      "num_tokens": 5048390.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1339.0,
      "completions/max_terminated_length": 1339.0,
      "completions/mean_length": 322.15625,
      "completions/mean_terminated_length": 322.15625,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.011032141720589795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.019808009383268654,
      "learning_rate": 7.958799999999999e-06,
      "loss": 0.0437,
      "num_tokens": 5113899.0,
      "reward": 2.8031535148620605,
      "reward_std": 0.21395450830459595,
      "rewards/reward_fn/mean": 2.8031535148620605,
      "rewards/reward_fn/std": 0.21395452320575714,
      "step": 104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 196.0,
      "completions/mean_terminated_length": 196.0,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.011138220006364698,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.02260214788839221,
      "learning_rate": 7.9584e-06,
      "loss": -0.1233,
      "num_tokens": 5136651.0,
      "reward": 3.3392744064331055,
      "reward_std": 0.32503390312194824,
      "rewards/reward_fn/mean": 3.3392744064331055,
      "rewards/reward_fn/std": 0.32503387331962585,
      "step": 105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 440.0,
      "completions/mean_length": 286.78125,
      "completions/mean_terminated_length": 229.9677276611328,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.011244298292139599,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.022181879496201873,
      "learning_rate": 7.957999999999999e-06,
      "loss": 0.1931,
      "num_tokens": 5181188.0,
      "reward": 3.0173768997192383,
      "reward_std": 0.9120379686355591,
      "rewards/reward_fn/mean": 3.0173768997192383,
      "rewards/reward_fn/std": 0.9120379686355591,
      "step": 106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.0,
      "completions/max_terminated_length": 361.0,
      "completions/mean_length": 236.4375,
      "completions/mean_terminated_length": 236.4375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.011350376577914502,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.01876313250977546,
      "learning_rate": 7.9576e-06,
      "loss": 0.0321,
      "num_tokens": 5225106.0,
      "reward": 3.034740924835205,
      "reward_std": 0.38066956400871277,
      "rewards/reward_fn/mean": 3.034740924835205,
      "rewards/reward_fn/std": 0.38066956400871277,
      "step": 107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 105.0,
      "completions/max_terminated_length": 105.0,
      "completions/mean_length": 72.40625,
      "completions/mean_terminated_length": 72.40625,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "epoch": 0.011456454863689403,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.318359375,
      "kl": 0.02579229767434299,
      "learning_rate": 7.9572e-06,
      "loss": 0.001,
      "num_tokens": 5262239.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1813.0,
      "completions/mean_length": 1036.21875,
      "completions/mean_terminated_length": 891.6785888671875,
      "completions/min_length": 449.0,
      "completions/min_terminated_length": 449.0,
      "epoch": 0.011562533149464305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1015625,
      "kl": 0.008434178889729083,
      "learning_rate": 7.9568e-06,
      "loss": 0.215,
      "num_tokens": 5321798.0,
      "reward": 1.9139066934585571,
      "reward_std": 0.8915742635726929,
      "rewards/reward_fn/mean": 1.9139066934585571,
      "rewards/reward_fn/std": 0.8915743231773376,
      "step": 109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 780.0,
      "completions/max_terminated_length": 780.0,
      "completions/mean_length": 330.4375,
      "completions/mean_terminated_length": 330.4375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.011668611435239206,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07470703125,
      "kl": 0.013277154648676515,
      "learning_rate": 7.9564e-06,
      "loss": 0.0005,
      "num_tokens": 5368276.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1607.0,
      "completions/mean_length": 427.03125,
      "completions/mean_terminated_length": 374.7419128417969,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.01177468972101411,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.01534812489990145,
      "learning_rate": 7.956e-06,
      "loss": 0.0793,
      "num_tokens": 5413205.0,
      "reward": 3.095240592956543,
      "reward_std": 1.05535888671875,
      "rewards/reward_fn/mean": 3.095240592956543,
      "rewards/reward_fn/std": 1.05535888671875,
      "step": 111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 673.0,
      "completions/max_terminated_length": 673.0,
      "completions/mean_length": 293.96875,
      "completions/mean_terminated_length": 293.96875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.01188076800678901,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.017015320365317166,
      "learning_rate": 7.955599999999999e-06,
      "loss": 0.0992,
      "num_tokens": 5466292.0,
      "reward": 2.8189077377319336,
      "reward_std": 0.3456776738166809,
      "rewards/reward_fn/mean": 2.8189077377319336,
      "rewards/reward_fn/std": 0.3456777334213257,
      "step": 112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1115.0,
      "completions/mean_length": 502.71875,
      "completions/mean_terminated_length": 452.8709411621094,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.011986846292563913,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.012012695078738034,
      "learning_rate": 7.9552e-06,
      "loss": 0.2114,
      "num_tokens": 5520395.0,
      "reward": 3.8103599548339844,
      "reward_std": 0.5348771214485168,
      "rewards/reward_fn/mean": 3.8103599548339844,
      "rewards/reward_fn/std": 0.5348771810531616,
      "step": 113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 400.0,
      "completions/max_terminated_length": 400.0,
      "completions/mean_length": 134.46875,
      "completions/mean_terminated_length": 134.46875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.012092924578338814,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.018360009300522506,
      "learning_rate": 7.954799999999999e-06,
      "loss": 0.0659,
      "num_tokens": 5561658.0,
      "reward": 2.972559690475464,
      "reward_std": 0.11098479479551315,
      "rewards/reward_fn/mean": 2.972559690475464,
      "rewards/reward_fn/std": 0.11098476499319077,
      "step": 114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1066.0,
      "completions/max_terminated_length": 1066.0,
      "completions/mean_length": 480.03125,
      "completions/mean_terminated_length": 480.03125,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.012199002864113715,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.01176215277519077,
      "learning_rate": 7.9544e-06,
      "loss": 0.0591,
      "num_tokens": 5620795.0,
      "reward": 2.763178825378418,
      "reward_std": 0.8988648653030396,
      "rewards/reward_fn/mean": 2.763178825378418,
      "rewards/reward_fn/std": 0.8988648653030396,
      "step": 115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1965.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 537.3125,
      "completions/mean_terminated_length": 537.3125,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.012305081149888618,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.011784568894654512,
      "learning_rate": 7.953999999999999e-06,
      "loss": 0.0149,
      "num_tokens": 5675109.0,
      "reward": 2.534766674041748,
      "reward_std": 0.42342138290405273,
      "rewards/reward_fn/mean": 2.534766674041748,
      "rewards/reward_fn/std": 0.42342138290405273,
      "step": 116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 727.0,
      "completions/mean_length": 521.15625,
      "completions/mean_terminated_length": 471.9031982421875,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.012411159435663519,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.012846595840528607,
      "learning_rate": 7.9536e-06,
      "loss": 0.1451,
      "num_tokens": 5734314.0,
      "reward": 2.8016586303710938,
      "reward_std": 0.7866551280021667,
      "rewards/reward_fn/mean": 2.8016586303710938,
      "rewards/reward_fn/std": 0.786655068397522,
      "step": 117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 553.0,
      "completions/max_terminated_length": 553.0,
      "completions/mean_length": 257.0625,
      "completions/mean_terminated_length": 257.0625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.012517237721438422,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.015249886200763285,
      "learning_rate": 7.953199999999999e-06,
      "loss": -0.0325,
      "num_tokens": 5776108.0,
      "reward": 2.9798991680145264,
      "reward_std": 0.4480231702327728,
      "rewards/reward_fn/mean": 2.9798991680145264,
      "rewards/reward_fn/std": 0.44802314043045044,
      "step": 118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1529.0,
      "completions/max_terminated_length": 1529.0,
      "completions/mean_length": 494.28125,
      "completions/mean_terminated_length": 494.28125,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.012623316007213323,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.0132115458836779,
      "learning_rate": 7.9528e-06,
      "loss": 0.1698,
      "num_tokens": 5824181.0,
      "reward": 2.8119354248046875,
      "reward_std": 0.21195653080940247,
      "rewards/reward_fn/mean": 2.8119354248046875,
      "rewards/reward_fn/std": 0.21195654571056366,
      "step": 119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 460.0,
      "completions/max_terminated_length": 460.0,
      "completions/mean_length": 195.0625,
      "completions/mean_terminated_length": 195.0625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.012729394292988225,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0830078125,
      "kl": 0.017341266619041562,
      "learning_rate": 7.9524e-06,
      "loss": 0.0007,
      "num_tokens": 5861367.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 641.0,
      "completions/mean_length": 320.6875,
      "completions/mean_terminated_length": 264.9677429199219,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.012835472578763127,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.0184562795329839,
      "learning_rate": 7.952e-06,
      "loss": 0.3139,
      "num_tokens": 5906125.0,
      "reward": 3.835097312927246,
      "reward_std": 0.7352915406227112,
      "rewards/reward_fn/mean": 3.835097312927246,
      "rewards/reward_fn/std": 0.7352915406227112,
      "step": 121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 598.0,
      "completions/max_terminated_length": 598.0,
      "completions/mean_length": 272.3125,
      "completions/mean_terminated_length": 272.3125,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.01294155086453803,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06982421875,
      "kl": 0.015007280395366251,
      "learning_rate": 7.9516e-06,
      "loss": 0.0006,
      "num_tokens": 5931671.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/max_terminated_length": 320.0,
      "completions/mean_length": 192.625,
      "completions/mean_terminated_length": 192.625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.01304762915031293,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08544921875,
      "kl": 0.017203714582137764,
      "learning_rate": 7.9512e-06,
      "loss": 0.0007,
      "num_tokens": 5973867.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 868.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 295.5625,
      "completions/mean_terminated_length": 295.5625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.013153707436087833,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.015582025167532265,
      "learning_rate": 7.9508e-06,
      "loss": 0.0483,
      "num_tokens": 6008669.0,
      "reward": 3.4704294204711914,
      "reward_std": 0.8120108246803284,
      "rewards/reward_fn/mean": 3.4704294204711914,
      "rewards/reward_fn/std": 0.8120108246803284,
      "step": 124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 878.0,
      "completions/max_terminated_length": 878.0,
      "completions/mean_length": 371.4375,
      "completions/mean_terminated_length": 371.4375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.013259785721862734,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.01567537139635533,
      "learning_rate": 7.9504e-06,
      "loss": 0.275,
      "num_tokens": 6067755.0,
      "reward": 3.2702126502990723,
      "reward_std": 0.5275013446807861,
      "rewards/reward_fn/mean": 3.2702126502990723,
      "rewards/reward_fn/std": 0.5275014042854309,
      "step": 125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1262.0,
      "completions/max_terminated_length": 1262.0,
      "completions/mean_length": 288.4375,
      "completions/mean_terminated_length": 288.4375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.013365864007637637,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.015237941057421267,
      "learning_rate": 7.95e-06,
      "loss": -0.0294,
      "num_tokens": 6137497.0,
      "reward": 2.747013568878174,
      "reward_std": 0.3507872223854065,
      "rewards/reward_fn/mean": 2.747013568878174,
      "rewards/reward_fn/std": 0.3507872223854065,
      "step": 126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 729.0,
      "completions/max_terminated_length": 729.0,
      "completions/mean_length": 136.0,
      "completions/mean_terminated_length": 136.0,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.013471942293412538,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.095703125,
      "kl": 0.017273012548685074,
      "learning_rate": 7.9496e-06,
      "loss": 0.0007,
      "num_tokens": 6171641.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1208.0,
      "completions/mean_length": 364.5,
      "completions/mean_terminated_length": 310.19354248046875,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.01357802057918744,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.016130903968587518,
      "learning_rate": 7.9492e-06,
      "loss": 0.2309,
      "num_tokens": 6221065.0,
      "reward": 3.2581684589385986,
      "reward_std": 0.7389606833457947,
      "rewards/reward_fn/mean": 3.2581684589385986,
      "rewards/reward_fn/std": 0.7389606833457947,
      "step": 128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.0,
      "completions/max_terminated_length": 467.0,
      "completions/mean_length": 158.875,
      "completions/mean_terminated_length": 158.875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.013684098864962342,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10595703125,
      "kl": 0.020700134336948395,
      "learning_rate": 7.9488e-06,
      "loss": 0.0008,
      "num_tokens": 6257413.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 259.0,
      "completions/max_terminated_length": 259.0,
      "completions/mean_length": 178.09375,
      "completions/mean_terminated_length": 178.09375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.013790177150737245,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.015618887031450868,
      "learning_rate": 7.9484e-06,
      "loss": 0.044,
      "num_tokens": 6303144.0,
      "reward": 3.203434944152832,
      "reward_std": 0.39366769790649414,
      "rewards/reward_fn/mean": 3.203434944152832,
      "rewards/reward_fn/std": 0.39366772770881653,
      "step": 130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1560.0,
      "completions/max_terminated_length": 1560.0,
      "completions/mean_length": 206.5625,
      "completions/mean_terminated_length": 206.5625,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.013896255436512146,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.020754429628141224,
      "learning_rate": 7.948e-06,
      "loss": 0.0881,
      "num_tokens": 6349914.0,
      "reward": 3.9251515865325928,
      "reward_std": 0.42340630292892456,
      "rewards/reward_fn/mean": 3.9251515865325928,
      "rewards/reward_fn/std": 0.42340633273124695,
      "step": 131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 951.0,
      "completions/mean_length": 586.65625,
      "completions/mean_terminated_length": 539.51611328125,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.014002333722287048,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.016077990061603487,
      "learning_rate": 7.9476e-06,
      "loss": 0.1381,
      "num_tokens": 6405231.0,
      "reward": 2.754066228866577,
      "reward_std": 0.8537517189979553,
      "rewards/reward_fn/mean": 2.754066228866577,
      "rewards/reward_fn/std": 0.8537517189979553,
      "step": 132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 824.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 368.90625,
      "completions/mean_terminated_length": 368.90625,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.01410841200806195,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.021284001879394054,
      "learning_rate": 7.947199999999999e-06,
      "loss": -0.0086,
      "num_tokens": 6432524.0,
      "reward": 2.1652965545654297,
      "reward_std": 0.8815619945526123,
      "rewards/reward_fn/mean": 2.1652965545654297,
      "rewards/reward_fn/std": 0.8815619945526123,
      "step": 133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 192.0,
      "completions/max_terminated_length": 192.0,
      "completions/mean_length": 113.1875,
      "completions/mean_terminated_length": 113.1875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.014214490293836852,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.75,
      "kl": 0.020680560497567058,
      "learning_rate": 7.9468e-06,
      "loss": 0.0047,
      "num_tokens": 6471026.0,
      "reward": 3.8417961597442627,
      "reward_std": 0.37386056780815125,
      "rewards/reward_fn/mean": 3.8417961597442627,
      "rewards/reward_fn/std": 0.37386056780815125,
      "step": 134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 744.0,
      "completions/max_terminated_length": 744.0,
      "completions/mean_length": 262.75,
      "completions/mean_terminated_length": 262.75,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.014320568579611753,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.023233756190165877,
      "learning_rate": 7.946399999999999e-06,
      "loss": 0.0785,
      "num_tokens": 6510890.0,
      "reward": 2.3463985919952393,
      "reward_std": 0.588642418384552,
      "rewards/reward_fn/mean": 2.3463985919952393,
      "rewards/reward_fn/std": 0.5886423587799072,
      "step": 135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 567.0,
      "completions/max_terminated_length": 567.0,
      "completions/mean_length": 202.375,
      "completions/mean_terminated_length": 202.375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.014426646865386656,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11474609375,
      "kl": 0.02503801044076681,
      "learning_rate": 7.946e-06,
      "loss": 0.001,
      "num_tokens": 6554230.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 234.71875,
      "completions/mean_terminated_length": 234.71875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.014532725151161557,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.024327925639227033,
      "learning_rate": 7.945599999999999e-06,
      "loss": 0.0013,
      "num_tokens": 6596909.0,
      "reward": 3.922415256500244,
      "reward_std": 0.3053688704967499,
      "rewards/reward_fn/mean": 3.922415256500244,
      "rewards/reward_fn/std": 0.3053688704967499,
      "step": 137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 459.625,
      "completions/mean_terminated_length": 459.625,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.01463880343693646,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.018823521910235286,
      "learning_rate": 7.9452e-06,
      "loss": -0.0468,
      "num_tokens": 6642881.0,
      "reward": 2.581930637359619,
      "reward_std": 0.4790569543838501,
      "rewards/reward_fn/mean": 2.581930637359619,
      "rewards/reward_fn/std": 0.4790569543838501,
      "step": 138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1106.0,
      "completions/max_terminated_length": 1106.0,
      "completions/mean_length": 382.875,
      "completions/mean_terminated_length": 382.875,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.01474488172271136,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2421875,
      "kl": 0.018572077504359186,
      "learning_rate": 7.944799999999999e-06,
      "loss": 0.0251,
      "num_tokens": 6690941.0,
      "reward": 2.7523913383483887,
      "reward_std": 0.3522571325302124,
      "rewards/reward_fn/mean": 2.7523913383483887,
      "rewards/reward_fn/std": 0.3522571325302124,
      "step": 139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 456.0,
      "completions/max_terminated_length": 456.0,
      "completions/mean_length": 182.21875,
      "completions/mean_terminated_length": 182.21875,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.014850960008486264,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.65625,
      "kl": 0.030267908703535795,
      "learning_rate": 7.9444e-06,
      "loss": 0.0821,
      "num_tokens": 6738724.0,
      "reward": 3.928792953491211,
      "reward_std": 0.28060102462768555,
      "rewards/reward_fn/mean": 3.928792953491211,
      "rewards/reward_fn/std": 0.28060105443000793,
      "step": 140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 267.0,
      "completions/max_terminated_length": 267.0,
      "completions/mean_length": 132.21875,
      "completions/mean_terminated_length": 132.21875,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.014957038294261165,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.024672939674928784,
      "learning_rate": 7.943999999999999e-06,
      "loss": 0.0751,
      "num_tokens": 6791531.0,
      "reward": 3.088392734527588,
      "reward_std": 0.07315707951784134,
      "rewards/reward_fn/mean": 3.088392734527588,
      "rewards/reward_fn/std": 0.07315707206726074,
      "step": 141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1805.0,
      "completions/mean_length": 516.71875,
      "completions/mean_terminated_length": 467.32257080078125,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.015063116580036067,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.02176033239811659,
      "learning_rate": 7.9436e-06,
      "loss": 0.1231,
      "num_tokens": 6842882.0,
      "reward": 2.3468077182769775,
      "reward_std": 0.5988110303878784,
      "rewards/reward_fn/mean": 2.3468077182769775,
      "rewards/reward_fn/std": 0.5988109707832336,
      "step": 142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1190.0,
      "completions/max_terminated_length": 1190.0,
      "completions/mean_length": 387.9375,
      "completions/mean_terminated_length": 387.9375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.015169194865810968,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.019691342720761895,
      "learning_rate": 7.9432e-06,
      "loss": -0.0128,
      "num_tokens": 6889664.0,
      "reward": 2.8758623600006104,
      "reward_std": 0.4385010898113251,
      "rewards/reward_fn/mean": 2.8758623600006104,
      "rewards/reward_fn/std": 0.4385010302066803,
      "step": 143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/max_terminated_length": 273.0,
      "completions/mean_length": 178.21875,
      "completions/mean_terminated_length": 178.21875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.01527527315158587,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.02775087859481573,
      "learning_rate": 7.9428e-06,
      "loss": -0.0002,
      "num_tokens": 6924935.0,
      "reward": 3.926584482192993,
      "reward_std": 0.4153006076812744,
      "rewards/reward_fn/mean": 3.926584482192993,
      "rewards/reward_fn/std": 0.4153006076812744,
      "step": 144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 491.0,
      "completions/max_terminated_length": 491.0,
      "completions/mean_length": 266.15625,
      "completions/mean_terminated_length": 266.15625,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.015381351437360772,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.018933446379378438,
      "learning_rate": 7.9424e-06,
      "loss": 0.0199,
      "num_tokens": 6971724.0,
      "reward": 3.3563008308410645,
      "reward_std": 0.718804121017456,
      "rewards/reward_fn/mean": 3.3563008308410645,
      "rewards/reward_fn/std": 0.7188041806221008,
      "step": 145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 384.0,
      "completions/max_terminated_length": 384.0,
      "completions/mean_length": 217.125,
      "completions/mean_terminated_length": 217.125,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.015487429723135673,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.022704745642840862,
      "learning_rate": 7.942e-06,
      "loss": -0.0131,
      "num_tokens": 7016752.0,
      "reward": 3.190145492553711,
      "reward_std": 0.38979148864746094,
      "rewards/reward_fn/mean": 3.190145492553711,
      "rewards/reward_fn/std": 0.3897915184497833,
      "step": 146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 975.0,
      "completions/max_terminated_length": 975.0,
      "completions/mean_length": 236.46875,
      "completions/mean_terminated_length": 236.46875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.015593508008910576,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.02000652300193906,
      "learning_rate": 7.9416e-06,
      "loss": 0.0635,
      "num_tokens": 7061183.0,
      "reward": 2.778085947036743,
      "reward_std": 0.029853839427232742,
      "rewards/reward_fn/mean": 2.778085947036743,
      "rewards/reward_fn/std": 0.029853837564587593,
      "step": 147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 807.0,
      "completions/mean_length": 550.25,
      "completions/mean_terminated_length": 501.9354553222656,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.01569958629468548,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.01610812882427126,
      "learning_rate": 7.9412e-06,
      "loss": 0.21,
      "num_tokens": 7120551.0,
      "reward": 2.2802534103393555,
      "reward_std": 0.6225919127464294,
      "rewards/reward_fn/mean": 2.2802534103393555,
      "rewards/reward_fn/std": 0.6225919127464294,
      "step": 148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 415.0,
      "completions/max_terminated_length": 415.0,
      "completions/mean_length": 143.875,
      "completions/mean_terminated_length": 143.875,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.015805664580460378,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2138671875,
      "kl": 0.03147526946850121,
      "learning_rate": 7.9408e-06,
      "loss": 0.0013,
      "num_tokens": 7158307.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 276.0,
      "completions/max_terminated_length": 276.0,
      "completions/mean_length": 154.375,
      "completions/mean_terminated_length": 154.375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.01591174286623528,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.134765625,
      "kl": 0.0251955462154001,
      "learning_rate": 7.9404e-06,
      "loss": 0.001,
      "num_tokens": 7191407.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 681.0,
      "completions/max_terminated_length": 681.0,
      "completions/mean_length": 313.90625,
      "completions/mean_terminated_length": 313.90625,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.016017821152010184,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.022513336036354303,
      "learning_rate": 7.94e-06,
      "loss": 0.091,
      "num_tokens": 7234572.0,
      "reward": 3.6232008934020996,
      "reward_std": 0.6518265008926392,
      "rewards/reward_fn/mean": 3.6232008934020996,
      "rewards/reward_fn/std": 0.6518264412879944,
      "step": 151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1814.0,
      "completions/mean_length": 531.8125,
      "completions/mean_terminated_length": 482.9031982421875,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.016123899437785087,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.020188245456665754,
      "learning_rate": 7.9396e-06,
      "loss": 0.2049,
      "num_tokens": 7288454.0,
      "reward": 2.797072410583496,
      "reward_std": 0.6213882565498352,
      "rewards/reward_fn/mean": 2.797072410583496,
      "rewards/reward_fn/std": 0.6213882565498352,
      "step": 152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 952.0,
      "completions/max_terminated_length": 952.0,
      "completions/mean_length": 268.0,
      "completions/mean_terminated_length": 268.0,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.016229977723559986,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.021411948837339878,
      "learning_rate": 7.939199999999998e-06,
      "loss": 0.2013,
      "num_tokens": 7330694.0,
      "reward": 3.8916516304016113,
      "reward_std": 0.44769445061683655,
      "rewards/reward_fn/mean": 3.8916516304016113,
      "rewards/reward_fn/std": 0.44769442081451416,
      "step": 153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 388.0,
      "completions/max_terminated_length": 388.0,
      "completions/mean_length": 202.1875,
      "completions/mean_terminated_length": 202.1875,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.01633605600933489,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.02316540782339871,
      "learning_rate": 7.9388e-06,
      "loss": 0.0752,
      "num_tokens": 7365740.0,
      "reward": 2.775660753250122,
      "reward_std": 0.2788248360157013,
      "rewards/reward_fn/mean": 2.775660753250122,
      "rewards/reward_fn/std": 0.2788248360157013,
      "step": 154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 949.0,
      "completions/max_terminated_length": 949.0,
      "completions/mean_length": 270.6875,
      "completions/mean_terminated_length": 270.6875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.01644213429510979,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.023652152274735272,
      "learning_rate": 7.9384e-06,
      "loss": 0.1038,
      "num_tokens": 7415170.0,
      "reward": 3.3111374378204346,
      "reward_std": 0.525631308555603,
      "rewards/reward_fn/mean": 3.3111374378204346,
      "rewards/reward_fn/std": 0.525631308555603,
      "step": 155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 467.0,
      "completions/mean_length": 357.09375,
      "completions/mean_terminated_length": 302.5483703613281,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.016548212580884694,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.01592431077733636,
      "learning_rate": 7.938e-06,
      "loss": 0.2131,
      "num_tokens": 7480837.0,
      "reward": 3.85792875289917,
      "reward_std": 0.5590457320213318,
      "rewards/reward_fn/mean": 3.85792875289917,
      "rewards/reward_fn/std": 0.559045672416687,
      "step": 156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 458.0,
      "completions/max_terminated_length": 458.0,
      "completions/mean_length": 130.0625,
      "completions/mean_terminated_length": 130.0625,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.016654290866659593,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11962890625,
      "kl": 0.018957374268211424,
      "learning_rate": 7.9376e-06,
      "loss": 0.0008,
      "num_tokens": 7512743.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 245.0,
      "completions/max_terminated_length": 245.0,
      "completions/mean_length": 118.5625,
      "completions/mean_terminated_length": 118.5625,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.016760369152434496,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1455078125,
      "kl": 0.02136626502033323,
      "learning_rate": 7.9372e-06,
      "loss": 0.0009,
      "num_tokens": 7547385.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 424.0,
      "completions/max_terminated_length": 424.0,
      "completions/mean_length": 287.78125,
      "completions/mean_terminated_length": 287.78125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.0168664474382094,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.022316091926768422,
      "learning_rate": 7.9368e-06,
      "loss": 0.0682,
      "num_tokens": 7590034.0,
      "reward": 2.9934346675872803,
      "reward_std": 0.05143573135137558,
      "rewards/reward_fn/mean": 2.9934346675872803,
      "rewards/reward_fn/std": 0.05143576115369797,
      "step": 159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 973.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 363.21875,
      "completions/mean_terminated_length": 363.21875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.016972525723984302,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.019301145221106708,
      "learning_rate": 7.936399999999999e-06,
      "loss": 0.0424,
      "num_tokens": 7631033.0,
      "reward": 2.5955896377563477,
      "reward_std": 0.4019843637943268,
      "rewards/reward_fn/mean": 2.5955896377563477,
      "rewards/reward_fn/std": 0.40198445320129395,
      "step": 160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 892.0,
      "completions/max_terminated_length": 892.0,
      "completions/mean_length": 253.625,
      "completions/mean_terminated_length": 253.625,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.0170786040097592,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.296875,
      "kl": 0.023140242788940668,
      "learning_rate": 7.936e-06,
      "loss": -0.2224,
      "num_tokens": 7667917.0,
      "reward": 1.8273133039474487,
      "reward_std": 0.1830357313156128,
      "rewards/reward_fn/mean": 1.8273133039474487,
      "rewards/reward_fn/std": 0.1830357015132904,
      "step": 161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1130.0,
      "completions/max_terminated_length": 1130.0,
      "completions/mean_length": 290.78125,
      "completions/mean_terminated_length": 290.78125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.017184682295534104,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.018885845551267266,
      "learning_rate": 7.935599999999999e-06,
      "loss": -0.072,
      "num_tokens": 7708902.0,
      "reward": 2.6470470428466797,
      "reward_std": 0.04726897180080414,
      "rewards/reward_fn/mean": 2.6470470428466797,
      "rewards/reward_fn/std": 0.04726899042725563,
      "step": 162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 208.0,
      "completions/max_terminated_length": 208.0,
      "completions/mean_length": 121.34375,
      "completions/mean_terminated_length": 121.34375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.017290760581309007,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0849609375,
      "kl": 0.014050235971808434,
      "learning_rate": 7.9352e-06,
      "loss": 0.0006,
      "num_tokens": 7754129.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.0,
      "completions/max_terminated_length": 609.0,
      "completions/mean_length": 308.71875,
      "completions/mean_terminated_length": 308.71875,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.01739683886708391,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.421875,
      "kl": 0.015304000582545996,
      "learning_rate": 7.934799999999999e-06,
      "loss": -0.0026,
      "num_tokens": 7799112.0,
      "reward": 3.7717292308807373,
      "reward_std": 0.6454416513442993,
      "rewards/reward_fn/mean": 3.7717292308807373,
      "rewards/reward_fn/std": 0.6454416513442993,
      "step": 164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 459.0,
      "completions/max_terminated_length": 459.0,
      "completions/mean_length": 252.4375,
      "completions/mean_terminated_length": 252.4375,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.01750291715285881,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02483147452585399,
      "learning_rate": 7.9344e-06,
      "loss": -0.0213,
      "num_tokens": 7819094.0,
      "reward": 3.130520820617676,
      "reward_std": 0.9921421408653259,
      "rewards/reward_fn/mean": 3.130520820617676,
      "rewards/reward_fn/std": 0.9921420812606812,
      "step": 165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 998.0,
      "completions/max_terminated_length": 998.0,
      "completions/mean_length": 252.5,
      "completions/mean_terminated_length": 252.5,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.01760899543863371,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.022684934083372355,
      "learning_rate": 7.934e-06,
      "loss": 0.1033,
      "num_tokens": 7873542.0,
      "reward": 2.9395103454589844,
      "reward_std": 0.25097665190696716,
      "rewards/reward_fn/mean": 2.9395103454589844,
      "rewards/reward_fn/std": 0.2509766221046448,
      "step": 166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 96.8125,
      "completions/mean_terminated_length": 96.8125,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.017715073724408614,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.142578125,
      "kl": 0.020881250500679016,
      "learning_rate": 7.9336e-06,
      "loss": 0.0008,
      "num_tokens": 7918592.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 942.0,
      "completions/max_terminated_length": 942.0,
      "completions/mean_length": 353.75,
      "completions/mean_terminated_length": 353.75,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.017821152010183517,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.01776517287362367,
      "learning_rate": 7.9332e-06,
      "loss": 0.2052,
      "num_tokens": 7965880.0,
      "reward": 2.8560633659362793,
      "reward_std": 0.4875142276287079,
      "rewards/reward_fn/mean": 2.8560633659362793,
      "rewards/reward_fn/std": 0.4875142276287079,
      "step": 168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 744.0,
      "completions/max_terminated_length": 744.0,
      "completions/mean_length": 256.875,
      "completions/mean_terminated_length": 256.875,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.017927230295958416,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.022131944191642106,
      "learning_rate": 7.9328e-06,
      "loss": -0.0649,
      "num_tokens": 8018580.0,
      "reward": 3.7245075702667236,
      "reward_std": 0.8427301645278931,
      "rewards/reward_fn/mean": 3.7245075702667236,
      "rewards/reward_fn/std": 0.8427301645278931,
      "step": 169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 744.0,
      "completions/max_terminated_length": 744.0,
      "completions/mean_length": 441.9375,
      "completions/mean_terminated_length": 441.9375,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.01803330858173332,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.01810378080699593,
      "learning_rate": 7.9324e-06,
      "loss": -0.0885,
      "num_tokens": 8068722.0,
      "reward": 2.511117458343506,
      "reward_std": 0.7322016954421997,
      "rewards/reward_fn/mean": 2.511117458343506,
      "rewards/reward_fn/std": 0.7322016954421997,
      "step": 170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1183.0,
      "completions/max_terminated_length": 1183.0,
      "completions/mean_length": 209.9375,
      "completions/mean_terminated_length": 209.9375,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.018139386867508222,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.484375,
      "kl": 0.024077138165012002,
      "learning_rate": 7.932e-06,
      "loss": -0.0054,
      "num_tokens": 8116656.0,
      "reward": 3.855273723602295,
      "reward_std": 0.48421603441238403,
      "rewards/reward_fn/mean": 3.855273723602295,
      "rewards/reward_fn/std": 0.48421603441238403,
      "step": 171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 135.625,
      "completions/mean_terminated_length": 135.625,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.01824546515328312,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1083984375,
      "kl": 0.025709635578095913,
      "learning_rate": 7.9316e-06,
      "loss": 0.001,
      "num_tokens": 8152516.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 547.0,
      "completions/max_terminated_length": 547.0,
      "completions/mean_length": 241.5,
      "completions/mean_terminated_length": 241.5,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.018351543439058024,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.02147727902047336,
      "learning_rate": 7.9312e-06,
      "loss": -0.0254,
      "num_tokens": 8200052.0,
      "reward": 3.6303017139434814,
      "reward_std": 0.5629006028175354,
      "rewards/reward_fn/mean": 3.6303017139434814,
      "rewards/reward_fn/std": 0.5629005432128906,
      "step": 173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 296.0,
      "completions/max_terminated_length": 296.0,
      "completions/mean_length": 215.0625,
      "completions/mean_terminated_length": 215.0625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.018457621724832927,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.015550489188171923,
      "learning_rate": 7.930799999999999e-06,
      "loss": -0.0056,
      "num_tokens": 8245206.0,
      "reward": 3.894169330596924,
      "reward_std": 0.4359620213508606,
      "rewards/reward_fn/mean": 3.894169330596924,
      "rewards/reward_fn/std": 0.4359620213508606,
      "step": 174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/max_terminated_length": 298.0,
      "completions/mean_length": 182.34375,
      "completions/mean_terminated_length": 182.34375,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.01856370001060783,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.018534490489400923,
      "learning_rate": 7.9304e-06,
      "loss": -0.0642,
      "num_tokens": 8285089.0,
      "reward": 3.3171892166137695,
      "reward_std": 0.22977031767368317,
      "rewards/reward_fn/mean": 3.3171892166137695,
      "rewards/reward_fn/std": 0.2297702431678772,
      "step": 175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 248.0,
      "completions/max_terminated_length": 248.0,
      "completions/mean_length": 158.03125,
      "completions/mean_terminated_length": 158.03125,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.01866977829638273,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.01954884792212397,
      "learning_rate": 7.929999999999999e-06,
      "loss": -0.029,
      "num_tokens": 8314050.0,
      "reward": 3.89382266998291,
      "reward_std": 0.33542728424072266,
      "rewards/reward_fn/mean": 3.89382266998291,
      "rewards/reward_fn/std": 0.33542731404304504,
      "step": 176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 256.0,
      "completions/max_terminated_length": 256.0,
      "completions/mean_length": 82.28125,
      "completions/mean_terminated_length": 82.28125,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.01877585658215763,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1689453125,
      "kl": 0.02278315497096628,
      "learning_rate": 7.9296e-06,
      "loss": 0.0009,
      "num_tokens": 8348715.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 582.0,
      "completions/max_terminated_length": 582.0,
      "completions/mean_length": 213.3125,
      "completions/mean_terminated_length": 213.3125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.018881934867932534,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.020352299557998776,
      "learning_rate": 7.9292e-06,
      "loss": 0.0348,
      "num_tokens": 8389077.0,
      "reward": 3.964296340942383,
      "reward_std": 0.2019711285829544,
      "rewards/reward_fn/mean": 3.964296340942383,
      "rewards/reward_fn/std": 0.2019711583852768,
      "step": 178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 245.90625,
      "completions/mean_terminated_length": 245.90625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.018988013153707437,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.01580990757793188,
      "learning_rate": 7.9288e-06,
      "loss": -0.0487,
      "num_tokens": 8435986.0,
      "reward": 3.861480712890625,
      "reward_std": 0.545066773891449,
      "rewards/reward_fn/mean": 3.861480712890625,
      "rewards/reward_fn/std": 0.545066773891449,
      "step": 179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/max_terminated_length": 284.0,
      "completions/mean_length": 145.4375,
      "completions/mean_terminated_length": 145.4375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.019094091439482336,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10888671875,
      "kl": 0.01902392355259508,
      "learning_rate": 7.9284e-06,
      "loss": 0.0008,
      "num_tokens": 8471936.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 254.0,
      "completions/max_terminated_length": 254.0,
      "completions/mean_length": 184.25,
      "completions/mean_terminated_length": 184.25,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.01920016972525724,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.022345099016092718,
      "learning_rate": 7.928e-06,
      "loss": -0.0118,
      "num_tokens": 8517768.0,
      "reward": 3.9072141647338867,
      "reward_std": 0.2347065657377243,
      "rewards/reward_fn/mean": 3.9072141647338867,
      "rewards/reward_fn/std": 0.2347065508365631,
      "step": 181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 227.0,
      "completions/max_terminated_length": 227.0,
      "completions/mean_length": 170.59375,
      "completions/mean_terminated_length": 170.59375,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.019306248011032142,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.022710592485964298,
      "learning_rate": 7.9276e-06,
      "loss": -0.0182,
      "num_tokens": 8545371.0,
      "reward": 3.7901389598846436,
      "reward_std": 0.6630701422691345,
      "rewards/reward_fn/mean": 3.7901389598846436,
      "rewards/reward_fn/std": 0.6630700826644897,
      "step": 182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1487.0,
      "completions/max_terminated_length": 1487.0,
      "completions/mean_length": 465.59375,
      "completions/mean_terminated_length": 465.59375,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.019412326296807045,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.017950538313016295,
      "learning_rate": 7.9272e-06,
      "loss": 0.1813,
      "num_tokens": 8598190.0,
      "reward": 2.7570290565490723,
      "reward_std": 0.33804285526275635,
      "rewards/reward_fn/mean": 2.7570290565490723,
      "rewards/reward_fn/std": 0.33804285526275635,
      "step": 183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 367.0,
      "completions/max_terminated_length": 367.0,
      "completions/mean_length": 183.375,
      "completions/mean_terminated_length": 183.375,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.019518404582581944,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.021848752396181226,
      "learning_rate": 7.9268e-06,
      "loss": -0.0899,
      "num_tokens": 8644410.0,
      "reward": 3.5412044525146484,
      "reward_std": 0.5812621116638184,
      "rewards/reward_fn/mean": 3.5412044525146484,
      "rewards/reward_fn/std": 0.5812621116638184,
      "step": 184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 518.0,
      "completions/max_terminated_length": 518.0,
      "completions/mean_length": 315.0,
      "completions/mean_terminated_length": 315.0,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.019624482868356847,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.017826329451054335,
      "learning_rate": 7.9264e-06,
      "loss": 0.0526,
      "num_tokens": 8683802.0,
      "reward": 2.4369404315948486,
      "reward_std": 0.47755300998687744,
      "rewards/reward_fn/mean": 2.4369404315948486,
      "rewards/reward_fn/std": 0.47755295038223267,
      "step": 185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1280.0,
      "completions/max_terminated_length": 1280.0,
      "completions/mean_length": 287.75,
      "completions/mean_terminated_length": 287.75,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.01973056115413175,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.015661925077438354,
      "learning_rate": 7.926e-06,
      "loss": -0.0674,
      "num_tokens": 8740626.0,
      "reward": 2.8808302879333496,
      "reward_std": 0.07162141054868698,
      "rewards/reward_fn/mean": 2.8808302879333496,
      "rewards/reward_fn/std": 0.07162139564752579,
      "step": 186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 492.0,
      "completions/max_terminated_length": 492.0,
      "completions/mean_length": 237.90625,
      "completions/mean_terminated_length": 237.90625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.019836639439906652,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.025629171170294285,
      "learning_rate": 7.925599999999999e-06,
      "loss": 0.0427,
      "num_tokens": 8785615.0,
      "reward": 3.9353818893432617,
      "reward_std": 0.25444263219833374,
      "rewards/reward_fn/mean": 3.9353818893432617,
      "rewards/reward_fn/std": 0.25444263219833374,
      "step": 187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 585.0,
      "completions/max_terminated_length": 585.0,
      "completions/mean_length": 217.75,
      "completions/mean_terminated_length": 217.75,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.019942717725681552,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.023751557571813464,
      "learning_rate": 7.9252e-06,
      "loss": 0.0619,
      "num_tokens": 8826823.0,
      "reward": 3.165792465209961,
      "reward_std": 0.08262227475643158,
      "rewards/reward_fn/mean": 3.165792465209961,
      "rewards/reward_fn/std": 0.08262225985527039,
      "step": 188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 974.0,
      "completions/max_terminated_length": 974.0,
      "completions/mean_length": 357.375,
      "completions/mean_terminated_length": 357.375,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.020048796011456455,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.014718591351993382,
      "learning_rate": 7.9248e-06,
      "loss": -0.0545,
      "num_tokens": 8860371.0,
      "reward": 3.8873002529144287,
      "reward_std": 0.35631558299064636,
      "rewards/reward_fn/mean": 3.8873002529144287,
      "rewards/reward_fn/std": 0.35631558299064636,
      "step": 189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 586.0,
      "completions/max_terminated_length": 586.0,
      "completions/mean_length": 393.5625,
      "completions/mean_terminated_length": 393.5625,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.020154874297231357,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.01423095993231982,
      "learning_rate": 7.9244e-06,
      "loss": 0.0451,
      "num_tokens": 8908069.0,
      "reward": 2.73614239692688,
      "reward_std": 0.17838501930236816,
      "rewards/reward_fn/mean": 2.73614239692688,
      "rewards/reward_fn/std": 0.17838500440120697,
      "step": 190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1880.0,
      "completions/max_terminated_length": 1880.0,
      "completions/mean_length": 583.5625,
      "completions/mean_terminated_length": 583.5625,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.02026095258300626,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.014432973344810307,
      "learning_rate": 7.924e-06,
      "loss": -0.0538,
      "num_tokens": 8964215.0,
      "reward": 2.671628713607788,
      "reward_std": 0.659324586391449,
      "rewards/reward_fn/mean": 2.671628713607788,
      "rewards/reward_fn/std": 0.659324586391449,
      "step": 191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 614.0,
      "completions/max_terminated_length": 614.0,
      "completions/mean_length": 149.53125,
      "completions/mean_terminated_length": 149.53125,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.02036703086878116,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09130859375,
      "kl": 0.016666988376528025,
      "learning_rate": 7.9236e-06,
      "loss": 0.0007,
      "num_tokens": 9010280.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 513.0,
      "completions/max_terminated_length": 513.0,
      "completions/mean_length": 169.75,
      "completions/mean_terminated_length": 169.75,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.020473109154556062,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0888671875,
      "kl": 0.022206315770745277,
      "learning_rate": 7.923199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 9037280.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.0,
      "completions/max_terminated_length": 554.0,
      "completions/mean_length": 176.96875,
      "completions/mean_terminated_length": 176.96875,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.020579187440330965,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11279296875,
      "kl": 0.023108911118470132,
      "learning_rate": 7.9228e-06,
      "loss": 0.0009,
      "num_tokens": 9063647.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 183.0,
      "completions/max_terminated_length": 183.0,
      "completions/mean_length": 92.46875,
      "completions/mean_terminated_length": 92.46875,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.020685265726105868,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.21875,
      "kl": 0.022209690301679075,
      "learning_rate": 7.922399999999999e-06,
      "loss": 0.0086,
      "num_tokens": 9101102.0,
      "reward": 3.0705783367156982,
      "reward_std": 0.04061302915215492,
      "rewards/reward_fn/mean": 3.0705783367156982,
      "rewards/reward_fn/std": 0.04061301052570343,
      "step": 195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1076.0,
      "completions/max_terminated_length": 1076.0,
      "completions/mean_length": 302.21875,
      "completions/mean_terminated_length": 302.21875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.020791344011880767,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.019014439545571804,
      "learning_rate": 7.922e-06,
      "loss": 0.0131,
      "num_tokens": 9131189.0,
      "reward": 3.8880209922790527,
      "reward_std": 0.35388144850730896,
      "rewards/reward_fn/mean": 3.8880209922790527,
      "rewards/reward_fn/std": 0.3538813889026642,
      "step": 196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 748.0,
      "completions/max_terminated_length": 748.0,
      "completions/mean_length": 282.78125,
      "completions/mean_terminated_length": 282.78125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.02089742229765567,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.01936782174743712,
      "learning_rate": 7.921599999999999e-06,
      "loss": 0.0349,
      "num_tokens": 9180334.0,
      "reward": 2.780134677886963,
      "reward_std": 0.2310194969177246,
      "rewards/reward_fn/mean": 2.780134677886963,
      "rewards/reward_fn/std": 0.231019526720047,
      "step": 197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 155.0,
      "completions/max_terminated_length": 155.0,
      "completions/mean_length": 101.21875,
      "completions/mean_terminated_length": 101.21875,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.021003500583430573,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.181640625,
      "kl": 0.0338819632306695,
      "learning_rate": 7.9212e-06,
      "loss": 0.0014,
      "num_tokens": 9226933.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 674.0,
      "completions/max_terminated_length": 674.0,
      "completions/mean_length": 237.3125,
      "completions/mean_terminated_length": 237.3125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.021109578869205475,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.0204662608448416,
      "learning_rate": 7.920799999999999e-06,
      "loss": 0.0692,
      "num_tokens": 9264927.0,
      "reward": 3.256192207336426,
      "reward_std": 0.5834986567497253,
      "rewards/reward_fn/mean": 3.256192207336426,
      "rewards/reward_fn/std": 0.5834985971450806,
      "step": 199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 852.0,
      "completions/max_terminated_length": 852.0,
      "completions/mean_length": 245.125,
      "completions/mean_terminated_length": 245.125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.021215657154980375,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.021983513375744224,
      "learning_rate": 7.9204e-06,
      "loss": 0.0059,
      "num_tokens": 9310723.0,
      "reward": 3.7263994216918945,
      "reward_std": 0.7355256080627441,
      "rewards/reward_fn/mean": 3.7263994216918945,
      "rewards/reward_fn/std": 0.7355256080627441,
      "step": 200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1724.0,
      "completions/max_terminated_length": 1724.0,
      "completions/mean_length": 385.3125,
      "completions/mean_terminated_length": 385.3125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.021321735440755277,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.017621309030801058,
      "learning_rate": 7.92e-06,
      "loss": -0.0468,
      "num_tokens": 9355341.0,
      "reward": 3.0219438076019287,
      "reward_std": 0.6457244157791138,
      "rewards/reward_fn/mean": 3.0219438076019287,
      "rewards/reward_fn/std": 0.6457244157791138,
      "step": 201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1825.0,
      "completions/max_terminated_length": 1825.0,
      "completions/mean_length": 460.375,
      "completions/mean_terminated_length": 460.375,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.02142781372653018,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.017469807295128703,
      "learning_rate": 7.9196e-06,
      "loss": 0.0556,
      "num_tokens": 9411481.0,
      "reward": 2.799130439758301,
      "reward_std": 0.6681373715400696,
      "rewards/reward_fn/mean": 2.799130439758301,
      "rewards/reward_fn/std": 0.6681373715400696,
      "step": 202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1390.0,
      "completions/max_terminated_length": 1390.0,
      "completions/mean_length": 471.875,
      "completions/mean_terminated_length": 471.875,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.02153389201230508,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.014571573003195226,
      "learning_rate": 7.9192e-06,
      "loss": -0.0191,
      "num_tokens": 9467445.0,
      "reward": 2.55147647857666,
      "reward_std": 0.5883057117462158,
      "rewards/reward_fn/mean": 2.55147647857666,
      "rewards/reward_fn/std": 0.5883057117462158,
      "step": 203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 577.0,
      "completions/max_terminated_length": 577.0,
      "completions/mean_length": 377.40625,
      "completions/mean_terminated_length": 377.40625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.021639970298079982,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.020812442991882563,
      "learning_rate": 7.9188e-06,
      "loss": 0.0307,
      "num_tokens": 9511202.0,
      "reward": 3.7836437225341797,
      "reward_std": 0.42160654067993164,
      "rewards/reward_fn/mean": 3.7836437225341797,
      "rewards/reward_fn/std": 0.4216066002845764,
      "step": 204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1126.0,
      "completions/max_terminated_length": 1126.0,
      "completions/mean_length": 341.8125,
      "completions/mean_terminated_length": 341.8125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.021746048583854885,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.019275061087682843,
      "learning_rate": 7.9184e-06,
      "loss": 0.009,
      "num_tokens": 9543420.0,
      "reward": 3.574246644973755,
      "reward_std": 0.8010706901550293,
      "rewards/reward_fn/mean": 3.574246644973755,
      "rewards/reward_fn/std": 0.8010706901550293,
      "step": 205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1346.0,
      "completions/max_terminated_length": 1346.0,
      "completions/mean_length": 359.125,
      "completions/mean_terminated_length": 359.125,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.021852126869629788,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.020105792675167322,
      "learning_rate": 7.918e-06,
      "loss": 0.0532,
      "num_tokens": 9602560.0,
      "reward": 3.616807460784912,
      "reward_std": 0.6793028712272644,
      "rewards/reward_fn/mean": 3.616807460784912,
      "rewards/reward_fn/std": 0.6793028116226196,
      "step": 206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1582.0,
      "completions/max_terminated_length": 1582.0,
      "completions/mean_length": 326.9375,
      "completions/mean_terminated_length": 326.9375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.021958205155404687,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.0190516859292984,
      "learning_rate": 7.9176e-06,
      "loss": 0.0137,
      "num_tokens": 9643486.0,
      "reward": 3.9254260063171387,
      "reward_std": 0.4218538701534271,
      "rewards/reward_fn/mean": 3.9254260063171387,
      "rewards/reward_fn/std": 0.42185384035110474,
      "step": 207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1806.0,
      "completions/max_terminated_length": 1806.0,
      "completions/mean_length": 585.125,
      "completions/mean_terminated_length": 585.125,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.02206428344117959,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0625,
      "kl": 0.013375958427786827,
      "learning_rate": 7.9172e-06,
      "loss": -0.0082,
      "num_tokens": 9693762.0,
      "reward": 3.8153269290924072,
      "reward_std": 0.6042912602424622,
      "rewards/reward_fn/mean": 3.8153269290924072,
      "rewards/reward_fn/std": 0.6042913198471069,
      "step": 208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 869.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 222.5625,
      "completions/mean_terminated_length": 222.5625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.022170361726954493,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.021646051667630672,
      "learning_rate": 7.9168e-06,
      "loss": -0.1015,
      "num_tokens": 9732404.0,
      "reward": 3.488537311553955,
      "reward_std": 0.6231763958930969,
      "rewards/reward_fn/mean": 3.488537311553955,
      "rewards/reward_fn/std": 0.6231764554977417,
      "step": 209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1840.0,
      "completions/mean_length": 450.4375,
      "completions/mean_terminated_length": 398.9032287597656,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.022276440012729395,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.01734934072010219,
      "learning_rate": 7.9164e-06,
      "loss": 0.0922,
      "num_tokens": 9783682.0,
      "reward": 3.4365906715393066,
      "reward_std": 1.0417983531951904,
      "rewards/reward_fn/mean": 3.4365906715393066,
      "rewards/reward_fn/std": 1.0417983531951904,
      "step": 210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.0,
      "completions/max_terminated_length": 270.0,
      "completions/mean_length": 106.09375,
      "completions/mean_terminated_length": 106.09375,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.022382518298504295,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1162109375,
      "kl": 0.02026362717151642,
      "learning_rate": 7.916e-06,
      "loss": 0.0008,
      "num_tokens": 9824517.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 818.0,
      "completions/max_terminated_length": 818.0,
      "completions/mean_length": 200.875,
      "completions/mean_terminated_length": 200.875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.022488596584279198,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.021493054926395416,
      "learning_rate": 7.9156e-06,
      "loss": -0.0043,
      "num_tokens": 9866497.0,
      "reward": 3.8106346130371094,
      "reward_std": 0.6165704727172852,
      "rewards/reward_fn/mean": 3.8106346130371094,
      "rewards/reward_fn/std": 0.6165704131126404,
      "step": 212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1193.0,
      "completions/max_terminated_length": 1193.0,
      "completions/mean_length": 247.1875,
      "completions/mean_terminated_length": 247.1875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.0225946748700541,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.53125,
      "kl": 0.022569065680727363,
      "learning_rate": 7.9152e-06,
      "loss": 0.0482,
      "num_tokens": 9910567.0,
      "reward": 3.931674003601074,
      "reward_std": 0.38650935888290405,
      "rewards/reward_fn/mean": 3.931674003601074,
      "rewards/reward_fn/std": 0.3865092992782593,
      "step": 213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1417.0,
      "completions/max_terminated_length": 1417.0,
      "completions/mean_length": 516.78125,
      "completions/mean_terminated_length": 516.78125,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.022700753155829003,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.015229119802825153,
      "learning_rate": 7.9148e-06,
      "loss": -0.001,
      "num_tokens": 9961536.0,
      "reward": 2.6889023780822754,
      "reward_std": 0.4305468201637268,
      "rewards/reward_fn/mean": 2.6889023780822754,
      "rewards/reward_fn/std": 0.4305467903614044,
      "step": 214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 631.0,
      "completions/max_terminated_length": 631.0,
      "completions/mean_length": 286.71875,
      "completions/mean_terminated_length": 286.71875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.022806831441603902,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.019226033822633326,
      "learning_rate": 7.9144e-06,
      "loss": -0.0184,
      "num_tokens": 10009143.0,
      "reward": 3.134714126586914,
      "reward_std": 0.25494593381881714,
      "rewards/reward_fn/mean": 3.134714126586914,
      "rewards/reward_fn/std": 0.25494590401649475,
      "step": 215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1603.0,
      "completions/max_terminated_length": 1603.0,
      "completions/mean_length": 340.3125,
      "completions/mean_terminated_length": 340.3125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.022912909727378805,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.02126729814335704,
      "learning_rate": 7.913999999999999e-06,
      "loss": -0.0127,
      "num_tokens": 10058369.0,
      "reward": 3.2720999717712402,
      "reward_std": 0.5431775450706482,
      "rewards/reward_fn/mean": 3.2720999717712402,
      "rewards/reward_fn/std": 0.543177604675293,
      "step": 216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1504.0,
      "completions/max_terminated_length": 1504.0,
      "completions/mean_length": 413.90625,
      "completions/mean_terminated_length": 413.90625,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.023018988013153708,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.016389940166845918,
      "learning_rate": 7.9136e-06,
      "loss": -0.0359,
      "num_tokens": 10107422.0,
      "reward": 1.7760989665985107,
      "reward_std": 0.02450552210211754,
      "rewards/reward_fn/mean": 1.7760989665985107,
      "rewards/reward_fn/std": 0.0245054978877306,
      "step": 217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 495.0,
      "completions/max_terminated_length": 495.0,
      "completions/mean_length": 293.40625,
      "completions/mean_terminated_length": 293.40625,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.02312506629892861,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.023776356363669038,
      "learning_rate": 7.913199999999999e-06,
      "loss": 0.0182,
      "num_tokens": 10158091.0,
      "reward": 2.7377381324768066,
      "reward_std": 0.02857634611427784,
      "rewards/reward_fn/mean": 2.7377381324768066,
      "rewards/reward_fn/std": 0.028576355427503586,
      "step": 218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1972.0,
      "completions/max_terminated_length": 1972.0,
      "completions/mean_length": 523.0,
      "completions/mean_terminated_length": 523.0,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.02323114458470351,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.021222119219601154,
      "learning_rate": 7.9128e-06,
      "loss": 0.0815,
      "num_tokens": 10225227.0,
      "reward": 2.895890951156616,
      "reward_std": 1.194340705871582,
      "rewards/reward_fn/mean": 2.895890951156616,
      "rewards/reward_fn/std": 1.194340705871582,
      "step": 219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 921.0,
      "completions/max_terminated_length": 921.0,
      "completions/mean_length": 268.84375,
      "completions/mean_terminated_length": 268.84375,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.023337222870478413,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.02598167071118951,
      "learning_rate": 7.912399999999999e-06,
      "loss": 0.0997,
      "num_tokens": 10265094.0,
      "reward": 3.1712889671325684,
      "reward_std": 0.5284618735313416,
      "rewards/reward_fn/mean": 3.1712889671325684,
      "rewards/reward_fn/std": 0.5284618735313416,
      "step": 220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1131.0,
      "completions/max_terminated_length": 1131.0,
      "completions/mean_length": 407.21875,
      "completions/mean_terminated_length": 407.21875,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.023443301156253316,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.01953859266359359,
      "learning_rate": 7.912e-06,
      "loss": 0.0176,
      "num_tokens": 10315277.0,
      "reward": 2.7439894676208496,
      "reward_std": 0.05666489899158478,
      "rewards/reward_fn/mean": 2.7439894676208496,
      "rewards/reward_fn/std": 0.056664880365133286,
      "step": 221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 946.0,
      "completions/max_terminated_length": 946.0,
      "completions/mean_length": 309.15625,
      "completions/mean_terminated_length": 309.15625,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.02354937944202822,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.021818128880113363,
      "learning_rate": 7.911599999999999e-06,
      "loss": 0.0998,
      "num_tokens": 10357138.0,
      "reward": 3.8890299797058105,
      "reward_std": 0.3507172167301178,
      "rewards/reward_fn/mean": 3.8890299797058105,
      "rewards/reward_fn/std": 0.3507172167301178,
      "step": 222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 787.0,
      "completions/max_terminated_length": 787.0,
      "completions/mean_length": 281.21875,
      "completions/mean_terminated_length": 281.21875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.023655457727803118,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0947265625,
      "kl": 0.02001171070151031,
      "learning_rate": 7.9112e-06,
      "loss": 0.0008,
      "num_tokens": 10401177.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1162.0,
      "completions/max_terminated_length": 1162.0,
      "completions/mean_length": 338.4375,
      "completions/mean_terminated_length": 338.4375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.02376153601357802,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.01955355703830719,
      "learning_rate": 7.910799999999999e-06,
      "loss": 0.0121,
      "num_tokens": 10446823.0,
      "reward": 3.107459306716919,
      "reward_std": 0.5370301604270935,
      "rewards/reward_fn/mean": 3.107459306716919,
      "rewards/reward_fn/std": 0.5370301604270935,
      "step": 224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 256.90625,
      "completions/mean_terminated_length": 256.90625,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.023867614299352923,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.02468311577104032,
      "learning_rate": 7.9104e-06,
      "loss": 0.2088,
      "num_tokens": 10490596.0,
      "reward": 3.9355549812316895,
      "reward_std": 0.25359582901000977,
      "rewards/reward_fn/mean": 3.9355549812316895,
      "rewards/reward_fn/std": 0.25359582901000977,
      "step": 225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1500.0,
      "completions/max_terminated_length": 1500.0,
      "completions/mean_length": 559.53125,
      "completions/mean_terminated_length": 559.53125,
      "completions/min_length": 317.0,
      "completions/min_terminated_length": 317.0,
      "epoch": 0.023973692585127826,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1328125,
      "kl": 0.01560274779330939,
      "learning_rate": 7.91e-06,
      "loss": 0.1691,
      "num_tokens": 10572181.0,
      "reward": 2.4835715293884277,
      "reward_std": 0.4638085961341858,
      "rewards/reward_fn/mean": 2.4835715293884277,
      "rewards/reward_fn/std": 0.4638086259365082,
      "step": 226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2047.0,
      "completions/max_terminated_length": 2047.0,
      "completions/mean_length": 488.25,
      "completions/mean_terminated_length": 488.25,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.024079770870902725,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.90625,
      "kl": 0.021264664246700704,
      "learning_rate": 7.9096e-06,
      "loss": -0.0982,
      "num_tokens": 10619101.0,
      "reward": 2.9061059951782227,
      "reward_std": 0.22990155220031738,
      "rewards/reward_fn/mean": 2.9061059951782227,
      "rewards/reward_fn/std": 0.22990158200263977,
      "step": 227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1757.0,
      "completions/max_terminated_length": 1757.0,
      "completions/mean_length": 547.8125,
      "completions/mean_terminated_length": 547.8125,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.024185849156677628,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.023016543593257666,
      "learning_rate": 7.9092e-06,
      "loss": 0.0536,
      "num_tokens": 10666135.0,
      "reward": 2.741976022720337,
      "reward_std": 0.5150967240333557,
      "rewards/reward_fn/mean": 2.741976022720337,
      "rewards/reward_fn/std": 0.5150967836380005,
      "step": 228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 268.0,
      "completions/max_terminated_length": 268.0,
      "completions/mean_length": 200.71875,
      "completions/mean_terminated_length": 200.71875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.02429192744245253,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1728515625,
      "kl": 0.03538187500089407,
      "learning_rate": 7.9088e-06,
      "loss": 0.0014,
      "num_tokens": 10700782.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1188.0,
      "completions/max_terminated_length": 1188.0,
      "completions/mean_length": 214.90625,
      "completions/mean_terminated_length": 214.90625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.02439800572822743,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.033329138765111566,
      "learning_rate": 7.9084e-06,
      "loss": -0.0488,
      "num_tokens": 10753611.0,
      "reward": 3.9345145225524902,
      "reward_std": 0.1547694057226181,
      "rewards/reward_fn/mean": 3.9345145225524902,
      "rewards/reward_fn/std": 0.1547694057226181,
      "step": 230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 220.0,
      "completions/max_terminated_length": 220.0,
      "completions/mean_length": 139.625,
      "completions/mean_terminated_length": 139.625,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.024504084014002333,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.212890625,
      "kl": 0.038340474013239145,
      "learning_rate": 7.908e-06,
      "loss": 0.0015,
      "num_tokens": 10798399.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1771.0,
      "completions/max_terminated_length": 1771.0,
      "completions/mean_length": 558.59375,
      "completions/mean_terminated_length": 558.59375,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.024610162299777236,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.018731832038611174,
      "learning_rate": 7.9076e-06,
      "loss": 0.0969,
      "num_tokens": 10832626.0,
      "reward": 2.5503268241882324,
      "reward_std": 0.4429418444633484,
      "rewards/reward_fn/mean": 2.5503268241882324,
      "rewards/reward_fn/std": 0.4429418444633484,
      "step": 232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 801.0,
      "completions/max_terminated_length": 801.0,
      "completions/mean_length": 225.78125,
      "completions/mean_terminated_length": 225.78125,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.02471624058555214,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.023959350073710084,
      "learning_rate": 7.9072e-06,
      "loss": 0.0026,
      "num_tokens": 10879819.0,
      "reward": 2.9614815711975098,
      "reward_std": 0.45102646946907043,
      "rewards/reward_fn/mean": 2.9614815711975098,
      "rewards/reward_fn/std": 0.4510264992713928,
      "step": 233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 517.0,
      "completions/max_terminated_length": 517.0,
      "completions/mean_length": 161.75,
      "completions/mean_terminated_length": 161.75,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.024822318871327038,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.140625,
      "kl": 0.027287997072562575,
      "learning_rate": 7.906799999999999e-06,
      "loss": 0.0649,
      "num_tokens": 10918083.0,
      "reward": 3.9702796936035156,
      "reward_std": 0.16812357306480408,
      "rewards/reward_fn/mean": 3.9702796936035156,
      "rewards/reward_fn/std": 0.16812357306480408,
      "step": 234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 968.0,
      "completions/max_terminated_length": 968.0,
      "completions/mean_length": 264.8125,
      "completions/mean_terminated_length": 264.8125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.02492839715710194,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.026635492919012904,
      "learning_rate": 7.9064e-06,
      "loss": -0.0229,
      "num_tokens": 10964541.0,
      "reward": 3.613354206085205,
      "reward_std": 0.5796034336090088,
      "rewards/reward_fn/mean": 3.613354206085205,
      "rewards/reward_fn/std": 0.5796034336090088,
      "step": 235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1248.0,
      "completions/max_terminated_length": 1248.0,
      "completions/mean_length": 338.46875,
      "completions/mean_terminated_length": 338.46875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.025034475442876843,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.021990014938637614,
      "learning_rate": 7.905999999999999e-06,
      "loss": -0.0474,
      "num_tokens": 11022316.0,
      "reward": 3.9591715335845947,
      "reward_std": 0.2309606820344925,
      "rewards/reward_fn/mean": 3.9591715335845947,
      "rewards/reward_fn/std": 0.2309606820344925,
      "step": 236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 599.0,
      "completions/max_terminated_length": 599.0,
      "completions/mean_length": 188.90625,
      "completions/mean_terminated_length": 188.90625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.025140553728651746,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.021487332647666335,
      "learning_rate": 7.9056e-06,
      "loss": 0.0009,
      "num_tokens": 11049097.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 736.0,
      "completions/max_terminated_length": 736.0,
      "completions/mean_length": 217.96875,
      "completions/mean_terminated_length": 217.96875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.025246632014426645,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1181640625,
      "kl": 0.023882502922788262,
      "learning_rate": 7.9052e-06,
      "loss": 0.001,
      "num_tokens": 11109512.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1533.0,
      "completions/mean_length": 655.53125,
      "completions/mean_terminated_length": 610.6129150390625,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.025352710300201548,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.01844685070682317,
      "learning_rate": 7.9048e-06,
      "loss": 0.1706,
      "num_tokens": 11146073.0,
      "reward": 1.8283706903457642,
      "reward_std": 0.5581537485122681,
      "rewards/reward_fn/mean": 1.8283706903457642,
      "rewards/reward_fn/std": 0.5581536889076233,
      "step": 239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 987.75,
      "completions/mean_terminated_length": 878.0689697265625,
      "completions/min_length": 423.0,
      "completions/min_terminated_length": 423.0,
      "epoch": 0.02545878858597645,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.012791063985787332,
      "learning_rate": 7.9044e-06,
      "loss": 0.2083,
      "num_tokens": 11222033.0,
      "reward": 2.3440942764282227,
      "reward_std": 0.8046829700469971,
      "rewards/reward_fn/mean": 2.3440942764282227,
      "rewards/reward_fn/std": 0.8046829700469971,
      "step": 240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 525.0,
      "completions/max_terminated_length": 525.0,
      "completions/mean_length": 244.0625,
      "completions/mean_terminated_length": 244.0625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.025564866871751354,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.02614483702927828,
      "learning_rate": 7.904e-06,
      "loss": 0.0013,
      "num_tokens": 11268531.0,
      "reward": 2.8031463623046875,
      "reward_std": 0.05802328139543533,
      "rewards/reward_fn/mean": 2.8031463623046875,
      "rewards/reward_fn/std": 0.05802330747246742,
      "step": 241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/max_terminated_length": 324.0,
      "completions/mean_length": 230.8125,
      "completions/mean_terminated_length": 230.8125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.025670945157526253,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.016728723421692848,
      "learning_rate": 7.9036e-06,
      "loss": 0.032,
      "num_tokens": 11311533.0,
      "reward": 2.816776752471924,
      "reward_std": 0.21942509710788727,
      "rewards/reward_fn/mean": 2.816776752471924,
      "rewards/reward_fn/std": 0.21942508220672607,
      "step": 242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 843.0,
      "completions/max_terminated_length": 843.0,
      "completions/mean_length": 285.65625,
      "completions/mean_terminated_length": 285.65625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.025777023443301156,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.016763758845627308,
      "learning_rate": 7.903199999999999e-06,
      "loss": 0.0875,
      "num_tokens": 11335810.0,
      "reward": 3.3429794311523438,
      "reward_std": 0.5541702508926392,
      "rewards/reward_fn/mean": 3.3429794311523438,
      "rewards/reward_fn/std": 0.5541702508926392,
      "step": 243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 557.0,
      "completions/max_terminated_length": 557.0,
      "completions/mean_length": 222.65625,
      "completions/mean_terminated_length": 222.65625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.02588310172907606,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.02172936638817191,
      "learning_rate": 7.9028e-06,
      "loss": -0.0466,
      "num_tokens": 11380663.0,
      "reward": 3.145770788192749,
      "reward_std": 0.5794350504875183,
      "rewards/reward_fn/mean": 3.145770788192749,
      "rewards/reward_fn/std": 0.5794350504875183,
      "step": 244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 191.0,
      "completions/max_terminated_length": 191.0,
      "completions/mean_length": 131.8125,
      "completions/mean_terminated_length": 131.8125,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.02598918001485096,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.421875,
      "kl": 0.019724910031072795,
      "learning_rate": 7.902399999999999e-06,
      "loss": 0.0672,
      "num_tokens": 11414193.0,
      "reward": 3.9744322299957275,
      "reward_std": 0.1446334570646286,
      "rewards/reward_fn/mean": 3.9744322299957275,
      "rewards/reward_fn/std": 0.1446334421634674,
      "step": 245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 652.0,
      "completions/max_terminated_length": 652.0,
      "completions/mean_length": 425.40625,
      "completions/mean_terminated_length": 425.40625,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.02609525830062586,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.015981771517544985,
      "learning_rate": 7.902e-06,
      "loss": -0.0546,
      "num_tokens": 11467390.0,
      "reward": 2.7777838706970215,
      "reward_std": 0.47854653000831604,
      "rewards/reward_fn/mean": 2.7777838706970215,
      "rewards/reward_fn/std": 0.47854653000831604,
      "step": 246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 862.0,
      "completions/max_terminated_length": 862.0,
      "completions/mean_length": 342.6875,
      "completions/mean_terminated_length": 342.6875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.026201336586400763,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.017373082577250898,
      "learning_rate": 7.901599999999999e-06,
      "loss": -0.0624,
      "num_tokens": 11513652.0,
      "reward": 2.9905588626861572,
      "reward_std": 0.4717329740524292,
      "rewards/reward_fn/mean": 2.9905588626861572,
      "rewards/reward_fn/std": 0.4717329442501068,
      "step": 247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.0,
      "completions/max_terminated_length": 304.0,
      "completions/mean_length": 108.5625,
      "completions/mean_terminated_length": 108.5625,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.026307414872175666,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.02236648928374052,
      "learning_rate": 7.9012e-06,
      "loss": 0.0009,
      "num_tokens": 11534086.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 533.0,
      "completions/max_terminated_length": 533.0,
      "completions/mean_length": 269.40625,
      "completions/mean_terminated_length": 269.40625,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.02641349315795057,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.022781465435400605,
      "learning_rate": 7.9008e-06,
      "loss": 0.0046,
      "num_tokens": 11575219.0,
      "reward": 2.9033608436584473,
      "reward_std": 0.2065192610025406,
      "rewards/reward_fn/mean": 2.9033608436584473,
      "rewards/reward_fn/std": 0.2065192610025406,
      "step": 249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2003.0,
      "completions/mean_length": 749.75,
      "completions/mean_terminated_length": 707.8709716796875,
      "completions/min_length": 348.0,
      "completions/min_terminated_length": 348.0,
      "epoch": 0.02651957144372547,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.011985445278696716,
      "learning_rate": 7.9004e-06,
      "loss": 0.1933,
      "num_tokens": 11636395.0,
      "reward": 2.566638469696045,
      "reward_std": 0.4702640473842621,
      "rewards/reward_fn/mean": 2.566638469696045,
      "rewards/reward_fn/std": 0.4702640473842621,
      "step": 250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 683.0,
      "completions/max_terminated_length": 683.0,
      "completions/mean_length": 280.78125,
      "completions/mean_terminated_length": 280.78125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.02662564972950037,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.01918622641824186,
      "learning_rate": 7.9e-06,
      "loss": 0.1319,
      "num_tokens": 11663652.0,
      "reward": 3.4576807022094727,
      "reward_std": 0.5513618588447571,
      "rewards/reward_fn/mean": 3.4576807022094727,
      "rewards/reward_fn/std": 0.5513618588447571,
      "step": 251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1161.0,
      "completions/max_terminated_length": 1161.0,
      "completions/mean_length": 303.875,
      "completions/mean_terminated_length": 303.875,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.026731728015275274,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.02559892018325627,
      "learning_rate": 7.8996e-06,
      "loss": 0.0889,
      "num_tokens": 11714272.0,
      "reward": 3.407193660736084,
      "reward_std": 0.6705021262168884,
      "rewards/reward_fn/mean": 3.407193660736084,
      "rewards/reward_fn/std": 0.6705020666122437,
      "step": 252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 969.0,
      "completions/max_terminated_length": 969.0,
      "completions/mean_length": 320.625,
      "completions/mean_terminated_length": 320.625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.026837806301050177,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.01899566757492721,
      "learning_rate": 7.8992e-06,
      "loss": 0.1479,
      "num_tokens": 11761556.0,
      "reward": 3.74670672416687,
      "reward_std": 0.7026734948158264,
      "rewards/reward_fn/mean": 3.74670672416687,
      "rewards/reward_fn/std": 0.7026734352111816,
      "step": 253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 904.0,
      "completions/max_terminated_length": 904.0,
      "completions/mean_length": 545.0,
      "completions/mean_terminated_length": 545.0,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.026943884586825076,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.09375,
      "kl": 0.013679098337888718,
      "learning_rate": 7.8988e-06,
      "loss": 0.038,
      "num_tokens": 11811060.0,
      "reward": 3.042778491973877,
      "reward_std": 0.6887111067771912,
      "rewards/reward_fn/mean": 3.042778491973877,
      "rewards/reward_fn/std": 0.6887110471725464,
      "step": 254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 793.0,
      "completions/max_terminated_length": 793.0,
      "completions/mean_length": 228.78125,
      "completions/mean_terminated_length": 228.78125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.02704996287259998,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.031039110152050853,
      "learning_rate": 7.898399999999999e-06,
      "loss": 0.1049,
      "num_tokens": 11849101.0,
      "reward": 3.9631972312927246,
      "reward_std": 0.20818859338760376,
      "rewards/reward_fn/mean": 3.9631972312927246,
      "rewards/reward_fn/std": 0.20818862318992615,
      "step": 255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1227.0,
      "completions/max_terminated_length": 1227.0,
      "completions/mean_length": 468.09375,
      "completions/mean_terminated_length": 468.09375,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.02715604115837488,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.017622511251829565,
      "learning_rate": 7.898e-06,
      "loss": 0.069,
      "num_tokens": 11912592.0,
      "reward": 3.587637186050415,
      "reward_std": 0.6166492700576782,
      "rewards/reward_fn/mean": 3.587637186050415,
      "rewards/reward_fn/std": 0.616649329662323,
      "step": 256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 769.0,
      "completions/max_terminated_length": 769.0,
      "completions/mean_length": 191.5625,
      "completions/mean_terminated_length": 191.5625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.027262119444149784,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.02548597170971334,
      "learning_rate": 7.897599999999999e-06,
      "loss": -0.0541,
      "num_tokens": 11946626.0,
      "reward": 3.064663887023926,
      "reward_std": 0.07985293865203857,
      "rewards/reward_fn/mean": 3.064663887023926,
      "rewards/reward_fn/std": 0.07985293865203857,
      "step": 257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 750.0,
      "completions/max_terminated_length": 750.0,
      "completions/mean_length": 253.1875,
      "completions/mean_terminated_length": 253.1875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.027368197729924684,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.021782919066026807,
      "learning_rate": 7.8972e-06,
      "loss": 0.1768,
      "num_tokens": 11987752.0,
      "reward": 3.9413747787475586,
      "reward_std": 0.23125647008419037,
      "rewards/reward_fn/mean": 3.9413747787475586,
      "rewards/reward_fn/std": 0.23125645518302917,
      "step": 258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.0,
      "completions/max_terminated_length": 555.0,
      "completions/mean_length": 218.46875,
      "completions/mean_terminated_length": 218.46875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.027474276015699586,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1279296875,
      "kl": 0.024505440145730972,
      "learning_rate": 7.896799999999999e-06,
      "loss": 0.001,
      "num_tokens": 12025047.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1152.0,
      "completions/max_terminated_length": 1152.0,
      "completions/mean_length": 329.96875,
      "completions/mean_terminated_length": 329.96875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.02758035430147449,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.064453125,
      "kl": 0.018241875804960728,
      "learning_rate": 7.8964e-06,
      "loss": 0.0007,
      "num_tokens": 12068118.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 265.40625,
      "completions/mean_terminated_length": 265.40625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.02768643258724939,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.02741927863098681,
      "learning_rate": 7.896e-06,
      "loss": 0.0059,
      "num_tokens": 12113347.0,
      "reward": 3.966427803039551,
      "reward_std": 0.18991301953792572,
      "rewards/reward_fn/mean": 3.966427803039551,
      "rewards/reward_fn/std": 0.18991298973560333,
      "step": 261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 511.0,
      "completions/max_terminated_length": 511.0,
      "completions/mean_length": 277.5625,
      "completions/mean_terminated_length": 277.5625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.02779251087302429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.021280562039464712,
      "learning_rate": 7.8956e-06,
      "loss": 0.0978,
      "num_tokens": 12151765.0,
      "reward": 2.54994535446167,
      "reward_std": 0.4797287583351135,
      "rewards/reward_fn/mean": 2.54994535446167,
      "rewards/reward_fn/std": 0.4797287583351135,
      "step": 262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 826.0,
      "completions/max_terminated_length": 826.0,
      "completions/mean_length": 382.75,
      "completions/mean_terminated_length": 382.75,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.027898589158799194,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.018151523312553763,
      "learning_rate": 7.8952e-06,
      "loss": 0.0068,
      "num_tokens": 12201773.0,
      "reward": 3.4161887168884277,
      "reward_std": 0.8646740317344666,
      "rewards/reward_fn/mean": 3.4161887168884277,
      "rewards/reward_fn/std": 0.8646739721298218,
      "step": 263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1010.0,
      "completions/max_terminated_length": 1010.0,
      "completions/mean_length": 499.71875,
      "completions/mean_terminated_length": 499.71875,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.028004667444574097,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.018706355476751924,
      "learning_rate": 7.8948e-06,
      "loss": -0.0482,
      "num_tokens": 12246948.0,
      "reward": 2.617680072784424,
      "reward_std": 0.36669453978538513,
      "rewards/reward_fn/mean": 2.617680072784424,
      "rewards/reward_fn/std": 0.3666945695877075,
      "step": 264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.0,
      "completions/max_terminated_length": 270.0,
      "completions/mean_length": 204.09375,
      "completions/mean_terminated_length": 204.09375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.028110745730348996,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.037441390566527843,
      "learning_rate": 7.8944e-06,
      "loss": -0.026,
      "num_tokens": 12291847.0,
      "reward": 3.009129047393799,
      "reward_std": 0.32852211594581604,
      "rewards/reward_fn/mean": 3.009129047393799,
      "rewards/reward_fn/std": 0.32852208614349365,
      "step": 265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 412.0,
      "completions/max_terminated_length": 412.0,
      "completions/mean_length": 160.5625,
      "completions/mean_terminated_length": 160.5625,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.0282168240161239,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.020008231746032834,
      "learning_rate": 7.894e-06,
      "loss": 0.0008,
      "num_tokens": 12335417.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 333.0,
      "completions/max_terminated_length": 333.0,
      "completions/mean_length": 214.875,
      "completions/mean_terminated_length": 214.875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.0283229023018988,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.023937980644404888,
      "learning_rate": 7.8936e-06,
      "loss": -0.0182,
      "num_tokens": 12374997.0,
      "reward": 1.8745217323303223,
      "reward_std": 0.3389831781387329,
      "rewards/reward_fn/mean": 1.8745217323303223,
      "rewards/reward_fn/std": 0.3389831483364105,
      "step": 267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 554.0,
      "completions/max_terminated_length": 554.0,
      "completions/mean_length": 223.4375,
      "completions/mean_terminated_length": 223.4375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.028428980587673704,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.021832899190485477,
      "learning_rate": 7.8932e-06,
      "loss": -0.1111,
      "num_tokens": 12416195.0,
      "reward": 2.994629144668579,
      "reward_std": 0.06882744282484055,
      "rewards/reward_fn/mean": 2.994629144668579,
      "rewards/reward_fn/std": 0.06882745027542114,
      "step": 268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 364.0,
      "completions/max_terminated_length": 364.0,
      "completions/mean_length": 251.25,
      "completions/mean_terminated_length": 251.25,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.028535058873448604,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.023315031314268708,
      "learning_rate": 7.8928e-06,
      "loss": 0.0371,
      "num_tokens": 12494667.0,
      "reward": 3.4436919689178467,
      "reward_std": 0.7342358827590942,
      "rewards/reward_fn/mean": 3.4436919689178467,
      "rewards/reward_fn/std": 0.7342358231544495,
      "step": 269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.0,
      "completions/max_terminated_length": 551.0,
      "completions/mean_length": 209.03125,
      "completions/mean_terminated_length": 209.03125,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.028641137159223506,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.02203134004957974,
      "learning_rate": 7.8924e-06,
      "loss": 0.0179,
      "num_tokens": 12551692.0,
      "reward": 3.892535924911499,
      "reward_std": 0.4451846778392792,
      "rewards/reward_fn/mean": 3.892535924911499,
      "rewards/reward_fn/std": 0.4451846778392792,
      "step": 270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.0,
      "completions/max_terminated_length": 338.0,
      "completions/mean_length": 119.3125,
      "completions/mean_terminated_length": 119.3125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.02874721544499841,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.71875,
      "kl": 0.023293037782423198,
      "learning_rate": 7.892e-06,
      "loss": 0.2132,
      "num_tokens": 12590710.0,
      "reward": 3.9130430221557617,
      "reward_std": 0.2241009622812271,
      "rewards/reward_fn/mean": 3.9130430221557617,
      "rewards/reward_fn/std": 0.2241009771823883,
      "step": 271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/max_terminated_length": 284.0,
      "completions/mean_length": 172.78125,
      "completions/mean_terminated_length": 172.78125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.028853293730773312,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.02628507581539452,
      "learning_rate": 7.8916e-06,
      "loss": 0.0783,
      "num_tokens": 12637647.0,
      "reward": 3.2433860301971436,
      "reward_std": 0.5124220252037048,
      "rewards/reward_fn/mean": 3.2433860301971436,
      "rewards/reward_fn/std": 0.5124220848083496,
      "step": 272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 896.0,
      "completions/max_terminated_length": 896.0,
      "completions/mean_length": 197.875,
      "completions/mean_terminated_length": 197.875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.02895937201654821,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.02240662043914199,
      "learning_rate": 7.8912e-06,
      "loss": 0.0431,
      "num_tokens": 12675627.0,
      "reward": 2.7977585792541504,
      "reward_std": 0.06745248287916183,
      "rewards/reward_fn/mean": 2.7977585792541504,
      "rewards/reward_fn/std": 0.06745246052742004,
      "step": 273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 841.0,
      "completions/max_terminated_length": 841.0,
      "completions/mean_length": 300.96875,
      "completions/mean_terminated_length": 300.96875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.029065450302323114,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.020187442656606436,
      "learning_rate": 7.890799999999999e-06,
      "loss": 0.0213,
      "num_tokens": 12713418.0,
      "reward": 3.9665956497192383,
      "reward_std": 0.1889638453722,
      "rewards/reward_fn/mean": 3.9665956497192383,
      "rewards/reward_fn/std": 0.1889638453722,
      "step": 274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 796.0,
      "completions/max_terminated_length": 796.0,
      "completions/mean_length": 269.59375,
      "completions/mean_terminated_length": 269.59375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.029171528588098017,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.024061910109594464,
      "learning_rate": 7.8904e-06,
      "loss": -0.1597,
      "num_tokens": 12757149.0,
      "reward": 2.2087552547454834,
      "reward_std": 0.5087428689002991,
      "rewards/reward_fn/mean": 2.2087552547454834,
      "rewards/reward_fn/std": 0.5087428092956543,
      "step": 275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 204.0,
      "completions/max_terminated_length": 204.0,
      "completions/mean_length": 96.21875,
      "completions/mean_terminated_length": 96.21875,
      "completions/min_length": 54.0,
      "completions/min_terminated_length": 54.0,
      "epoch": 0.02927760687387292,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1943359375,
      "kl": 0.026183703215792775,
      "learning_rate": 7.889999999999999e-06,
      "loss": 0.001,
      "num_tokens": 12797764.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/max_terminated_length": 273.0,
      "completions/mean_length": 176.28125,
      "completions/mean_terminated_length": 176.28125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.02938368515964782,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1298828125,
      "kl": 0.022986828815191984,
      "learning_rate": 7.8896e-06,
      "loss": 0.0009,
      "num_tokens": 12843533.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 527.0,
      "completions/max_terminated_length": 527.0,
      "completions/mean_length": 154.15625,
      "completions/mean_terminated_length": 154.15625,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.02948976344542272,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.021190900588408113,
      "learning_rate": 7.889199999999999e-06,
      "loss": 0.0008,
      "num_tokens": 12879122.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 459.0,
      "completions/max_terminated_length": 459.0,
      "completions/mean_length": 180.46875,
      "completions/mean_terminated_length": 180.46875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.029595841731197624,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.029538776027038693,
      "learning_rate": 7.8888e-06,
      "loss": 0.0242,
      "num_tokens": 12913409.0,
      "reward": 3.92836332321167,
      "reward_std": 0.4052387773990631,
      "rewards/reward_fn/mean": 3.92836332321167,
      "rewards/reward_fn/std": 0.4052387773990631,
      "step": 279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 552.0,
      "completions/max_terminated_length": 552.0,
      "completions/mean_length": 333.78125,
      "completions/mean_terminated_length": 333.78125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.029701920016972527,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.021093905437737703,
      "learning_rate": 7.888399999999999e-06,
      "loss": 0.0428,
      "num_tokens": 12975962.0,
      "reward": 3.458969831466675,
      "reward_std": 0.5869243144989014,
      "rewards/reward_fn/mean": 3.458969831466675,
      "rewards/reward_fn/std": 0.5869242548942566,
      "step": 280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 662.0,
      "completions/max_terminated_length": 662.0,
      "completions/mean_length": 189.65625,
      "completions/mean_terminated_length": 189.65625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.029807998302747427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.453125,
      "kl": 0.028214870719239116,
      "learning_rate": 7.888e-06,
      "loss": 0.1478,
      "num_tokens": 13014543.0,
      "reward": 3.90067982673645,
      "reward_std": 0.4174049198627472,
      "rewards/reward_fn/mean": 3.90067982673645,
      "rewards/reward_fn/std": 0.4174049496650696,
      "step": 281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 700.0,
      "completions/max_terminated_length": 700.0,
      "completions/mean_length": 263.96875,
      "completions/mean_terminated_length": 263.96875,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.02991407658852233,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.022579851211048663,
      "learning_rate": 7.887599999999999e-06,
      "loss": -0.0188,
      "num_tokens": 13040206.0,
      "reward": 3.9292826652526855,
      "reward_std": 0.20690298080444336,
      "rewards/reward_fn/mean": 3.9292826652526855,
      "rewards/reward_fn/std": 0.20690296590328217,
      "step": 282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 629.0,
      "completions/mean_length": 453.9375,
      "completions/mean_terminated_length": 402.51611328125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.030020154874297232,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.017965498962439597,
      "learning_rate": 7.8872e-06,
      "loss": 0.1905,
      "num_tokens": 13089612.0,
      "reward": 3.508497953414917,
      "reward_std": 0.9100804924964905,
      "rewards/reward_fn/mean": 3.508497953414917,
      "rewards/reward_fn/std": 0.9100804924964905,
      "step": 283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 771.0,
      "completions/max_terminated_length": 771.0,
      "completions/mean_length": 403.90625,
      "completions/mean_terminated_length": 403.90625,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.030126233160072135,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.01794223056640476,
      "learning_rate": 7.8868e-06,
      "loss": -0.1122,
      "num_tokens": 13136905.0,
      "reward": 2.901538372039795,
      "reward_std": 0.2880001664161682,
      "rewards/reward_fn/mean": 2.901538372039795,
      "rewards/reward_fn/std": 0.28800004720687866,
      "step": 284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 737.0,
      "completions/max_terminated_length": 737.0,
      "completions/mean_length": 193.9375,
      "completions/mean_terminated_length": 193.9375,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.030232311445847034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.027612620033323765,
      "learning_rate": 7.8864e-06,
      "loss": 0.028,
      "num_tokens": 13170535.0,
      "reward": 3.2102768421173096,
      "reward_std": 0.1197659894824028,
      "rewards/reward_fn/mean": 3.2102768421173096,
      "rewards/reward_fn/std": 0.11976601183414459,
      "step": 285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 851.0,
      "completions/max_terminated_length": 851.0,
      "completions/mean_length": 256.5,
      "completions/mean_terminated_length": 256.5,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.030338389731621937,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.023041230160742998,
      "learning_rate": 7.886e-06,
      "loss": 0.0101,
      "num_tokens": 13207031.0,
      "reward": 3.574709892272949,
      "reward_std": 0.5251328945159912,
      "rewards/reward_fn/mean": 3.574709892272949,
      "rewards/reward_fn/std": 0.5251328945159912,
      "step": 286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 993.0,
      "completions/max_terminated_length": 993.0,
      "completions/mean_length": 473.625,
      "completions/mean_terminated_length": 473.625,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.03044446801739684,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.99609375,
      "kl": 0.01666165341157466,
      "learning_rate": 7.8856e-06,
      "loss": -0.0288,
      "num_tokens": 13259595.0,
      "reward": 2.8182735443115234,
      "reward_std": 0.23360121250152588,
      "rewards/reward_fn/mean": 2.8182735443115234,
      "rewards/reward_fn/std": 0.23360122740268707,
      "step": 287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1065.0,
      "completions/max_terminated_length": 1065.0,
      "completions/mean_length": 309.34375,
      "completions/mean_terminated_length": 309.34375,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.03055054630317174,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.019797870074398816,
      "learning_rate": 7.8852e-06,
      "loss": -0.0027,
      "num_tokens": 13313430.0,
      "reward": 3.900583505630493,
      "reward_std": 0.4218868315219879,
      "rewards/reward_fn/mean": 3.900583505630493,
      "rewards/reward_fn/std": 0.4218868315219879,
      "step": 288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1104.0,
      "completions/max_terminated_length": 1104.0,
      "completions/mean_length": 285.25,
      "completions/mean_terminated_length": 285.25,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.030656624588946642,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.01816290069837123,
      "learning_rate": 7.8848e-06,
      "loss": 0.0179,
      "num_tokens": 13357246.0,
      "reward": 3.9340410232543945,
      "reward_std": 0.26044347882270813,
      "rewards/reward_fn/mean": 3.9340410232543945,
      "rewards/reward_fn/std": 0.26044347882270813,
      "step": 289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2018.0,
      "completions/max_terminated_length": 2018.0,
      "completions/mean_length": 643.9375,
      "completions/mean_terminated_length": 643.9375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.030762702874721545,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.015570356510579586,
      "learning_rate": 7.8844e-06,
      "loss": 0.0858,
      "num_tokens": 13424508.0,
      "reward": 2.594058036804199,
      "reward_std": 0.24677404761314392,
      "rewards/reward_fn/mean": 2.594058036804199,
      "rewards/reward_fn/std": 0.24677406251430511,
      "step": 290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1715.0,
      "completions/mean_length": 535.375,
      "completions/mean_terminated_length": 486.58062744140625,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.030868781160496447,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.017655761679634452,
      "learning_rate": 7.884e-06,
      "loss": 0.1712,
      "num_tokens": 13456200.0,
      "reward": 3.049564838409424,
      "reward_std": 1.0932600498199463,
      "rewards/reward_fn/mean": 3.049564838409424,
      "rewards/reward_fn/std": 1.0932600498199463,
      "step": 291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 682.0,
      "completions/max_terminated_length": 682.0,
      "completions/mean_length": 273.4375,
      "completions/mean_terminated_length": 273.4375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.030974859446271347,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.0212192558683455,
      "learning_rate": 7.8836e-06,
      "loss": -0.0082,
      "num_tokens": 13495734.0,
      "reward": 2.9622116088867188,
      "reward_std": 0.20986686646938324,
      "rewards/reward_fn/mean": 2.9622116088867188,
      "rewards/reward_fn/std": 0.20986689627170563,
      "step": 292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1755.0,
      "completions/max_terminated_length": 1755.0,
      "completions/mean_length": 581.125,
      "completions/mean_terminated_length": 581.125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.03108093773204625,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0732421875,
      "kl": 0.018238925491459668,
      "learning_rate": 7.8832e-06,
      "loss": 0.0007,
      "num_tokens": 13553274.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 965.0,
      "completions/max_terminated_length": 965.0,
      "completions/mean_length": 272.6875,
      "completions/mean_terminated_length": 272.6875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.031187016017821152,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.150390625,
      "kl": 0.021185664576478302,
      "learning_rate": 7.882799999999998e-06,
      "loss": 0.0008,
      "num_tokens": 13605840.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 726.0,
      "completions/max_terminated_length": 726.0,
      "completions/mean_length": 239.71875,
      "completions/mean_terminated_length": 239.71875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.03129309430359605,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.027498473413288593,
      "learning_rate": 7.8824e-06,
      "loss": 0.1091,
      "num_tokens": 13650791.0,
      "reward": 3.749105215072632,
      "reward_std": 0.48261404037475586,
      "rewards/reward_fn/mean": 3.749105215072632,
      "rewards/reward_fn/std": 0.48261401057243347,
      "step": 295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 326.0,
      "completions/max_terminated_length": 326.0,
      "completions/mean_length": 110.8125,
      "completions/mean_terminated_length": 110.8125,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.03139917258937096,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1474609375,
      "kl": 0.03405557991936803,
      "learning_rate": 7.882e-06,
      "loss": 0.0014,
      "num_tokens": 13671649.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1089.0,
      "completions/max_terminated_length": 1089.0,
      "completions/mean_length": 365.84375,
      "completions/mean_terminated_length": 365.84375,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.03150525087514586,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10546875,
      "kl": 0.021357741905376315,
      "learning_rate": 7.8816e-06,
      "loss": 0.0009,
      "num_tokens": 13722908.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 460.0,
      "completions/max_terminated_length": 460.0,
      "completions/mean_length": 301.8125,
      "completions/mean_terminated_length": 301.8125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.031611329160920756,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.02022064500488341,
      "learning_rate": 7.8812e-06,
      "loss": 0.0568,
      "num_tokens": 13758518.0,
      "reward": 3.889503002166748,
      "reward_std": 0.4602510929107666,
      "rewards/reward_fn/mean": 3.889503002166748,
      "rewards/reward_fn/std": 0.460251122713089,
      "step": 298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1902.0,
      "completions/mean_length": 824.1875,
      "completions/mean_terminated_length": 784.7096557617188,
      "completions/min_length": 385.0,
      "completions/min_terminated_length": 385.0,
      "epoch": 0.03171740744669566,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.90625,
      "kl": 0.011437640176154673,
      "learning_rate": 7.880799999999999e-06,
      "loss": 0.1652,
      "num_tokens": 13835068.0,
      "reward": 3.2491872310638428,
      "reward_std": 0.6871760487556458,
      "rewards/reward_fn/mean": 3.2491872310638428,
      "rewards/reward_fn/std": 0.6871760487556458,
      "step": 299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1280.0,
      "completions/max_terminated_length": 1280.0,
      "completions/mean_length": 319.59375,
      "completions/mean_terminated_length": 319.59375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.03182348573247056,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.021747147664427757,
      "learning_rate": 7.8804e-06,
      "loss": 0.1173,
      "num_tokens": 13875791.0,
      "reward": 2.884753465652466,
      "reward_std": 0.29689720273017883,
      "rewards/reward_fn/mean": 2.884753465652466,
      "rewards/reward_fn/std": 0.2968972325325012,
      "step": 300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1372.0,
      "completions/mean_length": 842.90625,
      "completions/mean_terminated_length": 762.5667114257812,
      "completions/min_length": 411.0,
      "completions/min_terminated_length": 411.0,
      "epoch": 0.03192956401824547,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.94140625,
      "kl": 0.011148195248097181,
      "learning_rate": 7.879999999999999e-06,
      "loss": 0.0603,
      "num_tokens": 13952556.0,
      "reward": 2.296818256378174,
      "reward_std": 0.7491377592086792,
      "rewards/reward_fn/mean": 2.296818256378174,
      "rewards/reward_fn/std": 0.7491377592086792,
      "step": 301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1247.0,
      "completions/max_terminated_length": 1247.0,
      "completions/mean_length": 287.40625,
      "completions/mean_terminated_length": 287.40625,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.03203564230402037,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.026387330144643784,
      "learning_rate": 7.8796e-06,
      "loss": -0.0635,
      "num_tokens": 14014201.0,
      "reward": 3.5167012214660645,
      "reward_std": 0.7784268856048584,
      "rewards/reward_fn/mean": 3.5167012214660645,
      "rewards/reward_fn/std": 0.7784268856048584,
      "step": 302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 453.0,
      "completions/max_terminated_length": 453.0,
      "completions/mean_length": 256.3125,
      "completions/mean_terminated_length": 256.3125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.03214172058979527,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.01922440528869629,
      "learning_rate": 7.879199999999999e-06,
      "loss": 0.031,
      "num_tokens": 14063331.0,
      "reward": 3.7592110633850098,
      "reward_std": 0.5460023880004883,
      "rewards/reward_fn/mean": 3.7592110633850098,
      "rewards/reward_fn/std": 0.5460023880004883,
      "step": 303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 463.0,
      "completions/max_terminated_length": 463.0,
      "completions/mean_length": 286.625,
      "completions/mean_terminated_length": 286.625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.03224779887557017,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1162109375,
      "kl": 0.022301261080428958,
      "learning_rate": 7.8788e-06,
      "loss": 0.0009,
      "num_tokens": 14111927.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1119.0,
      "completions/mean_length": 565.21875,
      "completions/mean_terminated_length": 517.3870849609375,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.03235387716134507,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.125,
      "kl": 0.01948609808459878,
      "learning_rate": 7.878399999999999e-06,
      "loss": 0.2713,
      "num_tokens": 14167774.0,
      "reward": 2.894683837890625,
      "reward_std": 0.7454859614372253,
      "rewards/reward_fn/mean": 2.894683837890625,
      "rewards/reward_fn/std": 0.7454858422279358,
      "step": 305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 220.0,
      "completions/max_terminated_length": 220.0,
      "completions/mean_length": 125.625,
      "completions/mean_terminated_length": 125.625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.03245995544711997,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1962890625,
      "kl": 0.024616175913251936,
      "learning_rate": 7.878e-06,
      "loss": 0.001,
      "num_tokens": 14184178.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 589.0,
      "completions/max_terminated_length": 589.0,
      "completions/mean_length": 184.34375,
      "completions/mean_terminated_length": 184.34375,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.03256603373289488,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.92578125,
      "kl": 0.028724384726956487,
      "learning_rate": 7.8776e-06,
      "loss": -0.0796,
      "num_tokens": 14227837.0,
      "reward": 3.9284615516662598,
      "reward_std": 0.40468308329582214,
      "rewards/reward_fn/mean": 3.9284615516662598,
      "rewards/reward_fn/std": 0.40468305349349976,
      "step": 307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.0,
      "completions/max_terminated_length": 639.0,
      "completions/mean_length": 285.34375,
      "completions/mean_terminated_length": 285.34375,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.03267211201866978,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.01536768360529095,
      "learning_rate": 7.8772e-06,
      "loss": 0.0255,
      "num_tokens": 14272968.0,
      "reward": 2.920250415802002,
      "reward_std": 0.02926819771528244,
      "rewards/reward_fn/mean": 2.920250415802002,
      "rewards/reward_fn/std": 0.02926819957792759,
      "step": 308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 585.0,
      "completions/max_terminated_length": 585.0,
      "completions/mean_length": 204.5,
      "completions/mean_terminated_length": 204.5,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.03277819030444468,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.1875,
      "kl": 0.025702545884996653,
      "learning_rate": 7.8768e-06,
      "loss": 0.1966,
      "num_tokens": 14313432.0,
      "reward": 3.9622316360473633,
      "reward_std": 0.2136494368314743,
      "rewards/reward_fn/mean": 3.9622316360473633,
      "rewards/reward_fn/std": 0.21364940702915192,
      "step": 309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1067.0,
      "completions/max_terminated_length": 1067.0,
      "completions/mean_length": 303.46875,
      "completions/mean_terminated_length": 303.46875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.03288426859021958,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.017463624943047762,
      "learning_rate": 7.8764e-06,
      "loss": -0.0187,
      "num_tokens": 14358759.0,
      "reward": 3.6965291500091553,
      "reward_std": 0.6346907615661621,
      "rewards/reward_fn/mean": 3.6965291500091553,
      "rewards/reward_fn/std": 0.6346907615661621,
      "step": 310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 826.0,
      "completions/max_terminated_length": 826.0,
      "completions/mean_length": 323.84375,
      "completions/mean_terminated_length": 323.84375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.03299034687599448,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.02454505139030516,
      "learning_rate": 7.876e-06,
      "loss": -0.0422,
      "num_tokens": 14401026.0,
      "reward": 3.7419800758361816,
      "reward_std": 0.49619293212890625,
      "rewards/reward_fn/mean": 3.7419800758361816,
      "rewards/reward_fn/std": 0.49619296193122864,
      "step": 311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 127.0,
      "completions/max_terminated_length": 127.0,
      "completions/mean_length": 86.21875,
      "completions/mean_terminated_length": 86.21875,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.03309642516176939,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.02460471703670919,
      "learning_rate": 7.8756e-06,
      "loss": 0.001,
      "num_tokens": 14444553.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 582.0,
      "completions/max_terminated_length": 582.0,
      "completions/mean_length": 350.90625,
      "completions/mean_terminated_length": 350.90625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.03320250344754429,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.016784140723757446,
      "learning_rate": 7.8752e-06,
      "loss": -0.0192,
      "num_tokens": 14516326.0,
      "reward": 2.9048171043395996,
      "reward_std": 0.38163191080093384,
      "rewards/reward_fn/mean": 2.9048171043395996,
      "rewards/reward_fn/std": 0.38163191080093384,
      "step": 313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 715.0,
      "completions/mean_length": 350.0625,
      "completions/mean_terminated_length": 295.2903137207031,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.03330858173331919,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.026702984934672713,
      "learning_rate": 7.8748e-06,
      "loss": 0.1718,
      "num_tokens": 14566088.0,
      "reward": 2.980964422225952,
      "reward_std": 1.1688123941421509,
      "rewards/reward_fn/mean": 2.980964422225952,
      "rewards/reward_fn/std": 1.1688123941421509,
      "step": 314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2030.0,
      "completions/max_terminated_length": 2030.0,
      "completions/mean_length": 474.21875,
      "completions/mean_terminated_length": 474.21875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.03341466001909409,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.01943380292505026,
      "learning_rate": 7.874399999999999e-06,
      "loss": 0.081,
      "num_tokens": 14593871.0,
      "reward": 3.155921459197998,
      "reward_std": 0.9191026091575623,
      "rewards/reward_fn/mean": 3.155921459197998,
      "rewards/reward_fn/std": 0.9191026091575623,
      "step": 315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 819.0,
      "completions/max_terminated_length": 819.0,
      "completions/mean_length": 190.03125,
      "completions/mean_terminated_length": 190.03125,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.03352073830486899,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.6875,
      "kl": 0.024673061445355415,
      "learning_rate": 7.874e-06,
      "loss": 0.0506,
      "num_tokens": 14634384.0,
      "reward": 2.570242404937744,
      "reward_std": 1.0145124197006226,
      "rewards/reward_fn/mean": 2.570242404937744,
      "rewards/reward_fn/std": 1.014512300491333,
      "step": 316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1258.0,
      "completions/max_terminated_length": 1258.0,
      "completions/mean_length": 525.1875,
      "completions/mean_terminated_length": 525.1875,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.03362681659064389,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.02036218182183802,
      "learning_rate": 7.873599999999999e-06,
      "loss": -0.0318,
      "num_tokens": 14686390.0,
      "reward": 3.0451087951660156,
      "reward_std": 0.3707602620124817,
      "rewards/reward_fn/mean": 3.0451087951660156,
      "rewards/reward_fn/std": 0.3707602024078369,
      "step": 317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 902.0,
      "completions/mean_length": 466.53125,
      "completions/mean_terminated_length": 415.51611328125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.0337328948764188,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.014624205301515758,
      "learning_rate": 7.8732e-06,
      "loss": 0.1828,
      "num_tokens": 14732903.0,
      "reward": 3.0857720375061035,
      "reward_std": 0.7979248762130737,
      "rewards/reward_fn/mean": 3.0857720375061035,
      "rewards/reward_fn/std": 0.797924816608429,
      "step": 318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1788.0,
      "completions/max_terminated_length": 1788.0,
      "completions/mean_length": 344.84375,
      "completions/mean_terminated_length": 344.84375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.0338389731621937,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.02286008303053677,
      "learning_rate": 7.8728e-06,
      "loss": 0.0713,
      "num_tokens": 14776674.0,
      "reward": 2.7754576206207275,
      "reward_std": 0.20874054729938507,
      "rewards/reward_fn/mean": 2.7754576206207275,
      "rewards/reward_fn/std": 0.20874051749706268,
      "step": 319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1612.0,
      "completions/max_terminated_length": 1612.0,
      "completions/mean_length": 347.28125,
      "completions/mean_terminated_length": 347.28125,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.033945051447968604,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.01978490618057549,
      "learning_rate": 7.8724e-06,
      "loss": -0.0013,
      "num_tokens": 14825035.0,
      "reward": 2.7217154502868652,
      "reward_std": 0.0514136478304863,
      "rewards/reward_fn/mean": 2.7217154502868652,
      "rewards/reward_fn/std": 0.05141367390751839,
      "step": 320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1224.0,
      "completions/max_terminated_length": 1224.0,
      "completions/mean_length": 319.34375,
      "completions/mean_terminated_length": 319.34375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.0340511297337435,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.01841491786763072,
      "learning_rate": 7.872e-06,
      "loss": 0.067,
      "num_tokens": 14884118.0,
      "reward": 3.8295905590057373,
      "reward_std": 0.5808995962142944,
      "rewards/reward_fn/mean": 3.8295905590057373,
      "rewards/reward_fn/std": 0.5808995962142944,
      "step": 321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1452.0,
      "completions/max_terminated_length": 1452.0,
      "completions/mean_length": 412.78125,
      "completions/mean_terminated_length": 412.78125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.0341572080195184,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.015279840677976608,
      "learning_rate": 7.8716e-06,
      "loss": 0.0439,
      "num_tokens": 14942063.0,
      "reward": 3.450852870941162,
      "reward_std": 0.6985296607017517,
      "rewards/reward_fn/mean": 3.450852870941162,
      "rewards/reward_fn/std": 0.6985296607017517,
      "step": 322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 275.0,
      "completions/max_terminated_length": 275.0,
      "completions/mean_length": 123.1875,
      "completions/mean_terminated_length": 123.1875,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.03426328630529331,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.6875,
      "kl": 0.01893604954238981,
      "learning_rate": 7.8712e-06,
      "loss": 0.0116,
      "num_tokens": 14967285.0,
      "reward": 3.701681613922119,
      "reward_std": 0.4854101240634918,
      "rewards/reward_fn/mean": 3.701681613922119,
      "rewards/reward_fn/std": 0.48541009426116943,
      "step": 323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.0,
      "completions/max_terminated_length": 473.0,
      "completions/mean_length": 294.5,
      "completions/mean_terminated_length": 294.5,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.03436936459106821,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.02002789406105876,
      "learning_rate": 7.8708e-06,
      "loss": -0.0665,
      "num_tokens": 15018021.0,
      "reward": 3.452935218811035,
      "reward_std": 0.6924206018447876,
      "rewards/reward_fn/mean": 3.452935218811035,
      "rewards/reward_fn/std": 0.6924206018447876,
      "step": 324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 431.09375,
      "completions/mean_terminated_length": 431.09375,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.03447544287684311,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.022256616270169616,
      "learning_rate": 7.8704e-06,
      "loss": 0.141,
      "num_tokens": 15068488.0,
      "reward": 3.595818519592285,
      "reward_std": 0.6756666898727417,
      "rewards/reward_fn/mean": 3.595818519592285,
      "rewards/reward_fn/std": 0.6756666898727417,
      "step": 325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 886.0,
      "completions/max_terminated_length": 886.0,
      "completions/mean_length": 260.5625,
      "completions/mean_terminated_length": 260.5625,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.03458152116261801,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.01728574268054217,
      "learning_rate": 7.87e-06,
      "loss": 0.0252,
      "num_tokens": 15110010.0,
      "reward": 3.9640228748321533,
      "reward_std": 0.2035173624753952,
      "rewards/reward_fn/mean": 3.9640228748321533,
      "rewards/reward_fn/std": 0.2035173922777176,
      "step": 326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/max_terminated_length": 303.0,
      "completions/mean_length": 201.53125,
      "completions/mean_terminated_length": 201.53125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.03468759944839291,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.019541570218279958,
      "learning_rate": 7.8696e-06,
      "loss": 0.0094,
      "num_tokens": 15161835.0,
      "reward": 2.861398220062256,
      "reward_std": 0.22285261750221252,
      "rewards/reward_fn/mean": 2.861398220062256,
      "rewards/reward_fn/std": 0.22285260260105133,
      "step": 327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 171.0,
      "completions/max_terminated_length": 171.0,
      "completions/mean_length": 106.59375,
      "completions/mean_terminated_length": 106.59375,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.03479367773416782,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.25,
      "kl": 0.020829411456361413,
      "learning_rate": 7.869199999999999e-06,
      "loss": 0.0216,
      "num_tokens": 15199870.0,
      "reward": 3.7141122817993164,
      "reward_std": 0.46484532952308655,
      "rewards/reward_fn/mean": 3.7141122817993164,
      "rewards/reward_fn/std": 0.46484535932540894,
      "step": 328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 503.0,
      "completions/max_terminated_length": 503.0,
      "completions/mean_length": 348.71875,
      "completions/mean_terminated_length": 348.71875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.03489975601994272,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.021267442498356104,
      "learning_rate": 7.8688e-06,
      "loss": 0.0477,
      "num_tokens": 15240917.0,
      "reward": 2.838244915008545,
      "reward_std": 0.0607428215444088,
      "rewards/reward_fn/mean": 2.838244915008545,
      "rewards/reward_fn/std": 0.060742802917957306,
      "step": 329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 897.0,
      "completions/max_terminated_length": 897.0,
      "completions/mean_length": 261.0,
      "completions/mean_terminated_length": 261.0,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.03500583430571762,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.026442324509844184,
      "learning_rate": 7.8684e-06,
      "loss": -0.1112,
      "num_tokens": 15287893.0,
      "reward": 3.518838405609131,
      "reward_std": 0.8920819759368896,
      "rewards/reward_fn/mean": 3.518838405609131,
      "rewards/reward_fn/std": 0.8920818567276001,
      "step": 330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 325.0,
      "completions/max_terminated_length": 325.0,
      "completions/mean_length": 199.4375,
      "completions/mean_terminated_length": 199.4375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.035111912591492524,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.027465834515169263,
      "learning_rate": 7.868e-06,
      "loss": 0.0479,
      "num_tokens": 15326755.0,
      "reward": 3.804008722305298,
      "reward_std": 0.3705672025680542,
      "rewards/reward_fn/mean": 3.804008722305298,
      "rewards/reward_fn/std": 0.3705671727657318,
      "step": 331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1112.0,
      "completions/max_terminated_length": 1112.0,
      "completions/mean_length": 330.84375,
      "completions/mean_terminated_length": 330.84375,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.03521799087726742,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.0256270794197917,
      "learning_rate": 7.8676e-06,
      "loss": -0.0112,
      "num_tokens": 15370622.0,
      "reward": 2.7658400535583496,
      "reward_std": 0.19479042291641235,
      "rewards/reward_fn/mean": 2.7658400535583496,
      "rewards/reward_fn/std": 0.19479040801525116,
      "step": 332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1153.0,
      "completions/mean_length": 780.15625,
      "completions/mean_terminated_length": 599.0357666015625,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.03532406916304232,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.01505154138430953,
      "learning_rate": 7.8672e-06,
      "loss": 0.3167,
      "num_tokens": 15439171.0,
      "reward": 2.6815433502197266,
      "reward_std": 1.2791556119918823,
      "rewards/reward_fn/mean": 2.6815433502197266,
      "rewards/reward_fn/std": 1.2791556119918823,
      "step": 333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1081.0,
      "completions/max_terminated_length": 1081.0,
      "completions/mean_length": 340.4375,
      "completions/mean_terminated_length": 340.4375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.03543014744881723,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.022124167764559388,
      "learning_rate": 7.866799999999999e-06,
      "loss": -0.0204,
      "num_tokens": 15488241.0,
      "reward": 3.7875170707702637,
      "reward_std": 0.6110662221908569,
      "rewards/reward_fn/mean": 3.7875170707702637,
      "rewards/reward_fn/std": 0.6110662221908569,
      "step": 334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.0,
      "completions/max_terminated_length": 370.0,
      "completions/mean_length": 251.84375,
      "completions/mean_terminated_length": 251.84375,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.03553622573459213,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.023350659990683198,
      "learning_rate": 7.8664e-06,
      "loss": 0.013,
      "num_tokens": 15539180.0,
      "reward": 2.956249475479126,
      "reward_std": 0.4766891896724701,
      "rewards/reward_fn/mean": 2.956249475479126,
      "rewards/reward_fn/std": 0.4766892194747925,
      "step": 335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1524.0,
      "completions/mean_length": 694.25,
      "completions/mean_terminated_length": 650.5806274414062,
      "completions/min_length": 379.0,
      "completions/min_terminated_length": 379.0,
      "epoch": 0.035642304020367034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.02155219833366573,
      "learning_rate": 7.865999999999999e-06,
      "loss": 0.1593,
      "num_tokens": 15606964.0,
      "reward": 2.4331278800964355,
      "reward_std": 0.6054124236106873,
      "rewards/reward_fn/mean": 2.4331278800964355,
      "rewards/reward_fn/std": 0.6054123640060425,
      "step": 336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1832.0,
      "completions/max_terminated_length": 1832.0,
      "completions/mean_length": 321.46875,
      "completions/mean_terminated_length": 321.46875,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.03574838230614193,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.03199986438266933,
      "learning_rate": 7.8656e-06,
      "loss": 0.0461,
      "num_tokens": 15647139.0,
      "reward": 2.767442226409912,
      "reward_std": 0.20596739649772644,
      "rewards/reward_fn/mean": 2.767442226409912,
      "rewards/reward_fn/std": 0.20596742630004883,
      "step": 337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 195.0,
      "completions/max_terminated_length": 195.0,
      "completions/mean_length": 119.90625,
      "completions/mean_terminated_length": 119.90625,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.03585446059191683,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.921875,
      "kl": 0.03643982787616551,
      "learning_rate": 7.865199999999999e-06,
      "loss": -0.0177,
      "num_tokens": 15696160.0,
      "reward": 3.380324602127075,
      "reward_std": 0.5965169072151184,
      "rewards/reward_fn/mean": 3.380324602127075,
      "rewards/reward_fn/std": 0.5965169072151184,
      "step": 338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 903.0,
      "completions/max_terminated_length": 903.0,
      "completions/mean_length": 206.71875,
      "completions/mean_terminated_length": 206.71875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.03596053887769174,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.16015625,
      "kl": 0.030227781971916556,
      "learning_rate": 7.8648e-06,
      "loss": 0.0012,
      "num_tokens": 15742903.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 495.0,
      "completions/max_terminated_length": 495.0,
      "completions/mean_length": 330.0625,
      "completions/mean_terminated_length": 330.0625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.03606661716346664,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.023755632108077407,
      "learning_rate": 7.864399999999999e-06,
      "loss": 0.0689,
      "num_tokens": 15790329.0,
      "reward": 2.75354266166687,
      "reward_std": 0.03267281502485275,
      "rewards/reward_fn/mean": 2.75354266166687,
      "rewards/reward_fn/std": 0.03267282247543335,
      "step": 340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1126.0,
      "completions/max_terminated_length": 1126.0,
      "completions/mean_length": 263.46875,
      "completions/mean_terminated_length": 263.46875,
      "completions/min_length": 39.0,
      "completions/min_terminated_length": 39.0,
      "epoch": 0.03617269544924154,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.0320469920989126,
      "learning_rate": 7.864e-06,
      "loss": -0.1167,
      "num_tokens": 15817384.0,
      "reward": 3.7375216484069824,
      "reward_std": 0.8701768517494202,
      "rewards/reward_fn/mean": 3.7375216484069824,
      "rewards/reward_fn/std": 0.8701767921447754,
      "step": 341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 252.0,
      "completions/max_terminated_length": 252.0,
      "completions/mean_length": 158.28125,
      "completions/mean_terminated_length": 158.28125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.036278773735016444,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.625,
      "kl": 0.03848015540279448,
      "learning_rate": 7.8636e-06,
      "loss": 0.0212,
      "num_tokens": 15860625.0,
      "reward": 3.2080063819885254,
      "reward_std": 0.7717536091804504,
      "rewards/reward_fn/mean": 3.2080063819885254,
      "rewards/reward_fn/std": 0.7717535495758057,
      "step": 342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2037.0,
      "completions/mean_length": 620.875,
      "completions/mean_terminated_length": 525.7333374023438,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.03638485202079134,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.022421202156692743,
      "learning_rate": 7.8632e-06,
      "loss": 0.1028,
      "num_tokens": 15921357.0,
      "reward": 2.6614723205566406,
      "reward_std": 0.526772677898407,
      "rewards/reward_fn/mean": 2.6614723205566406,
      "rewards/reward_fn/std": 0.5267727375030518,
      "step": 343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 271.0,
      "completions/max_terminated_length": 271.0,
      "completions/mean_length": 184.40625,
      "completions/mean_terminated_length": 184.40625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.03649093030656624,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.02825386798940599,
      "learning_rate": 7.8628e-06,
      "loss": 0.0271,
      "num_tokens": 15961850.0,
      "reward": 3.163677215576172,
      "reward_std": 0.5745911598205566,
      "rewards/reward_fn/mean": 3.163677215576172,
      "rewards/reward_fn/std": 0.5745911002159119,
      "step": 344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.0,
      "completions/max_terminated_length": 473.0,
      "completions/mean_length": 263.0625,
      "completions/mean_terminated_length": 263.0625,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.03659700859234115,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.03263953677378595,
      "learning_rate": 7.8624e-06,
      "loss": 0.0094,
      "num_tokens": 15981884.0,
      "reward": 3.4133460521698,
      "reward_std": 0.9804157614707947,
      "rewards/reward_fn/mean": 3.4133460521698,
      "rewards/reward_fn/std": 0.9804157018661499,
      "step": 345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1789.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 376.6875,
      "completions/mean_terminated_length": 376.6875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.03670308687811605,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.028175218030810356,
      "learning_rate": 7.862e-06,
      "loss": -0.0734,
      "num_tokens": 16046098.0,
      "reward": 3.028233051300049,
      "reward_std": 0.3557929992675781,
      "rewards/reward_fn/mean": 3.028233051300049,
      "rewards/reward_fn/std": 0.3557929992675781,
      "step": 346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 435.0,
      "completions/max_terminated_length": 435.0,
      "completions/mean_length": 228.1875,
      "completions/mean_terminated_length": 228.1875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.036809165163890954,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.03550481074489653,
      "learning_rate": 7.8616e-06,
      "loss": 0.0374,
      "num_tokens": 16086616.0,
      "reward": 3.3797616958618164,
      "reward_std": 0.6313052177429199,
      "rewards/reward_fn/mean": 3.3797616958618164,
      "rewards/reward_fn/std": 0.6313052177429199,
      "step": 347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 611.0,
      "completions/max_terminated_length": 611.0,
      "completions/mean_length": 189.875,
      "completions/mean_terminated_length": 189.875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.036915243449665854,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1435546875,
      "kl": 0.027385680470615625,
      "learning_rate": 7.8612e-06,
      "loss": 0.0011,
      "num_tokens": 16125396.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 392.0,
      "completions/max_terminated_length": 392.0,
      "completions/mean_length": 235.5,
      "completions/mean_terminated_length": 235.5,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.03702132173544075,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.04070192761719227,
      "learning_rate": 7.8608e-06,
      "loss": 0.02,
      "num_tokens": 16168260.0,
      "reward": 3.54952335357666,
      "reward_std": 0.7186921834945679,
      "rewards/reward_fn/mean": 3.54952335357666,
      "rewards/reward_fn/std": 0.7186923027038574,
      "step": 349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1830.0,
      "completions/max_terminated_length": 1830.0,
      "completions/mean_length": 363.90625,
      "completions/mean_terminated_length": 363.90625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.03712740002121566,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.026658386690542102,
      "learning_rate": 7.8604e-06,
      "loss": -0.0186,
      "num_tokens": 16211073.0,
      "reward": 3.8557639122009277,
      "reward_std": 0.5675714015960693,
      "rewards/reward_fn/mean": 3.8557639122009277,
      "rewards/reward_fn/std": 0.5675714015960693,
      "step": 350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1025.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 291.09375,
      "completions/mean_terminated_length": 291.09375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.03723347830699056,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.028336241375654936,
      "learning_rate": 7.86e-06,
      "loss": -0.0066,
      "num_tokens": 16266500.0,
      "reward": 2.8183717727661133,
      "reward_std": 0.9820890426635742,
      "rewards/reward_fn/mean": 2.8183717727661133,
      "rewards/reward_fn/std": 0.9820890426635742,
      "step": 351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 432.0,
      "completions/max_terminated_length": 432.0,
      "completions/mean_length": 270.4375,
      "completions/mean_terminated_length": 270.4375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.03733955659276546,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02873558783903718,
      "learning_rate": 7.8596e-06,
      "loss": -0.0038,
      "num_tokens": 16329586.0,
      "reward": 2.79421329498291,
      "reward_std": 0.18948742747306824,
      "rewards/reward_fn/mean": 2.79421329498291,
      "rewards/reward_fn/std": 0.18948739767074585,
      "step": 352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1763.0,
      "completions/mean_length": 680.0625,
      "completions/mean_terminated_length": 588.86669921875,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.037445634878540364,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.02555919042788446,
      "learning_rate": 7.8592e-06,
      "loss": 0.2532,
      "num_tokens": 16373236.0,
      "reward": 2.7877817153930664,
      "reward_std": 0.9033706784248352,
      "rewards/reward_fn/mean": 2.7877817153930664,
      "rewards/reward_fn/std": 0.9033706188201904,
      "step": 353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 659.0,
      "completions/mean_length": 382.59375,
      "completions/mean_terminated_length": 328.8709716796875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.03755171316431526,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2578125,
      "kl": 0.024913710309192538,
      "learning_rate": 7.8588e-06,
      "loss": 0.1477,
      "num_tokens": 16427431.0,
      "reward": 2.9459004402160645,
      "reward_std": 1.0123151540756226,
      "rewards/reward_fn/mean": 2.9459004402160645,
      "rewards/reward_fn/std": 1.0123151540756226,
      "step": 354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 236.0,
      "completions/max_terminated_length": 236.0,
      "completions/mean_length": 121.125,
      "completions/mean_terminated_length": 121.125,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.03765779145009017,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.142578125,
      "kl": 0.022564243176020682,
      "learning_rate": 7.8584e-06,
      "loss": 0.0009,
      "num_tokens": 16467051.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 629.0,
      "completions/max_terminated_length": 629.0,
      "completions/mean_length": 232.84375,
      "completions/mean_terminated_length": 232.84375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.03776386973586507,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.032447136007249355,
      "learning_rate": 7.858e-06,
      "loss": -0.007,
      "num_tokens": 16514694.0,
      "reward": 2.8739380836486816,
      "reward_std": 0.4234299659729004,
      "rewards/reward_fn/mean": 2.8739380836486816,
      "rewards/reward_fn/std": 0.423429936170578,
      "step": 356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 276.0,
      "completions/max_terminated_length": 276.0,
      "completions/mean_length": 184.78125,
      "completions/mean_terminated_length": 184.78125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.03786994802163997,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.03548223176039755,
      "learning_rate": 7.857599999999999e-06,
      "loss": 0.0056,
      "num_tokens": 16551295.0,
      "reward": 3.7814149856567383,
      "reward_std": 0.5462931990623474,
      "rewards/reward_fn/mean": 3.7814149856567383,
      "rewards/reward_fn/std": 0.5462931990623474,
      "step": 357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 622.0,
      "completions/max_terminated_length": 622.0,
      "completions/mean_length": 199.0,
      "completions/mean_terminated_length": 199.0,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.037976026307414874,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1240234375,
      "kl": 0.02927296655252576,
      "learning_rate": 7.8572e-06,
      "loss": 0.0012,
      "num_tokens": 16601823.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1658.0,
      "completions/mean_length": 681.0,
      "completions/mean_terminated_length": 636.9031982421875,
      "completions/min_length": 393.0,
      "completions/min_terminated_length": 393.0,
      "epoch": 0.038082104593189774,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.02082135993987322,
      "learning_rate": 7.856799999999999e-06,
      "loss": 0.054,
      "num_tokens": 16649087.0,
      "reward": 2.0146098136901855,
      "reward_std": 0.59377121925354,
      "rewards/reward_fn/mean": 2.0146098136901855,
      "rewards/reward_fn/std": 0.59377121925354,
      "step": 359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 185.0,
      "completions/max_terminated_length": 185.0,
      "completions/mean_length": 115.71875,
      "completions/mean_terminated_length": 115.71875,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.03818818287896467,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11474609375,
      "kl": 0.02015709993429482,
      "learning_rate": 7.8564e-06,
      "loss": 0.0008,
      "num_tokens": 16679478.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 764.0,
      "completions/max_terminated_length": 764.0,
      "completions/mean_length": 360.28125,
      "completions/mean_terminated_length": 360.28125,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.03829426116473958,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.030813375022262335,
      "learning_rate": 7.855999999999999e-06,
      "loss": -0.0245,
      "num_tokens": 16727167.0,
      "reward": 2.8578453063964844,
      "reward_std": 0.0672156810760498,
      "rewards/reward_fn/mean": 2.8578453063964844,
      "rewards/reward_fn/std": 0.0672157034277916,
      "step": 361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.0,
      "completions/max_terminated_length": 310.0,
      "completions/mean_length": 116.78125,
      "completions/mean_terminated_length": 116.78125,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.03840033945051448,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.201171875,
      "kl": 0.03886803472414613,
      "learning_rate": 7.8556e-06,
      "loss": 0.0016,
      "num_tokens": 16768696.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 199.0,
      "completions/max_terminated_length": 199.0,
      "completions/mean_length": 97.59375,
      "completions/mean_terminated_length": 97.59375,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.038506417736289385,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1728515625,
      "kl": 0.02677657501772046,
      "learning_rate": 7.855199999999999e-06,
      "loss": 0.0011,
      "num_tokens": 16807979.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1010.0,
      "completions/max_terminated_length": 1010.0,
      "completions/mean_length": 323.0625,
      "completions/mean_terminated_length": 323.0625,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.038612496022064284,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.025971536757424474,
      "learning_rate": 7.8548e-06,
      "loss": 0.0311,
      "num_tokens": 16855277.0,
      "reward": 3.0506677627563477,
      "reward_std": 0.511308491230011,
      "rewards/reward_fn/mean": 3.0506677627563477,
      "rewards/reward_fn/std": 0.511308491230011,
      "step": 364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 850.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 440.84375,
      "completions/mean_terminated_length": 440.84375,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.03871857430783918,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.028090456500649452,
      "learning_rate": 7.854399999999999e-06,
      "loss": 0.0004,
      "num_tokens": 16930856.0,
      "reward": 1.8972702026367188,
      "reward_std": 0.502529501914978,
      "rewards/reward_fn/mean": 1.8972702026367188,
      "rewards/reward_fn/std": 0.502529501914978,
      "step": 365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 176.0,
      "completions/max_terminated_length": 176.0,
      "completions/mean_length": 120.0,
      "completions/mean_terminated_length": 120.0,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.03882465259361409,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.087890625,
      "kl": 0.017430690582841635,
      "learning_rate": 7.854e-06,
      "loss": 0.0007,
      "num_tokens": 16972104.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 442.0,
      "completions/max_terminated_length": 442.0,
      "completions/mean_length": 264.5,
      "completions/mean_terminated_length": 264.5,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.03893073087938899,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02535721193999052,
      "learning_rate": 7.8536e-06,
      "loss": 0.1011,
      "num_tokens": 17014200.0,
      "reward": 3.448211193084717,
      "reward_std": 0.4737915098667145,
      "rewards/reward_fn/mean": 3.448211193084717,
      "rewards/reward_fn/std": 0.4737914502620697,
      "step": 367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 229.84375,
      "completions/mean_terminated_length": 229.84375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.03903680916516389,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.028732048347592354,
      "learning_rate": 7.8532e-06,
      "loss": 0.0519,
      "num_tokens": 17042675.0,
      "reward": 3.8204574584960938,
      "reward_std": 0.5905638337135315,
      "rewards/reward_fn/mean": 3.8204574584960938,
      "rewards/reward_fn/std": 0.5905638337135315,
      "step": 368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 259.0,
      "completions/max_terminated_length": 259.0,
      "completions/mean_length": 144.21875,
      "completions/mean_terminated_length": 144.21875,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "epoch": 0.039142887450938794,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12255859375,
      "kl": 0.02795306663028896,
      "learning_rate": 7.8528e-06,
      "loss": 0.0011,
      "num_tokens": 17072858.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 614.0,
      "completions/max_terminated_length": 614.0,
      "completions/mean_length": 291.0,
      "completions/mean_terminated_length": 291.0,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.039248965736713694,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.024855082854628563,
      "learning_rate": 7.8524e-06,
      "loss": 0.039,
      "num_tokens": 17111994.0,
      "reward": 3.0236971378326416,
      "reward_std": 0.18900470435619354,
      "rewards/reward_fn/mean": 3.0236971378326416,
      "rewards/reward_fn/std": 0.18900467455387115,
      "step": 370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 420.0,
      "completions/max_terminated_length": 420.0,
      "completions/mean_length": 169.6875,
      "completions/mean_terminated_length": 169.6875,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.0393550440224886,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.036026960471645,
      "learning_rate": 7.852e-06,
      "loss": -0.0048,
      "num_tokens": 17161744.0,
      "reward": 3.9573440551757812,
      "reward_std": 0.24129843711853027,
      "rewards/reward_fn/mean": 3.9573440551757812,
      "rewards/reward_fn/std": 0.24129842221736908,
      "step": 371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1136.0,
      "completions/max_terminated_length": 1136.0,
      "completions/mean_length": 207.90625,
      "completions/mean_terminated_length": 207.90625,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.0394611223082635,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10107421875,
      "kl": 0.026199826737865806,
      "learning_rate": 7.8516e-06,
      "loss": 0.001,
      "num_tokens": 17191821.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 252.0,
      "completions/max_terminated_length": 252.0,
      "completions/mean_length": 195.40625,
      "completions/mean_terminated_length": 195.40625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.0395672005940384,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1630859375,
      "kl": 0.03569826763123274,
      "learning_rate": 7.8512e-06,
      "loss": 0.0014,
      "num_tokens": 17239802.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 906.0,
      "completions/mean_length": 500.3125,
      "completions/mean_terminated_length": 450.3870849609375,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.039673278879813305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.024202445056289434,
      "learning_rate": 7.8508e-06,
      "loss": 0.0908,
      "num_tokens": 17302948.0,
      "reward": 2.246391773223877,
      "reward_std": 0.7711318135261536,
      "rewards/reward_fn/mean": 2.246391773223877,
      "rewards/reward_fn/std": 0.7711318135261536,
      "step": 374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 679.0,
      "completions/max_terminated_length": 679.0,
      "completions/mean_length": 335.375,
      "completions/mean_terminated_length": 335.375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.039779357165588204,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.0259898176882416,
      "learning_rate": 7.850399999999999e-06,
      "loss": 0.0233,
      "num_tokens": 17358384.0,
      "reward": 2.9620676040649414,
      "reward_std": 0.07208557426929474,
      "rewards/reward_fn/mean": 2.9620676040649414,
      "rewards/reward_fn/std": 0.07208552956581116,
      "step": 375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 884.0,
      "completions/max_terminated_length": 884.0,
      "completions/mean_length": 231.09375,
      "completions/mean_terminated_length": 231.09375,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.039885435451363103,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.030499441782012582,
      "learning_rate": 7.85e-06,
      "loss": -0.0047,
      "num_tokens": 17396947.0,
      "reward": 3.423821449279785,
      "reward_std": 0.5857948660850525,
      "rewards/reward_fn/mean": 3.423821449279785,
      "rewards/reward_fn/std": 0.5857948660850525,
      "step": 376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1796.0,
      "completions/mean_length": 451.96875,
      "completions/mean_terminated_length": 400.4838562011719,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.03999151373713801,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.022297584218904376,
      "learning_rate": 7.849599999999999e-06,
      "loss": 0.2615,
      "num_tokens": 17442866.0,
      "reward": 2.704645872116089,
      "reward_std": 0.6090136170387268,
      "rewards/reward_fn/mean": 2.704645872116089,
      "rewards/reward_fn/std": 0.6090136170387268,
      "step": 377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 577.0,
      "completions/max_terminated_length": 577.0,
      "completions/mean_length": 374.875,
      "completions/mean_terminated_length": 374.875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.04009759202291291,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.021644736174494028,
      "learning_rate": 7.8492e-06,
      "loss": -0.0128,
      "num_tokens": 17487022.0,
      "reward": 2.907583713531494,
      "reward_std": 0.46556609869003296,
      "rewards/reward_fn/mean": 2.907583713531494,
      "rewards/reward_fn/std": 0.46556606888771057,
      "step": 378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1103.0,
      "completions/max_terminated_length": 1103.0,
      "completions/mean_length": 316.59375,
      "completions/mean_terminated_length": 316.59375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.04020367030868781,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.02532161376439035,
      "learning_rate": 7.8488e-06,
      "loss": -0.0199,
      "num_tokens": 17530977.0,
      "reward": 3.670456886291504,
      "reward_std": 0.41091057658195496,
      "rewards/reward_fn/mean": 3.670456886291504,
      "rewards/reward_fn/std": 0.41091054677963257,
      "step": 379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1597.0,
      "completions/max_terminated_length": 1597.0,
      "completions/mean_length": 468.9375,
      "completions/mean_terminated_length": 468.9375,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.040309748594462715,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.018143147695809603,
      "learning_rate": 7.8484e-06,
      "loss": 0.1946,
      "num_tokens": 17587871.0,
      "reward": 2.6948769092559814,
      "reward_std": 0.26830726861953735,
      "rewards/reward_fn/mean": 2.6948769092559814,
      "rewards/reward_fn/std": 0.26830726861953735,
      "step": 380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 669.0,
      "completions/mean_length": 357.5,
      "completions/mean_terminated_length": 302.9677429199219,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.040415826880237614,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.023040967527776957,
      "learning_rate": 7.848e-06,
      "loss": 0.2107,
      "num_tokens": 17636175.0,
      "reward": 3.7304601669311523,
      "reward_std": 0.7834086418151855,
      "rewards/reward_fn/mean": 3.7304601669311523,
      "rewards/reward_fn/std": 0.7834085822105408,
      "step": 381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 613.0,
      "completions/max_terminated_length": 613.0,
      "completions/mean_length": 195.875,
      "completions/mean_terminated_length": 195.875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.04052190516601252,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10693359375,
      "kl": 0.02284376136958599,
      "learning_rate": 7.8476e-06,
      "loss": 0.0009,
      "num_tokens": 17657579.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 118.0,
      "completions/max_terminated_length": 118.0,
      "completions/mean_length": 89.5,
      "completions/mean_terminated_length": 89.5,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.04062798345178742,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2890625,
      "kl": 0.03317818860523403,
      "learning_rate": 7.8472e-06,
      "loss": 0.0013,
      "num_tokens": 17685723.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1824.0,
      "completions/mean_length": 1247.1875,
      "completions/mean_terminated_length": 1221.3548583984375,
      "completions/min_length": 678.0,
      "completions/min_terminated_length": 678.0,
      "epoch": 0.04073406173756232,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.80078125,
      "kl": 0.013792349374853075,
      "learning_rate": 7.846799999999999e-06,
      "loss": -0.0208,
      "num_tokens": 17768065.0,
      "reward": 2.3582417964935303,
      "reward_std": 0.49515044689178467,
      "rewards/reward_fn/mean": 2.3582417964935303,
      "rewards/reward_fn/std": 0.4951504170894623,
      "step": 384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 563.0,
      "completions/max_terminated_length": 563.0,
      "completions/mean_length": 341.53125,
      "completions/mean_terminated_length": 341.53125,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.040840140023337225,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.019186724559403956,
      "learning_rate": 7.8464e-06,
      "loss": 0.0339,
      "num_tokens": 17814194.0,
      "reward": 2.7873990535736084,
      "reward_std": 0.02758314460515976,
      "rewards/reward_fn/mean": 2.7873990535736084,
      "rewards/reward_fn/std": 0.027583174407482147,
      "step": 385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 778.0,
      "completions/max_terminated_length": 778.0,
      "completions/mean_length": 384.78125,
      "completions/mean_terminated_length": 384.78125,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.040946218309112124,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.024335808353498578,
      "learning_rate": 7.845999999999999e-06,
      "loss": -0.0277,
      "num_tokens": 17859755.0,
      "reward": 2.8218817710876465,
      "reward_std": 0.051523782312870026,
      "rewards/reward_fn/mean": 2.8218817710876465,
      "rewards/reward_fn/std": 0.05152379348874092,
      "step": 386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1863.0,
      "completions/mean_length": 541.5625,
      "completions/mean_terminated_length": 492.96771240234375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.041052296594887024,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.02720357710495591,
      "learning_rate": 7.8456e-06,
      "loss": 0.041,
      "num_tokens": 17909629.0,
      "reward": 2.3109424114227295,
      "reward_std": 0.6412019729614258,
      "rewards/reward_fn/mean": 2.3109424114227295,
      "rewards/reward_fn/std": 0.641201913356781,
      "step": 387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 636.0,
      "completions/max_terminated_length": 636.0,
      "completions/mean_length": 220.625,
      "completions/mean_terminated_length": 220.625,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.04115837488066193,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.828125,
      "kl": 0.022277627140283585,
      "learning_rate": 7.845199999999999e-06,
      "loss": 0.2392,
      "num_tokens": 17937329.0,
      "reward": 3.7471237182617188,
      "reward_std": 0.4859867990016937,
      "rewards/reward_fn/mean": 3.7471237182617188,
      "rewards/reward_fn/std": 0.4859868288040161,
      "step": 388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 743.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 181.625,
      "completions/mean_terminated_length": 181.625,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.04126445316643683,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1337890625,
      "kl": 0.033335258485749364,
      "learning_rate": 7.8448e-06,
      "loss": 0.0013,
      "num_tokens": 17977157.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 997.0,
      "completions/max_terminated_length": 997.0,
      "completions/mean_length": 270.53125,
      "completions/mean_terminated_length": 270.53125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.041370531452211735,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.024321889970451593,
      "learning_rate": 7.8444e-06,
      "loss": 0.001,
      "num_tokens": 18014102.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 409.0,
      "completions/max_terminated_length": 409.0,
      "completions/mean_length": 241.03125,
      "completions/mean_terminated_length": 241.03125,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.041476609737986635,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.02815451007336378,
      "learning_rate": 7.844e-06,
      "loss": 0.0235,
      "num_tokens": 18058551.0,
      "reward": 3.104393482208252,
      "reward_std": 0.4822303354740143,
      "rewards/reward_fn/mean": 3.104393482208252,
      "rewards/reward_fn/std": 0.48223036527633667,
      "step": 391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 521.0,
      "completions/max_terminated_length": 521.0,
      "completions/mean_length": 297.96875,
      "completions/mean_terminated_length": 297.96875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.041582688023761534,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.020035157212987542,
      "learning_rate": 7.8436e-06,
      "loss": -0.0126,
      "num_tokens": 18098454.0,
      "reward": 3.4708333015441895,
      "reward_std": 0.5728017091751099,
      "rewards/reward_fn/mean": 3.4708333015441895,
      "rewards/reward_fn/std": 0.5728016495704651,
      "step": 392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 893.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 300.21875,
      "completions/mean_terminated_length": 300.21875,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.04168876630953644,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.02791671548038721,
      "learning_rate": 7.8432e-06,
      "loss": 0.2627,
      "num_tokens": 18152669.0,
      "reward": 3.1782641410827637,
      "reward_std": 1.0244643688201904,
      "rewards/reward_fn/mean": 3.1782641410827637,
      "rewards/reward_fn/std": 1.0244643688201904,
      "step": 393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 882.0,
      "completions/max_terminated_length": 882.0,
      "completions/mean_length": 455.0,
      "completions/mean_terminated_length": 455.0,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.04179484459531134,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0859375,
      "kl": 0.02029509423300624,
      "learning_rate": 7.8428e-06,
      "loss": -0.0168,
      "num_tokens": 18200637.0,
      "reward": 2.588132381439209,
      "reward_std": 0.3573741018772125,
      "rewards/reward_fn/mean": 2.588132381439209,
      "rewards/reward_fn/std": 0.3573741316795349,
      "step": 394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 179.90625,
      "completions/mean_terminated_length": 179.90625,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.04190092288108624,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.05105016054585576,
      "learning_rate": 7.8424e-06,
      "loss": 0.0476,
      "num_tokens": 18236570.0,
      "reward": 2.7826709747314453,
      "reward_std": 0.04271591454744339,
      "rewards/reward_fn/mean": 2.7826709747314453,
      "rewards/reward_fn/std": 0.04271586239337921,
      "step": 395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 385.0,
      "completions/max_terminated_length": 385.0,
      "completions/mean_length": 266.65625,
      "completions/mean_terminated_length": 266.65625,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.042007001166861145,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.023414030205458403,
      "learning_rate": 7.841999999999999e-06,
      "loss": 0.0183,
      "num_tokens": 18276303.0,
      "reward": 2.849137544631958,
      "reward_std": 0.30862998962402344,
      "rewards/reward_fn/mean": 2.849137544631958,
      "rewards/reward_fn/std": 0.30862998962402344,
      "step": 396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 905.0,
      "completions/max_terminated_length": 905.0,
      "completions/mean_length": 131.1875,
      "completions/mean_terminated_length": 131.1875,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.042113079452636044,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.029712033225223422,
      "learning_rate": 7.8416e-06,
      "loss": -0.0091,
      "num_tokens": 18314901.0,
      "reward": 3.9370594024658203,
      "reward_std": 0.2479006052017212,
      "rewards/reward_fn/mean": 3.9370594024658203,
      "rewards/reward_fn/std": 0.24790059030056,
      "step": 397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1483.0,
      "completions/mean_length": 583.15625,
      "completions/mean_terminated_length": 535.9031982421875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.04221915773841095,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.024179237661883235,
      "learning_rate": 7.841199999999999e-06,
      "loss": 0.2692,
      "num_tokens": 18366682.0,
      "reward": 2.734818935394287,
      "reward_std": 0.5017510056495667,
      "rewards/reward_fn/mean": 2.734818935394287,
      "rewards/reward_fn/std": 0.5017510056495667,
      "step": 398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 448.9375,
      "completions/mean_terminated_length": 448.9375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.04232523602418585,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2578125,
      "kl": 0.021006060764193535,
      "learning_rate": 7.8408e-06,
      "loss": -0.0214,
      "num_tokens": 18432152.0,
      "reward": 3.894382953643799,
      "reward_std": 0.33419135212898254,
      "rewards/reward_fn/mean": 3.894382953643799,
      "rewards/reward_fn/std": 0.33419132232666016,
      "step": 399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1599.0,
      "completions/max_terminated_length": 1599.0,
      "completions/mean_length": 788.9375,
      "completions/mean_terminated_length": 788.9375,
      "completions/min_length": 386.0,
      "completions/min_terminated_length": 386.0,
      "epoch": 0.04243131430996075,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0546875,
      "kl": 0.01675853121560067,
      "learning_rate": 7.840399999999999e-06,
      "loss": -0.0367,
      "num_tokens": 18497974.0,
      "reward": 2.990764856338501,
      "reward_std": 0.4567594826221466,
      "rewards/reward_fn/mean": 2.990764856338501,
      "rewards/reward_fn/std": 0.4567594528198242,
      "step": 400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 224.0,
      "completions/max_terminated_length": 224.0,
      "completions/mean_length": 191.0625,
      "completions/mean_terminated_length": 191.0625,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.042537392595735656,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.119140625,
      "kl": 0.03011680906638503,
      "learning_rate": 7.84e-06,
      "loss": 0.0012,
      "num_tokens": 18556440.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1049.0,
      "completions/max_terminated_length": 1049.0,
      "completions/mean_length": 357.9375,
      "completions/mean_terminated_length": 357.9375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.042643470881510555,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.021929903188720345,
      "learning_rate": 7.8396e-06,
      "loss": 0.0267,
      "num_tokens": 18602006.0,
      "reward": 3.1588587760925293,
      "reward_std": 0.5363696217536926,
      "rewards/reward_fn/mean": 3.1588587760925293,
      "rewards/reward_fn/std": 0.5363695621490479,
      "step": 402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1226.0,
      "completions/max_terminated_length": 1226.0,
      "completions/mean_length": 370.78125,
      "completions/mean_terminated_length": 370.78125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.042749549167285454,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.023676603566855192,
      "learning_rate": 7.8392e-06,
      "loss": -0.0388,
      "num_tokens": 18650863.0,
      "reward": 2.7991724014282227,
      "reward_std": 0.27458456158638,
      "rewards/reward_fn/mean": 2.7991724014282227,
      "rewards/reward_fn/std": 0.2745845317840576,
      "step": 403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1534.0,
      "completions/max_terminated_length": 1534.0,
      "completions/mean_length": 664.1875,
      "completions/mean_terminated_length": 664.1875,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.04285562745306036,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0390625,
      "kl": 0.017545952810905874,
      "learning_rate": 7.8388e-06,
      "loss": 0.0957,
      "num_tokens": 18707061.0,
      "reward": 2.512760877609253,
      "reward_std": 0.5735504031181335,
      "rewards/reward_fn/mean": 2.512760877609253,
      "rewards/reward_fn/std": 0.5735504031181335,
      "step": 404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 572.0,
      "completions/max_terminated_length": 572.0,
      "completions/mean_length": 189.5625,
      "completions/mean_terminated_length": 189.5625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.04296170573883526,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.130859375,
      "kl": 0.030075914692133665,
      "learning_rate": 7.8384e-06,
      "loss": 0.0012,
      "num_tokens": 18759783.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 924.0,
      "completions/max_terminated_length": 924.0,
      "completions/mean_length": 341.96875,
      "completions/mean_terminated_length": 341.96875,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.04306778402461016,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.02385372808203101,
      "learning_rate": 7.838e-06,
      "loss": 0.0794,
      "num_tokens": 18786086.0,
      "reward": 3.8906993865966797,
      "reward_std": 0.34537699818611145,
      "rewards/reward_fn/mean": 3.8906993865966797,
      "rewards/reward_fn/std": 0.34537696838378906,
      "step": 406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 436.0,
      "completions/max_terminated_length": 436.0,
      "completions/mean_length": 275.5,
      "completions/mean_terminated_length": 275.5,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.043173862310385065,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.03006741451099515,
      "learning_rate": 7.8376e-06,
      "loss": -0.0234,
      "num_tokens": 18831286.0,
      "reward": 3.787572145462036,
      "reward_std": 0.4494977593421936,
      "rewards/reward_fn/mean": 3.787572145462036,
      "rewards/reward_fn/std": 0.4494977295398712,
      "step": 407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1561.0,
      "completions/mean_length": 529.125,
      "completions/mean_terminated_length": 480.1290283203125,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.043279940596159965,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.0166288634063676,
      "learning_rate": 7.8372e-06,
      "loss": 0.2106,
      "num_tokens": 18929114.0,
      "reward": 3.8349366188049316,
      "reward_std": 0.735542893409729,
      "rewards/reward_fn/mean": 3.8349366188049316,
      "rewards/reward_fn/std": 0.7355428338050842,
      "step": 408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 198.0,
      "completions/max_terminated_length": 198.0,
      "completions/mean_length": 156.15625,
      "completions/mean_terminated_length": 156.15625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.04338601888193487,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10986328125,
      "kl": 0.024419703288003802,
      "learning_rate": 7.8368e-06,
      "loss": 0.001,
      "num_tokens": 18952959.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 359.0,
      "completions/max_terminated_length": 359.0,
      "completions/mean_length": 218.375,
      "completions/mean_terminated_length": 218.375,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.04349209716770977,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.033032523933798075,
      "learning_rate": 7.8364e-06,
      "loss": -0.0199,
      "num_tokens": 18995531.0,
      "reward": 3.660304069519043,
      "reward_std": 0.5844630002975464,
      "rewards/reward_fn/mean": 3.660304069519043,
      "rewards/reward_fn/std": 0.5844630002975464,
      "step": 410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 661.0,
      "completions/max_terminated_length": 661.0,
      "completions/mean_length": 290.40625,
      "completions/mean_terminated_length": 290.40625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.04359817545348467,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.028384562116116285,
      "learning_rate": 7.836e-06,
      "loss": 0.0034,
      "num_tokens": 19039832.0,
      "reward": 3.966031551361084,
      "reward_std": 0.19215430319309235,
      "rewards/reward_fn/mean": 3.966031551361084,
      "rewards/reward_fn/std": 0.19215430319309235,
      "step": 411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 109.0,
      "completions/max_terminated_length": 109.0,
      "completions/mean_length": 73.25,
      "completions/mean_terminated_length": 73.25,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.043704253739259576,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.201171875,
      "kl": 0.024869739543646574,
      "learning_rate": 7.8356e-06,
      "loss": 0.001,
      "num_tokens": 19073664.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 566.1875,
      "completions/mean_terminated_length": 518.3870849609375,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.043810332025034475,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.029686052352190018,
      "learning_rate": 7.8352e-06,
      "loss": 0.2334,
      "num_tokens": 19127142.0,
      "reward": 2.6168479919433594,
      "reward_std": 0.543907880783081,
      "rewards/reward_fn/mean": 2.6168479919433594,
      "rewards/reward_fn/std": 0.5439079403877258,
      "step": 413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 380.0,
      "completions/max_terminated_length": 380.0,
      "completions/mean_length": 143.03125,
      "completions/mean_terminated_length": 143.03125,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.043916410310809374,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1494140625,
      "kl": 0.03072983492165804,
      "learning_rate": 7.8348e-06,
      "loss": 0.0012,
      "num_tokens": 19166471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.0,
      "completions/max_terminated_length": 347.0,
      "completions/mean_length": 170.53125,
      "completions/mean_terminated_length": 170.53125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.04402248859658428,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.130859375,
      "kl": 0.025355301331728697,
      "learning_rate": 7.834399999999999e-06,
      "loss": 0.001,
      "num_tokens": 19204504.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 384.0,
      "completions/max_terminated_length": 384.0,
      "completions/mean_length": 242.65625,
      "completions/mean_terminated_length": 242.65625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.04412856688235918,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.024939125403761864,
      "learning_rate": 7.834e-06,
      "loss": 0.0628,
      "num_tokens": 19252557.0,
      "reward": 2.96942138671875,
      "reward_std": 0.08691102266311646,
      "rewards/reward_fn/mean": 2.96942138671875,
      "rewards/reward_fn/std": 0.08691102266311646,
      "step": 416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 466.0,
      "completions/max_terminated_length": 466.0,
      "completions/mean_length": 344.25,
      "completions/mean_terminated_length": 344.25,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.044234645168134086,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.02124662697315216,
      "learning_rate": 7.833599999999999e-06,
      "loss": -0.0249,
      "num_tokens": 19302485.0,
      "reward": 1.736589789390564,
      "reward_std": 0.022552739828824997,
      "rewards/reward_fn/mean": 1.736589789390564,
      "rewards/reward_fn/std": 0.022552751004695892,
      "step": 417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 456.0,
      "completions/max_terminated_length": 456.0,
      "completions/mean_length": 296.3125,
      "completions/mean_terminated_length": 296.3125,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.044340723453908985,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.025449416134506464,
      "learning_rate": 7.8332e-06,
      "loss": 0.0491,
      "num_tokens": 19347167.0,
      "reward": 3.7305917739868164,
      "reward_std": 0.5530329942703247,
      "rewards/reward_fn/mean": 3.7305917739868164,
      "rewards/reward_fn/std": 0.5530329942703247,
      "step": 418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 821.0,
      "completions/max_terminated_length": 821.0,
      "completions/mean_length": 293.28125,
      "completions/mean_terminated_length": 293.28125,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.044446801739683885,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06591796875,
      "kl": 0.018630424048751593,
      "learning_rate": 7.832799999999999e-06,
      "loss": 0.0007,
      "num_tokens": 19389608.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 850.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 239.65625,
      "completions/mean_terminated_length": 239.65625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.04455288002545879,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09130859375,
      "kl": 0.02400025725364685,
      "learning_rate": 7.8324e-06,
      "loss": 0.001,
      "num_tokens": 19432349.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 223.0,
      "completions/max_terminated_length": 223.0,
      "completions/mean_length": 171.9375,
      "completions/mean_terminated_length": 171.9375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.04465895831123369,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1923828125,
      "kl": 0.04056114191189408,
      "learning_rate": 7.831999999999999e-06,
      "loss": 0.0016,
      "num_tokens": 19462107.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 757.0,
      "completions/max_terminated_length": 757.0,
      "completions/mean_length": 238.71875,
      "completions/mean_terminated_length": 238.71875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.04476503659700859,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.02605710015632212,
      "learning_rate": 7.8316e-06,
      "loss": 0.1752,
      "num_tokens": 19518066.0,
      "reward": 3.8169188499450684,
      "reward_std": 0.602931559085846,
      "rewards/reward_fn/mean": 3.8169188499450684,
      "rewards/reward_fn/std": 0.602931559085846,
      "step": 422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 661.0,
      "completions/max_terminated_length": 661.0,
      "completions/mean_length": 184.21875,
      "completions/mean_terminated_length": 184.21875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.044871114882783496,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.099609375,
      "kl": 0.02194814942777157,
      "learning_rate": 7.831199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 19562905.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 419.0,
      "completions/max_terminated_length": 419.0,
      "completions/mean_length": 260.3125,
      "completions/mean_terminated_length": 260.3125,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.044977193168558395,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.02712744101881981,
      "learning_rate": 7.8308e-06,
      "loss": -0.0232,
      "num_tokens": 19615107.0,
      "reward": 3.930159091949463,
      "reward_std": 0.39508044719696045,
      "rewards/reward_fn/mean": 3.930159091949463,
      "rewards/reward_fn/std": 0.39508041739463806,
      "step": 424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1212.0,
      "completions/mean_length": 549.90625,
      "completions/mean_terminated_length": 501.58062744140625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.0450832714543333,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.021885179448872805,
      "learning_rate": 7.8304e-06,
      "loss": 0.1124,
      "num_tokens": 19667232.0,
      "reward": 3.4282619953155518,
      "reward_std": 0.8545926809310913,
      "rewards/reward_fn/mean": 3.4282619953155518,
      "rewards/reward_fn/std": 0.8545926213264465,
      "step": 425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 216.0,
      "completions/max_terminated_length": 216.0,
      "completions/mean_length": 119.40625,
      "completions/mean_terminated_length": 119.40625,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.0451893497401082,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0986328125,
      "kl": 0.01785171974916011,
      "learning_rate": 7.83e-06,
      "loss": 0.0007,
      "num_tokens": 19715853.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1158.0,
      "completions/max_terminated_length": 1158.0,
      "completions/mean_length": 403.90625,
      "completions/mean_terminated_length": 403.90625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.0452954280258831,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.022983923787251115,
      "learning_rate": 7.8296e-06,
      "loss": -0.0171,
      "num_tokens": 19759690.0,
      "reward": 2.5151357650756836,
      "reward_std": 0.5577123761177063,
      "rewards/reward_fn/mean": 2.5151357650756836,
      "rewards/reward_fn/std": 0.5577123165130615,
      "step": 427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/max_terminated_length": 303.0,
      "completions/mean_length": 175.34375,
      "completions/mean_terminated_length": 175.34375,
      "completions/min_length": 17.0,
      "completions/min_terminated_length": 17.0,
      "epoch": 0.045401506311658006,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.029623025562614202,
      "learning_rate": 7.8292e-06,
      "loss": -0.1286,
      "num_tokens": 19800661.0,
      "reward": 3.7741332054138184,
      "reward_std": 0.7420908808708191,
      "rewards/reward_fn/mean": 3.7741332054138184,
      "rewards/reward_fn/std": 0.7420908808708191,
      "step": 428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 977.0,
      "completions/max_terminated_length": 977.0,
      "completions/mean_length": 285.15625,
      "completions/mean_terminated_length": 285.15625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.045507584597432905,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07958984375,
      "kl": 0.02174567524343729,
      "learning_rate": 7.8288e-06,
      "loss": 0.0009,
      "num_tokens": 19856442.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1446.0,
      "completions/max_terminated_length": 1446.0,
      "completions/mean_length": 676.75,
      "completions/mean_terminated_length": 676.75,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.045613662883207805,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.019659652840346098,
      "learning_rate": 7.8284e-06,
      "loss": 0.0379,
      "num_tokens": 19922322.0,
      "reward": 2.3661680221557617,
      "reward_std": 0.5572351217269897,
      "rewards/reward_fn/mean": 2.3661680221557617,
      "rewards/reward_fn/std": 0.5572351813316345,
      "step": 430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 690.0,
      "completions/max_terminated_length": 690.0,
      "completions/mean_length": 362.625,
      "completions/mean_terminated_length": 362.625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.04571974116898271,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.025779376970604062,
      "learning_rate": 7.828e-06,
      "loss": -0.0389,
      "num_tokens": 19969542.0,
      "reward": 2.871279239654541,
      "reward_std": 1.0416733026504517,
      "rewards/reward_fn/mean": 2.871279239654541,
      "rewards/reward_fn/std": 1.0416733026504517,
      "step": 431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 887.0,
      "completions/max_terminated_length": 887.0,
      "completions/mean_length": 303.84375,
      "completions/mean_terminated_length": 303.84375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.04582581945475761,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.019519688561558723,
      "learning_rate": 7.8276e-06,
      "loss": 0.0645,
      "num_tokens": 19999745.0,
      "reward": 3.9620537757873535,
      "reward_std": 0.21465659141540527,
      "rewards/reward_fn/mean": 3.9620537757873535,
      "rewards/reward_fn/std": 0.21465659141540527,
      "step": 432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1192.0,
      "completions/max_terminated_length": 1192.0,
      "completions/mean_length": 399.125,
      "completions/mean_terminated_length": 399.125,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.04593189774053251,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.018953290185891092,
      "learning_rate": 7.8272e-06,
      "loss": 0.0483,
      "num_tokens": 20061317.0,
      "reward": 2.9752299785614014,
      "reward_std": 0.07937107980251312,
      "rewards/reward_fn/mean": 2.9752299785614014,
      "rewards/reward_fn/std": 0.07937107235193253,
      "step": 433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 207.0,
      "completions/max_terminated_length": 207.0,
      "completions/mean_length": 119.875,
      "completions/mean_terminated_length": 119.875,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.046037976026307416,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1259765625,
      "kl": 0.027189034270122647,
      "learning_rate": 7.8268e-06,
      "loss": 0.0011,
      "num_tokens": 20088545.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 497.0,
      "completions/max_terminated_length": 497.0,
      "completions/mean_length": 295.03125,
      "completions/mean_terminated_length": 295.03125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.046144054312082315,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.026012770365923643,
      "learning_rate": 7.826399999999998e-06,
      "loss": 0.0249,
      "num_tokens": 20128834.0,
      "reward": 2.9719934463500977,
      "reward_std": 0.24174726009368896,
      "rewards/reward_fn/mean": 2.9719934463500977,
      "rewards/reward_fn/std": 0.24174723029136658,
      "step": 435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 799.0,
      "completions/max_terminated_length": 799.0,
      "completions/mean_length": 432.125,
      "completions/mean_terminated_length": 432.125,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.04625013259785722,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.01361775363329798,
      "learning_rate": 7.826e-06,
      "loss": -0.0077,
      "num_tokens": 20186982.0,
      "reward": 2.8467493057250977,
      "reward_std": 0.28382164239883423,
      "rewards/reward_fn/mean": 2.8467493057250977,
      "rewards/reward_fn/std": 0.28382164239883423,
      "step": 436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 492.0,
      "completions/max_terminated_length": 492.0,
      "completions/mean_length": 257.0625,
      "completions/mean_terminated_length": 257.0625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.04635621088363212,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.023967791348695755,
      "learning_rate": 7.8256e-06,
      "loss": 0.0345,
      "num_tokens": 20246248.0,
      "reward": 3.7507588863372803,
      "reward_std": 0.47892749309539795,
      "rewards/reward_fn/mean": 3.7507588863372803,
      "rewards/reward_fn/std": 0.47892752289772034,
      "step": 437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 415.0,
      "completions/max_terminated_length": 415.0,
      "completions/mean_length": 285.9375,
      "completions/mean_terminated_length": 285.9375,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.04646228916940702,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.02458371128886938,
      "learning_rate": 7.8252e-06,
      "loss": -0.0299,
      "num_tokens": 20291078.0,
      "reward": 3.627525806427002,
      "reward_std": 0.4593088626861572,
      "rewards/reward_fn/mean": 3.627525806427002,
      "rewards/reward_fn/std": 0.45930883288383484,
      "step": 438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 656.0,
      "completions/max_terminated_length": 656.0,
      "completions/mean_length": 258.09375,
      "completions/mean_terminated_length": 258.09375,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.046568367455181926,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.140625,
      "kl": 0.01905307243578136,
      "learning_rate": 7.8248e-06,
      "loss": -0.039,
      "num_tokens": 20332777.0,
      "reward": 3.9657504558563232,
      "reward_std": 0.19374500215053558,
      "rewards/reward_fn/mean": 3.9657504558563232,
      "rewards/reward_fn/std": 0.19374501705169678,
      "step": 439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 720.0,
      "completions/max_terminated_length": 720.0,
      "completions/mean_length": 180.625,
      "completions/mean_terminated_length": 180.625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.046674445740956826,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.021813688217662275,
      "learning_rate": 7.824399999999999e-06,
      "loss": -0.0704,
      "num_tokens": 20378941.0,
      "reward": 3.5305161476135254,
      "reward_std": 0.44998371601104736,
      "rewards/reward_fn/mean": 3.5305161476135254,
      "rewards/reward_fn/std": 0.449983686208725,
      "step": 440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 721.0,
      "completions/max_terminated_length": 721.0,
      "completions/mean_length": 221.03125,
      "completions/mean_terminated_length": 221.03125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.046780524026731725,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.828125,
      "kl": 0.027017208514735103,
      "learning_rate": 7.824e-06,
      "loss": 0.0379,
      "num_tokens": 20422366.0,
      "reward": 3.9637999534606934,
      "reward_std": 0.2047785222530365,
      "rewards/reward_fn/mean": 3.9637999534606934,
      "rewards/reward_fn/std": 0.2047785222530365,
      "step": 441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 709.0,
      "completions/max_terminated_length": 709.0,
      "completions/mean_length": 175.125,
      "completions/mean_terminated_length": 175.125,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.04688660231250663,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1318359375,
      "kl": 0.025995554169639945,
      "learning_rate": 7.823599999999999e-06,
      "loss": 0.001,
      "num_tokens": 20464226.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 694.0,
      "completions/max_terminated_length": 694.0,
      "completions/mean_length": 353.53125,
      "completions/mean_terminated_length": 353.53125,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.04699268059828153,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.023292170371860266,
      "learning_rate": 7.8232e-06,
      "loss": 0.0398,
      "num_tokens": 20510323.0,
      "reward": 3.5015358924865723,
      "reward_std": 0.5767775177955627,
      "rewards/reward_fn/mean": 3.5015358924865723,
      "rewards/reward_fn/std": 0.5767775177955627,
      "step": 443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 786.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 313.78125,
      "completions/mean_terminated_length": 313.78125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.04709875888405644,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0654296875,
      "kl": 0.019186518737114966,
      "learning_rate": 7.822799999999999e-06,
      "loss": 0.0008,
      "num_tokens": 20552812.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 492.0,
      "completions/max_terminated_length": 492.0,
      "completions/mean_length": 226.75,
      "completions/mean_terminated_length": 226.75,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.047204837169831336,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.13671875,
      "kl": 0.0306410426273942,
      "learning_rate": 7.8224e-06,
      "loss": 0.0012,
      "num_tokens": 20592644.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 705.0,
      "completions/max_terminated_length": 705.0,
      "completions/mean_length": 241.59375,
      "completions/mean_terminated_length": 241.59375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.047310915455606235,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.02532052854076028,
      "learning_rate": 7.821999999999999e-06,
      "loss": 0.1193,
      "num_tokens": 20617431.0,
      "reward": 2.9998433589935303,
      "reward_std": 0.0696294903755188,
      "rewards/reward_fn/mean": 2.9998433589935303,
      "rewards/reward_fn/std": 0.0696294978260994,
      "step": 446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 715.0,
      "completions/mean_length": 453.90625,
      "completions/mean_terminated_length": 402.4838562011719,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.04741699374138114,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.016588653321377933,
      "learning_rate": 7.8216e-06,
      "loss": 0.1984,
      "num_tokens": 20653140.0,
      "reward": 2.85459041595459,
      "reward_std": 0.6958485841751099,
      "rewards/reward_fn/mean": 2.85459041595459,
      "rewards/reward_fn/std": 0.6958485841751099,
      "step": 447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 459.0,
      "completions/max_terminated_length": 459.0,
      "completions/mean_length": 184.4375,
      "completions/mean_terminated_length": 184.4375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.04752307202715604,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09130859375,
      "kl": 0.019108422100543976,
      "learning_rate": 7.8212e-06,
      "loss": 0.0008,
      "num_tokens": 20698146.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 993.0,
      "completions/max_terminated_length": 993.0,
      "completions/mean_length": 247.53125,
      "completions/mean_terminated_length": 247.53125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.04762915031293094,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07666015625,
      "kl": 0.02202951116487384,
      "learning_rate": 7.8208e-06,
      "loss": 0.0009,
      "num_tokens": 20758035.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 570.0,
      "completions/max_terminated_length": 570.0,
      "completions/mean_length": 123.84375,
      "completions/mean_terminated_length": 123.84375,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.047735228598705846,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.16796875,
      "kl": 0.03342678747139871,
      "learning_rate": 7.8204e-06,
      "loss": 0.0013,
      "num_tokens": 20794574.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 452.0,
      "completions/max_terminated_length": 452.0,
      "completions/mean_length": 123.25,
      "completions/mean_terminated_length": 123.25,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.047841306884480746,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.111328125,
      "kl": 0.02307695336639881,
      "learning_rate": 7.82e-06,
      "loss": 0.0009,
      "num_tokens": 20839446.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 356.28125,
      "completions/mean_terminated_length": 356.28125,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.04794738517025565,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.021392826223745942,
      "learning_rate": 7.8196e-06,
      "loss": 0.0044,
      "num_tokens": 20888191.0,
      "reward": 3.5172977447509766,
      "reward_std": 0.7753545045852661,
      "rewards/reward_fn/mean": 3.5172977447509766,
      "rewards/reward_fn/std": 0.7753545045852661,
      "step": 452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/max_terminated_length": 298.0,
      "completions/mean_length": 220.09375,
      "completions/mean_terminated_length": 220.09375,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.04805346345603055,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.029516591923311353,
      "learning_rate": 7.8192e-06,
      "loss": 0.0179,
      "num_tokens": 20912642.0,
      "reward": 3.9728949069976807,
      "reward_std": 0.15332958102226257,
      "rewards/reward_fn/mean": 3.9728949069976807,
      "rewards/reward_fn/std": 0.15332959592342377,
      "step": 453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 824.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 210.84375,
      "completions/mean_terminated_length": 210.84375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.04815954174180545,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.71875,
      "kl": 0.031340898014605045,
      "learning_rate": 7.8188e-06,
      "loss": 0.2922,
      "num_tokens": 20958333.0,
      "reward": 3.886120557785034,
      "reward_std": 0.4653671979904175,
      "rewards/reward_fn/mean": 3.886120557785034,
      "rewards/reward_fn/std": 0.4653671979904175,
      "step": 454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 364.0,
      "completions/max_terminated_length": 364.0,
      "completions/mean_length": 188.5625,
      "completions/mean_terminated_length": 188.5625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.04826562002758036,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.02241483051329851,
      "learning_rate": 7.8184e-06,
      "loss": -0.0742,
      "num_tokens": 20995407.0,
      "reward": 2.9604923725128174,
      "reward_std": 0.46088868379592896,
      "rewards/reward_fn/mean": 2.9604923725128174,
      "rewards/reward_fn/std": 0.46088865399360657,
      "step": 455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/max_terminated_length": 372.0,
      "completions/mean_length": 172.625,
      "completions/mean_terminated_length": 172.625,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.048371698313355256,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.4375,
      "kl": 0.021063596475869417,
      "learning_rate": 7.817999999999999e-06,
      "loss": 0.0673,
      "num_tokens": 21048995.0,
      "reward": 3.8552751541137695,
      "reward_std": 0.3901585340499878,
      "rewards/reward_fn/mean": 3.8552751541137695,
      "rewards/reward_fn/std": 0.3901585042476654,
      "step": 456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 443.0,
      "completions/max_terminated_length": 443.0,
      "completions/mean_length": 152.8125,
      "completions/mean_terminated_length": 152.8125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.048477776599130155,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.02626768359914422,
      "learning_rate": 7.8176e-06,
      "loss": 0.0393,
      "num_tokens": 21088477.0,
      "reward": 2.950690746307373,
      "reward_std": 0.06558680534362793,
      "rewards/reward_fn/mean": 2.950690746307373,
      "rewards/reward_fn/std": 0.06558679044246674,
      "step": 457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1326.0,
      "completions/mean_length": 729.9375,
      "completions/mean_terminated_length": 642.0667114257812,
      "completions/min_length": 314.0,
      "completions/min_terminated_length": 314.0,
      "epoch": 0.04858385488490506,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.022620241856202483,
      "learning_rate": 7.817199999999999e-06,
      "loss": 0.3226,
      "num_tokens": 21145979.0,
      "reward": 2.522402286529541,
      "reward_std": 0.7907276749610901,
      "rewards/reward_fn/mean": 2.522402286529541,
      "rewards/reward_fn/std": 0.7907276749610901,
      "step": 458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 777.0,
      "completions/max_terminated_length": 777.0,
      "completions/mean_length": 242.125,
      "completions/mean_terminated_length": 242.125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.04868993317067996,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.029362128349021077,
      "learning_rate": 7.8168e-06,
      "loss": -0.0061,
      "num_tokens": 21197503.0,
      "reward": 3.963871479034424,
      "reward_std": 0.20437325537204742,
      "rewards/reward_fn/mean": 3.963871479034424,
      "rewards/reward_fn/std": 0.20437327027320862,
      "step": 459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1025.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 252.65625,
      "completions/mean_terminated_length": 252.65625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.04879601145645486,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0947265625,
      "kl": 0.025767018785700202,
      "learning_rate": 7.8164e-06,
      "loss": 0.001,
      "num_tokens": 21244596.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1352.0,
      "completions/max_terminated_length": 1352.0,
      "completions/mean_length": 299.65625,
      "completions/mean_terminated_length": 299.65625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.048902089742229767,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08544921875,
      "kl": 0.024106395663693547,
      "learning_rate": 7.816e-06,
      "loss": 0.001,
      "num_tokens": 21296137.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 813.0,
      "completions/max_terminated_length": 813.0,
      "completions/mean_length": 304.3125,
      "completions/mean_terminated_length": 304.3125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.049008168028004666,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.026658632792532444,
      "learning_rate": 7.8156e-06,
      "loss": -0.0012,
      "num_tokens": 21329907.0,
      "reward": 2.8445465564727783,
      "reward_std": 0.2993001639842987,
      "rewards/reward_fn/mean": 2.8445465564727783,
      "rewards/reward_fn/std": 0.2993001937866211,
      "step": 462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 864.0,
      "completions/mean_length": 521.0,
      "completions/mean_terminated_length": 471.7419128417969,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.04911424631377957,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.02180269779637456,
      "learning_rate": 7.8152e-06,
      "loss": 0.2696,
      "num_tokens": 21368947.0,
      "reward": 2.6146130561828613,
      "reward_std": 0.5501555800437927,
      "rewards/reward_fn/mean": 2.6146130561828613,
      "rewards/reward_fn/std": 0.550155520439148,
      "step": 463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1207.0,
      "completions/max_terminated_length": 1207.0,
      "completions/mean_length": 392.78125,
      "completions/mean_terminated_length": 392.78125,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.04922032459955447,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.024015987291932106,
      "learning_rate": 7.8148e-06,
      "loss": 0.086,
      "num_tokens": 21417260.0,
      "reward": 2.8569464683532715,
      "reward_std": 0.05871182680130005,
      "rewards/reward_fn/mean": 2.8569464683532715,
      "rewards/reward_fn/std": 0.058711789548397064,
      "step": 464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1265.0,
      "completions/mean_length": 618.625,
      "completions/mean_terminated_length": 523.3333740234375,
      "completions/min_length": 346.0,
      "completions/min_terminated_length": 346.0,
      "epoch": 0.04932640288532937,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.01614295574836433,
      "learning_rate": 7.8144e-06,
      "loss": 0.3621,
      "num_tokens": 21479552.0,
      "reward": 3.6563806533813477,
      "reward_std": 0.9594557881355286,
      "rewards/reward_fn/mean": 3.6563806533813477,
      "rewards/reward_fn/std": 0.9594557881355286,
      "step": 465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 483.0,
      "completions/max_terminated_length": 483.0,
      "completions/mean_length": 319.65625,
      "completions/mean_terminated_length": 319.65625,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.04943248117110428,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.01879534707404673,
      "learning_rate": 7.814e-06,
      "loss": 0.0444,
      "num_tokens": 21522613.0,
      "reward": 1.6788173913955688,
      "reward_std": 0.026051480323076248,
      "rewards/reward_fn/mean": 1.6788173913955688,
      "rewards/reward_fn/std": 0.026051471009850502,
      "step": 466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 420.0,
      "completions/max_terminated_length": 420.0,
      "completions/mean_length": 98.46875,
      "completions/mean_terminated_length": 98.46875,
      "completions/min_length": 43.0,
      "completions/min_terminated_length": 43.0,
      "epoch": 0.049538559456879176,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.028762757312506437,
      "learning_rate": 7.8136e-06,
      "loss": -0.0682,
      "num_tokens": 21563364.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1853.0,
      "completions/max_terminated_length": 1853.0,
      "completions/mean_length": 643.59375,
      "completions/mean_terminated_length": 643.59375,
      "completions/min_length": 308.0,
      "completions/min_terminated_length": 308.0,
      "epoch": 0.049644637742654076,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.030355968279764056,
      "learning_rate": 7.8132e-06,
      "loss": -0.0552,
      "num_tokens": 21614039.0,
      "reward": 2.8546223640441895,
      "reward_std": 0.9961849451065063,
      "rewards/reward_fn/mean": 2.8546223640441895,
      "rewards/reward_fn/std": 0.9961848855018616,
      "step": 468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 389.0,
      "completions/max_terminated_length": 389.0,
      "completions/mean_length": 219.9375,
      "completions/mean_terminated_length": 219.9375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.04975071602842898,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.024273998336866498,
      "learning_rate": 7.812799999999999e-06,
      "loss": 0.0575,
      "num_tokens": 21655349.0,
      "reward": 3.557422161102295,
      "reward_std": 0.5809412598609924,
      "rewards/reward_fn/mean": 3.557422161102295,
      "rewards/reward_fn/std": 0.5809412002563477,
      "step": 469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 195.125,
      "completions/mean_terminated_length": 195.125,
      "completions/min_length": 5.0,
      "completions/min_terminated_length": 5.0,
      "epoch": 0.04985679431420388,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.02798668248578906,
      "learning_rate": 7.8124e-06,
      "loss": -0.168,
      "num_tokens": 21694585.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 996.0,
      "completions/mean_length": 497.59375,
      "completions/mean_terminated_length": 447.58062744140625,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.04996287259997879,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.017523658694699407,
      "learning_rate": 7.812e-06,
      "loss": 0.2898,
      "num_tokens": 21750412.0,
      "reward": 2.634608268737793,
      "reward_std": 0.5835399031639099,
      "rewards/reward_fn/mean": 2.634608268737793,
      "rewards/reward_fn/std": 0.5835399031639099,
      "step": 471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 725.0,
      "completions/max_terminated_length": 725.0,
      "completions/mean_length": 279.34375,
      "completions/mean_terminated_length": 279.34375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.05006895088575369,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.027581357397139072,
      "learning_rate": 7.8116e-06,
      "loss": 0.0572,
      "num_tokens": 21807479.0,
      "reward": 3.4291439056396484,
      "reward_std": 0.8019877076148987,
      "rewards/reward_fn/mean": 3.4291439056396484,
      "rewards/reward_fn/std": 0.8019877076148987,
      "step": 472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 449.0,
      "completions/max_terminated_length": 449.0,
      "completions/mean_length": 190.90625,
      "completions/mean_terminated_length": 190.90625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.050175029171528586,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.040224543772637844,
      "learning_rate": 7.8112e-06,
      "loss": 0.001,
      "num_tokens": 21854292.0,
      "reward": 3.567188262939453,
      "reward_std": 0.5695129632949829,
      "rewards/reward_fn/mean": 3.567188262939453,
      "rewards/reward_fn/std": 0.5695129036903381,
      "step": 473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 718.0,
      "completions/max_terminated_length": 718.0,
      "completions/mean_length": 204.84375,
      "completions/mean_terminated_length": 204.84375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.05028110745730349,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1201171875,
      "kl": 0.029980882070958614,
      "learning_rate": 7.8108e-06,
      "loss": 0.0012,
      "num_tokens": 21899471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 143.0,
      "completions/max_terminated_length": 143.0,
      "completions/mean_length": 113.125,
      "completions/mean_terminated_length": 113.125,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.05038718574307839,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.028396222507581115,
      "learning_rate": 7.810399999999999e-06,
      "loss": -0.0355,
      "num_tokens": 21924563.0,
      "reward": 3.928886651992798,
      "reward_std": 0.40227818489074707,
      "rewards/reward_fn/mean": 3.928886651992798,
      "rewards/reward_fn/std": 0.40227818489074707,
      "step": 475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 561.0,
      "completions/max_terminated_length": 561.0,
      "completions/mean_length": 334.0625,
      "completions/mean_terminated_length": 334.0625,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.05049326402885329,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.020257814088836312,
      "learning_rate": 7.81e-06,
      "loss": 0.0086,
      "num_tokens": 21961941.0,
      "reward": 2.9945178031921387,
      "reward_std": 0.0230459775775671,
      "rewards/reward_fn/mean": 2.9945178031921387,
      "rewards/reward_fn/std": 0.02304600365459919,
      "step": 476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 231.0,
      "completions/max_terminated_length": 231.0,
      "completions/mean_length": 158.6875,
      "completions/mean_terminated_length": 158.6875,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.0505993423146282,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.65625,
      "kl": 0.0344227678142488,
      "learning_rate": 7.809599999999999e-06,
      "loss": -0.0361,
      "num_tokens": 22013227.0,
      "reward": 3.5052218437194824,
      "reward_std": 0.6092379689216614,
      "rewards/reward_fn/mean": 3.5052218437194824,
      "rewards/reward_fn/std": 0.6092379689216614,
      "step": 477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 484.0,
      "completions/max_terminated_length": 484.0,
      "completions/mean_length": 168.21875,
      "completions/mean_terminated_length": 168.21875,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.050705420600403096,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.185546875,
      "kl": 0.028984917444176972,
      "learning_rate": 7.8092e-06,
      "loss": 0.0012,
      "num_tokens": 22053618.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 497.0,
      "completions/max_terminated_length": 497.0,
      "completions/mean_length": 286.9375,
      "completions/mean_terminated_length": 286.9375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.050811498886178,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.022939151618629694,
      "learning_rate": 7.808799999999999e-06,
      "loss": -0.0067,
      "num_tokens": 22097488.0,
      "reward": 2.780938148498535,
      "reward_std": 0.5519546866416931,
      "rewards/reward_fn/mean": 2.780938148498535,
      "rewards/reward_fn/std": 0.5519546866416931,
      "step": 479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 920.0,
      "completions/max_terminated_length": 920.0,
      "completions/mean_length": 172.59375,
      "completions/mean_terminated_length": 172.59375,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.0509175771719529,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.75,
      "kl": 0.028172635240480304,
      "learning_rate": 7.8084e-06,
      "loss": -0.0612,
      "num_tokens": 22147619.0,
      "reward": 3.802846670150757,
      "reward_std": 0.3469943106174469,
      "rewards/reward_fn/mean": 3.802846670150757,
      "rewards/reward_fn/std": 0.3469943106174469,
      "step": 480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 582.0,
      "completions/max_terminated_length": 582.0,
      "completions/mean_length": 185.96875,
      "completions/mean_terminated_length": 185.96875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.0510236554577278,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.02581855608150363,
      "learning_rate": 7.807999999999999e-06,
      "loss": -0.016,
      "num_tokens": 22184738.0,
      "reward": 3.9292778968811035,
      "reward_std": 0.27909815311431885,
      "rewards/reward_fn/mean": 3.9292778968811035,
      "rewards/reward_fn/std": 0.27909815311431885,
      "step": 481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1052.0,
      "completions/max_terminated_length": 1052.0,
      "completions/mean_length": 219.59375,
      "completions/mean_terminated_length": 219.59375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.05112973374350271,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.023512960644438863,
      "learning_rate": 7.8076e-06,
      "loss": 0.0226,
      "num_tokens": 22225749.0,
      "reward": 3.501314640045166,
      "reward_std": 0.5752494931221008,
      "rewards/reward_fn/mean": 3.501314640045166,
      "rewards/reward_fn/std": 0.575249433517456,
      "step": 482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.0,
      "completions/max_terminated_length": 512.0,
      "completions/mean_length": 269.03125,
      "completions/mean_terminated_length": 269.03125,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.05123581202927761,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.02642969344742596,
      "learning_rate": 7.8072e-06,
      "loss": -0.0279,
      "num_tokens": 22272534.0,
      "reward": 1.7679412364959717,
      "reward_std": 0.03526504710316658,
      "rewards/reward_fn/mean": 1.7679412364959717,
      "rewards/reward_fn/std": 0.03526502102613449,
      "step": 483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 243.46875,
      "completions/mean_terminated_length": 243.46875,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.051341890315052506,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.018053250038065016,
      "learning_rate": 7.8068e-06,
      "loss": 0.0794,
      "num_tokens": 22319717.0,
      "reward": 3.0779318809509277,
      "reward_std": 0.24998284876346588,
      "rewards/reward_fn/mean": 3.0779318809509277,
      "rewards/reward_fn/std": 0.2499828338623047,
      "step": 484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1239.0,
      "completions/max_terminated_length": 1239.0,
      "completions/mean_length": 285.96875,
      "completions/mean_terminated_length": 285.96875,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.05144796860082741,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.026710799895226955,
      "learning_rate": 7.8064e-06,
      "loss": -0.127,
      "num_tokens": 22362308.0,
      "reward": 2.9080183506011963,
      "reward_std": 0.29254910349845886,
      "rewards/reward_fn/mean": 2.9080183506011963,
      "rewards/reward_fn/std": 0.29254910349845886,
      "step": 485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 876.0,
      "completions/max_terminated_length": 876.0,
      "completions/mean_length": 370.875,
      "completions/mean_terminated_length": 370.875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.05155404688660231,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.0195961135905236,
      "learning_rate": 7.806e-06,
      "loss": -0.0933,
      "num_tokens": 22407808.0,
      "reward": 3.541620969772339,
      "reward_std": 0.730574369430542,
      "rewards/reward_fn/mean": 3.541620969772339,
      "rewards/reward_fn/std": 0.7305744290351868,
      "step": 486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 432.0,
      "completions/max_terminated_length": 432.0,
      "completions/mean_length": 203.96875,
      "completions/mean_terminated_length": 203.96875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.05166012517237722,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11865234375,
      "kl": 0.02821559482254088,
      "learning_rate": 7.8056e-06,
      "loss": 0.0011,
      "num_tokens": 22448063.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1064.0,
      "completions/mean_length": 575.125,
      "completions/mean_terminated_length": 527.6129150390625,
      "completions/min_length": 302.0,
      "completions/min_terminated_length": 302.0,
      "epoch": 0.05176620345815212,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.014755380223505199,
      "learning_rate": 7.8052e-06,
      "loss": 0.201,
      "num_tokens": 22517571.0,
      "reward": 3.101287841796875,
      "reward_std": 0.8764511942863464,
      "rewards/reward_fn/mean": 3.101287841796875,
      "rewards/reward_fn/std": 0.8764511942863464,
      "step": 488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1432.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 599.1875,
      "completions/mean_terminated_length": 599.1875,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.051872281743927016,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.022309450898319483,
      "learning_rate": 7.8048e-06,
      "loss": 0.0696,
      "num_tokens": 22571081.0,
      "reward": 2.6842198371887207,
      "reward_std": 0.4956829249858856,
      "rewards/reward_fn/mean": 2.6842198371887207,
      "rewards/reward_fn/std": 0.49568289518356323,
      "step": 489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 440.71875,
      "completions/mean_terminated_length": 440.71875,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.05197836002970192,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.011530151590704918,
      "learning_rate": 7.8044e-06,
      "loss": -0.089,
      "num_tokens": 22635232.0,
      "reward": 2.738710641860962,
      "reward_std": 0.24050787091255188,
      "rewards/reward_fn/mean": 2.738710641860962,
      "rewards/reward_fn/std": 0.24050785601139069,
      "step": 490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1725.0,
      "completions/max_terminated_length": 1725.0,
      "completions/mean_length": 503.53125,
      "completions/mean_terminated_length": 503.53125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.05208443831547682,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.023490125546231866,
      "learning_rate": 7.804e-06,
      "loss": 0.0417,
      "num_tokens": 22692849.0,
      "reward": 3.4488565921783447,
      "reward_std": 0.6377933025360107,
      "rewards/reward_fn/mean": 3.4488565921783447,
      "rewards/reward_fn/std": 0.6377933025360107,
      "step": 491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1144.0,
      "completions/max_terminated_length": 1144.0,
      "completions/mean_length": 233.1875,
      "completions/mean_terminated_length": 233.1875,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.05219051660125172,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.023990701185539365,
      "learning_rate": 7.8036e-06,
      "loss": -0.0747,
      "num_tokens": 22734231.0,
      "reward": 2.9281232357025146,
      "reward_std": 0.19461673498153687,
      "rewards/reward_fn/mean": 2.9281232357025146,
      "rewards/reward_fn/std": 0.19461672008037567,
      "step": 492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 941.0,
      "completions/max_terminated_length": 941.0,
      "completions/mean_length": 264.28125,
      "completions/mean_terminated_length": 264.28125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.05229659488702663,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.026221094885841012,
      "learning_rate": 7.8032e-06,
      "loss": 0.1836,
      "num_tokens": 22778592.0,
      "reward": 3.4923720359802246,
      "reward_std": 0.5916131734848022,
      "rewards/reward_fn/mean": 3.4923720359802246,
      "rewards/reward_fn/std": 0.5916131734848022,
      "step": 493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 559.0,
      "completions/max_terminated_length": 559.0,
      "completions/mean_length": 197.25,
      "completions/mean_terminated_length": 197.25,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.05240267317280153,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1298828125,
      "kl": 0.024377966998144984,
      "learning_rate": 7.8028e-06,
      "loss": 0.001,
      "num_tokens": 22821800.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1664.0,
      "completions/max_terminated_length": 1664.0,
      "completions/mean_length": 389.84375,
      "completions/mean_terminated_length": 389.84375,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.052508751458576426,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.03522437275387347,
      "learning_rate": 7.8024e-06,
      "loss": 0.0624,
      "num_tokens": 22870019.0,
      "reward": 3.2021644115448,
      "reward_std": 0.43235763907432556,
      "rewards/reward_fn/mean": 3.2021644115448,
      "rewards/reward_fn/std": 0.4323575794696808,
      "step": 495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 292.8125,
      "completions/mean_terminated_length": 292.8125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.05261482974435133,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.01953095616772771,
      "learning_rate": 7.802e-06,
      "loss": 0.1153,
      "num_tokens": 22925949.0,
      "reward": 3.7166550159454346,
      "reward_std": 0.6504583358764648,
      "rewards/reward_fn/mean": 3.7166550159454346,
      "rewards/reward_fn/std": 0.6504583358764648,
      "step": 496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1207.0,
      "completions/max_terminated_length": 1207.0,
      "completions/mean_length": 581.03125,
      "completions/mean_terminated_length": 581.03125,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "epoch": 0.05272090803012623,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0625,
      "kl": 0.015155259286984801,
      "learning_rate": 7.8016e-06,
      "loss": -0.0057,
      "num_tokens": 22988254.0,
      "reward": 2.6650097370147705,
      "reward_std": 0.3541271388530731,
      "rewards/reward_fn/mean": 2.6650097370147705,
      "rewards/reward_fn/std": 0.3541271388530731,
      "step": 497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1439.0,
      "completions/max_terminated_length": 1439.0,
      "completions/mean_length": 470.71875,
      "completions/mean_terminated_length": 470.71875,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.05282698631590114,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.017473606974817812,
      "learning_rate": 7.801199999999999e-06,
      "loss": -0.0481,
      "num_tokens": 23038293.0,
      "reward": 2.4420838356018066,
      "reward_std": 0.5715554356575012,
      "rewards/reward_fn/mean": 2.4420838356018066,
      "rewards/reward_fn/std": 0.5715554356575012,
      "step": 498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 959.0,
      "completions/max_terminated_length": 959.0,
      "completions/mean_length": 338.46875,
      "completions/mean_terminated_length": 338.46875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.05293306460167604,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.062255859375,
      "kl": 0.015421941527165473,
      "learning_rate": 7.8008e-06,
      "loss": 0.0006,
      "num_tokens": 23075140.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 376.0,
      "completions/max_terminated_length": 376.0,
      "completions/mean_length": 269.1875,
      "completions/mean_terminated_length": 269.1875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.05303914288745094,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.01675526413600892,
      "learning_rate": 7.800399999999999e-06,
      "loss": 0.037,
      "num_tokens": 23126026.0,
      "reward": 3.928408145904541,
      "reward_std": 0.4049839973449707,
      "rewards/reward_fn/mean": 3.928408145904541,
      "rewards/reward_fn/std": 0.4049839973449707,
      "step": 500
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 93.0,
      "completions/max_terminated_length": 93.0,
      "completions/mean_length": 66.9375,
      "completions/mean_terminated_length": 66.9375,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.05314522117322584,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.279296875,
      "kl": 0.026731195161119103,
      "learning_rate": 7.8e-06,
      "loss": 0.0011,
      "num_tokens": 23146344.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 501
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1739.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 440.5625,
      "completions/mean_terminated_length": 440.5625,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.05325129945900074,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.018118804087862372,
      "learning_rate": 7.799599999999999e-06,
      "loss": 0.0598,
      "num_tokens": 23201882.0,
      "reward": 3.886624336242676,
      "reward_std": 0.4708651900291443,
      "rewards/reward_fn/mean": 3.886624336242676,
      "rewards/reward_fn/std": 0.4708651900291443,
      "step": 502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1298.0,
      "completions/max_terminated_length": 1298.0,
      "completions/mean_length": 301.1875,
      "completions/mean_terminated_length": 301.1875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.05335737774477564,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.02376817143522203,
      "learning_rate": 7.7992e-06,
      "loss": -0.0487,
      "num_tokens": 23246368.0,
      "reward": 3.6897573471069336,
      "reward_std": 0.4686228930950165,
      "rewards/reward_fn/mean": 3.6897573471069336,
      "rewards/reward_fn/std": 0.4686228930950165,
      "step": 503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1320.0,
      "completions/max_terminated_length": 1320.0,
      "completions/mean_length": 344.96875,
      "completions/mean_terminated_length": 344.96875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.05346345603055055,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.025152756366878748,
      "learning_rate": 7.798799999999999e-06,
      "loss": 0.1383,
      "num_tokens": 23291359.0,
      "reward": 2.986790657043457,
      "reward_std": 0.23401233553886414,
      "rewards/reward_fn/mean": 2.986790657043457,
      "rewards/reward_fn/std": 0.23401233553886414,
      "step": 504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1796.0,
      "completions/max_terminated_length": 1796.0,
      "completions/mean_length": 484.1875,
      "completions/mean_terminated_length": 484.1875,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.05356953431632545,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.017668452579528093,
      "learning_rate": 7.7984e-06,
      "loss": 0.0279,
      "num_tokens": 23355333.0,
      "reward": 2.622150421142578,
      "reward_std": 0.31195494532585144,
      "rewards/reward_fn/mean": 2.622150421142578,
      "rewards/reward_fn/std": 0.31195491552352905,
      "step": 505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1184.0,
      "completions/max_terminated_length": 1184.0,
      "completions/mean_length": 353.625,
      "completions/mean_terminated_length": 353.625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.05367561260210035,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.018400359200313687,
      "learning_rate": 7.797999999999999e-06,
      "loss": 0.0488,
      "num_tokens": 23388185.0,
      "reward": 3.707305431365967,
      "reward_std": 0.7213976383209229,
      "rewards/reward_fn/mean": 3.707305431365967,
      "rewards/reward_fn/std": 0.7213976979255676,
      "step": 506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.0,
      "completions/max_terminated_length": 317.0,
      "completions/mean_length": 230.78125,
      "completions/mean_terminated_length": 230.78125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.05378169088787525,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.02609437541104853,
      "learning_rate": 7.7976e-06,
      "loss": -0.0298,
      "num_tokens": 23435730.0,
      "reward": 3.6243045330047607,
      "reward_std": 0.5281786322593689,
      "rewards/reward_fn/mean": 3.6243045330047607,
      "rewards/reward_fn/std": 0.5281786322593689,
      "step": 507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 315.96875,
      "completions/mean_terminated_length": 260.0967712402344,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.05388776917365015,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.02170586190186441,
      "learning_rate": 7.7972e-06,
      "loss": 0.3208,
      "num_tokens": 23483857.0,
      "reward": 3.8347511291503906,
      "reward_std": 0.7358342409133911,
      "rewards/reward_fn/mean": 3.8347511291503906,
      "rewards/reward_fn/std": 0.7358343005180359,
      "step": 508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 822.0,
      "completions/max_terminated_length": 822.0,
      "completions/mean_length": 293.3125,
      "completions/mean_terminated_length": 293.3125,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.05399384745942506,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.0171760261291638,
      "learning_rate": 7.7968e-06,
      "loss": -0.0252,
      "num_tokens": 23537883.0,
      "reward": 3.928311824798584,
      "reward_std": 0.4055293798446655,
      "rewards/reward_fn/mean": 3.928311824798584,
      "rewards/reward_fn/std": 0.4055293798446655,
      "step": 509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 686.0,
      "completions/max_terminated_length": 686.0,
      "completions/mean_length": 194.53125,
      "completions/mean_terminated_length": 194.53125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.05409992574519996,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.099609375,
      "kl": 0.025215985951945186,
      "learning_rate": 7.7964e-06,
      "loss": 0.001,
      "num_tokens": 23567724.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 510
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1246.0,
      "completions/max_terminated_length": 1246.0,
      "completions/mean_length": 224.09375,
      "completions/mean_terminated_length": 224.09375,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.05420600403097486,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.025873176753520966,
      "learning_rate": 7.796e-06,
      "loss": -0.0319,
      "num_tokens": 23617359.0,
      "reward": 2.72564435005188,
      "reward_std": 0.18606720864772797,
      "rewards/reward_fn/mean": 2.72564435005188,
      "rewards/reward_fn/std": 0.18606719374656677,
      "step": 511
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/max_terminated_length": 315.0,
      "completions/mean_length": 221.46875,
      "completions/mean_terminated_length": 221.46875,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.05431208231674976,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09814453125,
      "kl": 0.02119889738969505,
      "learning_rate": 7.7956e-06,
      "loss": 0.0008,
      "num_tokens": 23674782.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 788.0,
      "completions/max_terminated_length": 788.0,
      "completions/mean_length": 275.71875,
      "completions/mean_terminated_length": 275.71875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.05441816060252466,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.019600946456193924,
      "learning_rate": 7.7952e-06,
      "loss": 0.0119,
      "num_tokens": 23716373.0,
      "reward": 3.9173965454101562,
      "reward_std": 0.3250616788864136,
      "rewards/reward_fn/mean": 3.9173965454101562,
      "rewards/reward_fn/std": 0.3250616490840912,
      "step": 513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 199.875,
      "completions/mean_terminated_length": 199.875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.05452423888829957,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0947265625,
      "kl": 0.023369343602098525,
      "learning_rate": 7.7948e-06,
      "loss": 0.0009,
      "num_tokens": 23751569.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 247.0,
      "completions/max_terminated_length": 247.0,
      "completions/mean_length": 144.625,
      "completions/mean_terminated_length": 144.625,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.05463031717407447,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11083984375,
      "kl": 0.024780564941465855,
      "learning_rate": 7.7944e-06,
      "loss": 0.001,
      "num_tokens": 23795365.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1589.0,
      "completions/max_terminated_length": 1589.0,
      "completions/mean_length": 482.34375,
      "completions/mean_terminated_length": 482.34375,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.05473639545984937,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.01738837524317205,
      "learning_rate": 7.793999999999999e-06,
      "loss": 0.0892,
      "num_tokens": 23869648.0,
      "reward": 3.2161927223205566,
      "reward_std": 0.9148228764533997,
      "rewards/reward_fn/mean": 3.2161927223205566,
      "rewards/reward_fn/std": 0.9148228764533997,
      "step": 516
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1034.0,
      "completions/max_terminated_length": 1034.0,
      "completions/mean_length": 371.25,
      "completions/mean_terminated_length": 371.25,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.05484247374562427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.02530662529170513,
      "learning_rate": 7.7936e-06,
      "loss": -0.0051,
      "num_tokens": 23911960.0,
      "reward": 2.4564008712768555,
      "reward_std": 0.7786185145378113,
      "rewards/reward_fn/mean": 2.4564008712768555,
      "rewards/reward_fn/std": 0.7786185145378113,
      "step": 517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/max_terminated_length": 283.0,
      "completions/mean_length": 99.0625,
      "completions/mean_terminated_length": 99.0625,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.05494855203139917,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.203125,
      "kl": 0.025294956751167774,
      "learning_rate": 7.793199999999999e-06,
      "loss": 0.001,
      "num_tokens": 23950170.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 220.0,
      "completions/max_terminated_length": 220.0,
      "completions/mean_length": 156.125,
      "completions/mean_terminated_length": 156.125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.05505463031717407,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.01991723431274295,
      "learning_rate": 7.7928e-06,
      "loss": 0.0355,
      "num_tokens": 23986654.0,
      "reward": 3.9727840423583984,
      "reward_std": 0.15395739674568176,
      "rewards/reward_fn/mean": 3.9727840423583984,
      "rewards/reward_fn/std": 0.15395741164684296,
      "step": 519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 237.0,
      "completions/max_terminated_length": 237.0,
      "completions/mean_length": 80.59375,
      "completions/mean_terminated_length": 80.59375,
      "completions/min_length": 52.0,
      "completions/min_terminated_length": 52.0,
      "epoch": 0.05516070860294898,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2041015625,
      "kl": 0.02751685946714133,
      "learning_rate": 7.7924e-06,
      "loss": 0.0011,
      "num_tokens": 24022641.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 520
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 796.0,
      "completions/max_terminated_length": 796.0,
      "completions/mean_length": 288.15625,
      "completions/mean_terminated_length": 288.15625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.05526678688872388,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07421875,
      "kl": 0.01649426226504147,
      "learning_rate": 7.792e-06,
      "loss": 0.0007,
      "num_tokens": 24068726.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 774.0,
      "completions/max_terminated_length": 774.0,
      "completions/mean_length": 201.03125,
      "completions/mean_terminated_length": 201.03125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.05537286517449878,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.024215756682679057,
      "learning_rate": 7.7916e-06,
      "loss": -0.0523,
      "num_tokens": 24125495.0,
      "reward": 3.6382832527160645,
      "reward_std": 0.476779580116272,
      "rewards/reward_fn/mean": 3.6382832527160645,
      "rewards/reward_fn/std": 0.476779580116272,
      "step": 522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1266.0,
      "completions/max_terminated_length": 1266.0,
      "completions/mean_length": 372.78125,
      "completions/mean_terminated_length": 372.78125,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.05547894346027368,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.018172105425037444,
      "learning_rate": 7.7912e-06,
      "loss": 0.0154,
      "num_tokens": 24186032.0,
      "reward": 2.670097589492798,
      "reward_std": 0.18027065694332123,
      "rewards/reward_fn/mean": 2.670097589492798,
      "rewards/reward_fn/std": 0.18027064204216003,
      "step": 523
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 795.0,
      "completions/max_terminated_length": 795.0,
      "completions/mean_length": 239.28125,
      "completions/mean_terminated_length": 239.28125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.05558502174604858,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.024925056844949722,
      "learning_rate": 7.7908e-06,
      "loss": 0.0018,
      "num_tokens": 24209209.0,
      "reward": 3.8195762634277344,
      "reward_std": 0.5922850966453552,
      "rewards/reward_fn/mean": 3.8195762634277344,
      "rewards/reward_fn/std": 0.5922850966453552,
      "step": 524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 222.53125,
      "completions/mean_terminated_length": 222.53125,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.05569110003182349,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.025476337876170874,
      "learning_rate": 7.790399999999999e-06,
      "loss": -0.0391,
      "num_tokens": 24253034.0,
      "reward": 3.9297561645507812,
      "reward_std": 0.2772708833217621,
      "rewards/reward_fn/mean": 3.9297561645507812,
      "rewards/reward_fn/std": 0.2772708535194397,
      "step": 525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 413.0,
      "completions/max_terminated_length": 413.0,
      "completions/mean_length": 267.0625,
      "completions/mean_terminated_length": 267.0625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.05579717831759839,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.021522009512409568,
      "learning_rate": 7.79e-06,
      "loss": -0.0187,
      "num_tokens": 24294476.0,
      "reward": 2.7246017456054688,
      "reward_std": 0.24783332645893097,
      "rewards/reward_fn/mean": 2.7246017456054688,
      "rewards/reward_fn/std": 0.24783335626125336,
      "step": 526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1145.0,
      "completions/max_terminated_length": 1145.0,
      "completions/mean_length": 333.125,
      "completions/mean_terminated_length": 333.125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.05590325660337329,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.023421776480972767,
      "learning_rate": 7.789599999999999e-06,
      "loss": 0.1981,
      "num_tokens": 24369616.0,
      "reward": 3.8314743041992188,
      "reward_std": 0.5596181154251099,
      "rewards/reward_fn/mean": 3.8314743041992188,
      "rewards/reward_fn/std": 0.5596181154251099,
      "step": 527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 910.0,
      "completions/max_terminated_length": 910.0,
      "completions/mean_length": 336.9375,
      "completions/mean_terminated_length": 336.9375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.056009334889148193,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.018540258635766804,
      "learning_rate": 7.7892e-06,
      "loss": -0.0174,
      "num_tokens": 24426990.0,
      "reward": 3.9209604263305664,
      "reward_std": 0.3111303448677063,
      "rewards/reward_fn/mean": 3.9209604263305664,
      "rewards/reward_fn/std": 0.3111303448677063,
      "step": 528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.0,
      "completions/max_terminated_length": 603.0,
      "completions/mean_length": 424.53125,
      "completions/mean_terminated_length": 424.53125,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.05611541317492309,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.02311969199217856,
      "learning_rate": 7.788799999999999e-06,
      "loss": 0.0972,
      "num_tokens": 24479199.0,
      "reward": 2.616727828979492,
      "reward_std": 0.3706587255001068,
      "rewards/reward_fn/mean": 2.616727828979492,
      "rewards/reward_fn/std": 0.3706587553024292,
      "step": 529
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1286.0,
      "completions/max_terminated_length": 1286.0,
      "completions/mean_length": 363.96875,
      "completions/mean_terminated_length": 363.96875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.05622149146069799,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.018128991941921413,
      "learning_rate": 7.7884e-06,
      "loss": -0.0755,
      "num_tokens": 24525630.0,
      "reward": 2.7659575939178467,
      "reward_std": 0.31296306848526,
      "rewards/reward_fn/mean": 2.7659575939178467,
      "rewards/reward_fn/std": 0.3129630386829376,
      "step": 530
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 799.0,
      "completions/max_terminated_length": 799.0,
      "completions/mean_length": 256.28125,
      "completions/mean_terminated_length": 256.28125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.0563275697464729,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.076171875,
      "kl": 0.02169134363066405,
      "learning_rate": 7.788e-06,
      "loss": 0.0009,
      "num_tokens": 24582535.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1121.0,
      "completions/max_terminated_length": 1121.0,
      "completions/mean_length": 280.75,
      "completions/mean_terminated_length": 280.75,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.0564336480322478,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1328125,
      "kl": 0.022156615275889635,
      "learning_rate": 7.7876e-06,
      "loss": -0.0788,
      "num_tokens": 24625151.0,
      "reward": 3.9418551921844482,
      "reward_std": 0.22879938781261444,
      "rewards/reward_fn/mean": 3.9418551921844482,
      "rewards/reward_fn/std": 0.22879941761493683,
      "step": 532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 386.0,
      "completions/max_terminated_length": 386.0,
      "completions/mean_length": 192.71875,
      "completions/mean_terminated_length": 192.71875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.056539726318022704,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.01747878734022379,
      "learning_rate": 7.7872e-06,
      "loss": -0.0088,
      "num_tokens": 24663670.0,
      "reward": 2.927187442779541,
      "reward_std": 0.05285609886050224,
      "rewards/reward_fn/mean": 2.927187442779541,
      "rewards/reward_fn/std": 0.05285611376166344,
      "step": 533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1364.0,
      "completions/max_terminated_length": 1364.0,
      "completions/mean_length": 286.15625,
      "completions/mean_terminated_length": 286.15625,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.0566458046037976,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.021938928868621588,
      "learning_rate": 7.7868e-06,
      "loss": -0.0154,
      "num_tokens": 24693819.0,
      "reward": 2.5903778076171875,
      "reward_std": 0.4148198962211609,
      "rewards/reward_fn/mean": 2.5903778076171875,
      "rewards/reward_fn/std": 0.4148198962211609,
      "step": 534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 266.0,
      "completions/max_terminated_length": 266.0,
      "completions/mean_length": 176.0,
      "completions/mean_terminated_length": 176.0,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.0567518828895725,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.026313411304727197,
      "learning_rate": 7.7864e-06,
      "loss": -0.043,
      "num_tokens": 24727163.0,
      "reward": 3.9305410385131836,
      "reward_std": 0.3929198384284973,
      "rewards/reward_fn/mean": 3.9305410385131836,
      "rewards/reward_fn/std": 0.3929198086261749,
      "step": 535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 989.0,
      "completions/mean_length": 450.96875,
      "completions/mean_terminated_length": 399.45159912109375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.05685796117534741,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.02474389597773552,
      "learning_rate": 7.786e-06,
      "loss": 0.295,
      "num_tokens": 24807642.0,
      "reward": 2.4844565391540527,
      "reward_std": 0.7617939710617065,
      "rewards/reward_fn/mean": 2.4844565391540527,
      "rewards/reward_fn/std": 0.7617940306663513,
      "step": 536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1038.0,
      "completions/max_terminated_length": 1038.0,
      "completions/mean_length": 279.125,
      "completions/mean_terminated_length": 279.125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.05696403946112231,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.023733343929052353,
      "learning_rate": 7.785599999999999e-06,
      "loss": 0.2354,
      "num_tokens": 24864926.0,
      "reward": 3.690593719482422,
      "reward_std": 0.6516405344009399,
      "rewards/reward_fn/mean": 3.690593719482422,
      "rewards/reward_fn/std": 0.6516405344009399,
      "step": 537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1344.0,
      "completions/max_terminated_length": 1344.0,
      "completions/mean_length": 249.25,
      "completions/mean_terminated_length": 249.25,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.05707011774689721,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0791015625,
      "kl": 0.01965078490320593,
      "learning_rate": 7.7852e-06,
      "loss": 0.0008,
      "num_tokens": 24893702.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 512.0,
      "completions/max_terminated_length": 512.0,
      "completions/mean_length": 251.375,
      "completions/mean_terminated_length": 251.375,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.057176196032672114,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.0240073436871171,
      "learning_rate": 7.784799999999999e-06,
      "loss": -0.0035,
      "num_tokens": 24948466.0,
      "reward": 3.0717613697052,
      "reward_std": 0.3055979013442993,
      "rewards/reward_fn/mean": 3.0717613697052,
      "rewards/reward_fn/std": 0.3055979013442993,
      "step": 539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 420.9375,
      "completions/mean_terminated_length": 420.9375,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.05728227431844701,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.017085597850382328,
      "learning_rate": 7.7844e-06,
      "loss": -0.0404,
      "num_tokens": 24999024.0,
      "reward": 3.8227782249450684,
      "reward_std": 0.5049712657928467,
      "rewards/reward_fn/mean": 3.8227782249450684,
      "rewards/reward_fn/std": 0.5049712061882019,
      "step": 540
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 820.0,
      "completions/mean_length": 429.375,
      "completions/mean_terminated_length": 377.1612854003906,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.05738835260422192,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.017597553320229053,
      "learning_rate": 7.783999999999999e-06,
      "loss": 0.2524,
      "num_tokens": 25047324.0,
      "reward": 3.8369994163513184,
      "reward_std": 0.7323954701423645,
      "rewards/reward_fn/mean": 3.8369994163513184,
      "rewards/reward_fn/std": 0.7323954105377197,
      "step": 541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1177.0,
      "completions/max_terminated_length": 1177.0,
      "completions/mean_length": 378.90625,
      "completions/mean_terminated_length": 378.90625,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.05749443088999682,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.016290104715153575,
      "learning_rate": 7.7836e-06,
      "loss": 0.0425,
      "num_tokens": 25098361.0,
      "reward": 3.7207727432250977,
      "reward_std": 0.5368377566337585,
      "rewards/reward_fn/mean": 3.7207727432250977,
      "rewards/reward_fn/std": 0.5368378162384033,
      "step": 542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1419.0,
      "completions/mean_length": 524.0,
      "completions/mean_terminated_length": 474.83868408203125,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.05760050917577172,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.015481176087632775,
      "learning_rate": 7.7832e-06,
      "loss": 0.2563,
      "num_tokens": 25159897.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1671.0,
      "completions/max_terminated_length": 1671.0,
      "completions/mean_length": 397.84375,
      "completions/mean_terminated_length": 397.84375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.057706587461546624,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.020055697415955365,
      "learning_rate": 7.7828e-06,
      "loss": 0.0396,
      "num_tokens": 25186612.0,
      "reward": 3.4372525215148926,
      "reward_std": 0.9111435413360596,
      "rewards/reward_fn/mean": 3.4372525215148926,
      "rewards/reward_fn/std": 0.9111434817314148,
      "step": 544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1547.0,
      "completions/max_terminated_length": 1547.0,
      "completions/mean_length": 402.5625,
      "completions/mean_terminated_length": 402.5625,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.05781266574732152,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.01703974965494126,
      "learning_rate": 7.7824e-06,
      "loss": -0.0174,
      "num_tokens": 25245926.0,
      "reward": 2.1865077018737793,
      "reward_std": 0.591599702835083,
      "rewards/reward_fn/mean": 2.1865077018737793,
      "rewards/reward_fn/std": 0.5915996432304382,
      "step": 545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 466.0,
      "completions/max_terminated_length": 466.0,
      "completions/mean_length": 129.03125,
      "completions/mean_terminated_length": 129.03125,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.05791874403309642,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.13671875,
      "kl": 0.021547950338572264,
      "learning_rate": 7.782e-06,
      "loss": 0.0009,
      "num_tokens": 25293607.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 571.0,
      "completions/max_terminated_length": 571.0,
      "completions/mean_length": 135.34375,
      "completions/mean_terminated_length": 135.34375,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.05802482231887133,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.02250622259452939,
      "learning_rate": 7.7816e-06,
      "loss": 0.0009,
      "num_tokens": 25337234.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 911.0,
      "completions/max_terminated_length": 911.0,
      "completions/mean_length": 438.40625,
      "completions/mean_terminated_length": 438.40625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.05813090060464623,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.016708286479115486,
      "learning_rate": 7.7812e-06,
      "loss": -0.0201,
      "num_tokens": 25370719.0,
      "reward": 3.6040561199188232,
      "reward_std": 0.6672210693359375,
      "rewards/reward_fn/mean": 3.6040561199188232,
      "rewards/reward_fn/std": 0.6672210693359375,
      "step": 548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 716.0,
      "completions/max_terminated_length": 716.0,
      "completions/mean_length": 275.15625,
      "completions/mean_terminated_length": 275.15625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.05823697889042113,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.022039557108655572,
      "learning_rate": 7.7808e-06,
      "loss": -0.0129,
      "num_tokens": 25399588.0,
      "reward": 3.9713706970214844,
      "reward_std": 0.1619519293308258,
      "rewards/reward_fn/mean": 3.9713706970214844,
      "rewards/reward_fn/std": 0.1619519144296646,
      "step": 549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 359.0,
      "completions/max_terminated_length": 359.0,
      "completions/mean_length": 251.59375,
      "completions/mean_terminated_length": 251.59375,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.058343057176196034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.025676261633634567,
      "learning_rate": 7.7804e-06,
      "loss": 0.0033,
      "num_tokens": 25442935.0,
      "reward": 3.9251885414123535,
      "reward_std": 0.42319679260253906,
      "rewards/reward_fn/mean": 3.9251885414123535,
      "rewards/reward_fn/std": 0.4231967329978943,
      "step": 550
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 318.1875,
      "completions/mean_terminated_length": 318.1875,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.05844913546197093,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06640625,
      "kl": 0.01699168875347823,
      "learning_rate": 7.78e-06,
      "loss": 0.0007,
      "num_tokens": 25508861.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 551
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.0,
      "completions/max_terminated_length": 609.0,
      "completions/mean_length": 216.03125,
      "completions/mean_terminated_length": 216.03125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.05855521374774584,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.023042756598442793,
      "learning_rate": 7.7796e-06,
      "loss": -0.101,
      "num_tokens": 25546814.0,
      "reward": 2.9139137268066406,
      "reward_std": 0.2089153379201889,
      "rewards/reward_fn/mean": 2.9139137268066406,
      "rewards/reward_fn/std": 0.2089153528213501,
      "step": 552
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 468.0,
      "completions/max_terminated_length": 468.0,
      "completions/mean_length": 324.71875,
      "completions/mean_terminated_length": 324.71875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.05866129203352074,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.021038109436631203,
      "learning_rate": 7.7792e-06,
      "loss": 0.0099,
      "num_tokens": 25596405.0,
      "reward": 2.8648502826690674,
      "reward_std": 0.312248170375824,
      "rewards/reward_fn/mean": 2.8648502826690674,
      "rewards/reward_fn/std": 0.312248170375824,
      "step": 553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1097.0,
      "completions/mean_length": 406.96875,
      "completions/mean_terminated_length": 354.0322570800781,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.05876737031929564,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.027637179009616375,
      "learning_rate": 7.7788e-06,
      "loss": 0.0696,
      "num_tokens": 25645524.0,
      "reward": 3.4637341499328613,
      "reward_std": 0.9320629239082336,
      "rewards/reward_fn/mean": 3.4637341499328613,
      "rewards/reward_fn/std": 0.9320629239082336,
      "step": 554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1251.0,
      "completions/max_terminated_length": 1251.0,
      "completions/mean_length": 337.375,
      "completions/mean_terminated_length": 337.375,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.058873448605070544,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.02197849005460739,
      "learning_rate": 7.7784e-06,
      "loss": -0.0888,
      "num_tokens": 25689728.0,
      "reward": 3.8957581520080566,
      "reward_std": 0.3294965326786041,
      "rewards/reward_fn/mean": 3.8957581520080566,
      "rewards/reward_fn/std": 0.3294965624809265,
      "step": 555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 230.8125,
      "completions/mean_terminated_length": 230.8125,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.05897952689084544,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.029500858625397086,
      "learning_rate": 7.777999999999999e-06,
      "loss": 0.0233,
      "num_tokens": 25739002.0,
      "reward": 2.866637706756592,
      "reward_std": 0.37486761808395386,
      "rewards/reward_fn/mean": 2.866637706756592,
      "rewards/reward_fn/std": 0.37486761808395386,
      "step": 556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 974.0,
      "completions/max_terminated_length": 974.0,
      "completions/mean_length": 222.09375,
      "completions/mean_terminated_length": 222.09375,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.05908560517662034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.02057086571585387,
      "learning_rate": 7.7776e-06,
      "loss": 0.0235,
      "num_tokens": 25777245.0,
      "reward": 2.855576515197754,
      "reward_std": 0.3794987201690674,
      "rewards/reward_fn/mean": 2.855576515197754,
      "rewards/reward_fn/std": 0.37949874997138977,
      "step": 557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 472.0,
      "completions/max_terminated_length": 472.0,
      "completions/mean_length": 306.65625,
      "completions/mean_terminated_length": 306.65625,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.05919168346239525,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.02790513075888157,
      "learning_rate": 7.777199999999999e-06,
      "loss": 0.0267,
      "num_tokens": 25825586.0,
      "reward": 3.3989100456237793,
      "reward_std": 0.577396810054779,
      "rewards/reward_fn/mean": 3.3989100456237793,
      "rewards/reward_fn/std": 0.5773967504501343,
      "step": 558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 869.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 306.375,
      "completions/mean_terminated_length": 306.375,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.05929776174817015,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.02001808863133192,
      "learning_rate": 7.7768e-06,
      "loss": 0.0595,
      "num_tokens": 25870590.0,
      "reward": 3.9636728763580322,
      "reward_std": 0.2054968923330307,
      "rewards/reward_fn/mean": 3.9636728763580322,
      "rewards/reward_fn/std": 0.2054968625307083,
      "step": 559
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 314.0,
      "completions/max_terminated_length": 314.0,
      "completions/mean_length": 199.78125,
      "completions/mean_terminated_length": 199.78125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.059403840033945055,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08154296875,
      "kl": 0.022585346596315503,
      "learning_rate": 7.776399999999999e-06,
      "loss": 0.0009,
      "num_tokens": 25911831.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 560
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1035.0,
      "completions/max_terminated_length": 1035.0,
      "completions/mean_length": 234.25,
      "completions/mean_terminated_length": 234.25,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.059509918319719954,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1220703125,
      "kl": 0.029487166553735733,
      "learning_rate": 7.776e-06,
      "loss": 0.0012,
      "num_tokens": 25958847.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1035.0,
      "completions/max_terminated_length": 1035.0,
      "completions/mean_length": 212.40625,
      "completions/mean_terminated_length": 212.40625,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.05961599660549485,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10791015625,
      "kl": 0.028197331819683313,
      "learning_rate": 7.775599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 26001964.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1773.0,
      "completions/max_terminated_length": 1773.0,
      "completions/mean_length": 312.15625,
      "completions/mean_terminated_length": 312.15625,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.05972207489126976,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.030213134363293648,
      "learning_rate": 7.7752e-06,
      "loss": -0.1456,
      "num_tokens": 26043633.0,
      "reward": 3.2193734645843506,
      "reward_std": 0.7501698732376099,
      "rewards/reward_fn/mean": 3.2193734645843506,
      "rewards/reward_fn/std": 0.7501698136329651,
      "step": 563
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 474.0,
      "completions/max_terminated_length": 474.0,
      "completions/mean_length": 234.03125,
      "completions/mean_terminated_length": 234.03125,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.05982815317704466,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.0262491125613451,
      "learning_rate": 7.774799999999999e-06,
      "loss": -0.0273,
      "num_tokens": 26075090.0,
      "reward": 3.796114921569824,
      "reward_std": 0.5917590260505676,
      "rewards/reward_fn/mean": 3.796114921569824,
      "rewards/reward_fn/std": 0.5917590260505676,
      "step": 564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 745.0,
      "completions/max_terminated_length": 745.0,
      "completions/mean_length": 260.59375,
      "completions/mean_terminated_length": 260.59375,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.05993423146281956,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.02379171922802925,
      "learning_rate": 7.7744e-06,
      "loss": 0.0414,
      "num_tokens": 26121669.0,
      "reward": 3.966832160949707,
      "reward_std": 0.18762588500976562,
      "rewards/reward_fn/mean": 3.966832160949707,
      "rewards/reward_fn/std": 0.18762588500976562,
      "step": 565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1673.0,
      "completions/max_terminated_length": 1673.0,
      "completions/mean_length": 340.25,
      "completions/mean_terminated_length": 340.25,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.060040309748594464,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.023976900847628713,
      "learning_rate": 7.774e-06,
      "loss": 0.1362,
      "num_tokens": 26176941.0,
      "reward": 3.870932102203369,
      "reward_std": 0.3512914180755615,
      "rewards/reward_fn/mean": 3.870932102203369,
      "rewards/reward_fn/std": 0.3512914478778839,
      "step": 566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1298.0,
      "completions/mean_length": 401.3125,
      "completions/mean_terminated_length": 348.19354248046875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.060146388034369364,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.02290424262173474,
      "learning_rate": 7.7736e-06,
      "loss": 0.3008,
      "num_tokens": 26230135.0,
      "reward": 2.7015156745910645,
      "reward_std": 0.5482509732246399,
      "rewards/reward_fn/mean": 2.7015156745910645,
      "rewards/reward_fn/std": 0.5482509732246399,
      "step": 567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1626.0,
      "completions/max_terminated_length": 1626.0,
      "completions/mean_length": 386.40625,
      "completions/mean_terminated_length": 386.40625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.06025246632014427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.022990726167336106,
      "learning_rate": 7.7732e-06,
      "loss": 0.0198,
      "num_tokens": 26281284.0,
      "reward": 3.185511589050293,
      "reward_std": 0.48132088780403137,
      "rewards/reward_fn/mean": 3.185511589050293,
      "rewards/reward_fn/std": 0.4813208281993866,
      "step": 568
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 771.0,
      "completions/max_terminated_length": 771.0,
      "completions/mean_length": 221.375,
      "completions/mean_terminated_length": 221.375,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.06035854460591917,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.02692016214132309,
      "learning_rate": 7.7728e-06,
      "loss": -0.0111,
      "num_tokens": 26331024.0,
      "reward": 3.2124645709991455,
      "reward_std": 1.0723460912704468,
      "rewards/reward_fn/mean": 3.2124645709991455,
      "rewards/reward_fn/std": 1.0723460912704468,
      "step": 569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 434.0,
      "completions/max_terminated_length": 434.0,
      "completions/mean_length": 291.9375,
      "completions/mean_terminated_length": 291.9375,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.06046462289169407,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08349609375,
      "kl": 0.016868799226358533,
      "learning_rate": 7.7724e-06,
      "loss": 0.0007,
      "num_tokens": 26383566.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 570
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1654.0,
      "completions/max_terminated_length": 1654.0,
      "completions/mean_length": 541.6875,
      "completions/mean_terminated_length": 541.6875,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.060570701177468975,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.021761097013950348,
      "learning_rate": 7.772e-06,
      "loss": 0.0355,
      "num_tokens": 26440228.0,
      "reward": 2.8173985481262207,
      "reward_std": 0.04130704700946808,
      "rewards/reward_fn/mean": 2.8173985481262207,
      "rewards/reward_fn/std": 0.04130704328417778,
      "step": 571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1903.0,
      "completions/mean_length": 743.0625,
      "completions/mean_terminated_length": 656.0667114257812,
      "completions/min_length": 366.0,
      "completions/min_terminated_length": 366.0,
      "epoch": 0.060676779463243874,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.02275507105514407,
      "learning_rate": 7.7716e-06,
      "loss": 0.2517,
      "num_tokens": 26500774.0,
      "reward": 2.5745859146118164,
      "reward_std": 0.7353212237358093,
      "rewards/reward_fn/mean": 2.5745859146118164,
      "rewards/reward_fn/std": 0.7353212237358093,
      "step": 572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 731.0,
      "completions/max_terminated_length": 731.0,
      "completions/mean_length": 131.0,
      "completions/mean_terminated_length": 131.0,
      "completions/min_length": 56.0,
      "completions/min_terminated_length": 56.0,
      "epoch": 0.06078285774901877,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1826171875,
      "kl": 0.0287727911490947,
      "learning_rate": 7.7712e-06,
      "loss": 0.0012,
      "num_tokens": 26539238.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 804.0,
      "completions/max_terminated_length": 804.0,
      "completions/mean_length": 416.3125,
      "completions/mean_terminated_length": 416.3125,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.06088893603479368,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.01945284497924149,
      "learning_rate": 7.7708e-06,
      "loss": 0.0562,
      "num_tokens": 26596496.0,
      "reward": 2.86415958404541,
      "reward_std": 0.027712536975741386,
      "rewards/reward_fn/mean": 2.86415958404541,
      "rewards/reward_fn/std": 0.027712490409612656,
      "step": 574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 824.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 234.21875,
      "completions/mean_terminated_length": 234.21875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.06099501432056858,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09765625,
      "kl": 0.02484210953116417,
      "learning_rate": 7.7704e-06,
      "loss": 0.001,
      "num_tokens": 26638839.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 204.0,
      "completions/max_terminated_length": 204.0,
      "completions/mean_length": 148.0625,
      "completions/mean_terminated_length": 148.0625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.06110109260634348,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1064453125,
      "kl": 0.02255557058379054,
      "learning_rate": 7.769999999999998e-06,
      "loss": 0.0009,
      "num_tokens": 26686265.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1047.0,
      "completions/max_terminated_length": 1047.0,
      "completions/mean_length": 245.84375,
      "completions/mean_terminated_length": 245.84375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.061207170892118384,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.02338914154097438,
      "learning_rate": 7.7696e-06,
      "loss": 0.0526,
      "num_tokens": 26739572.0,
      "reward": 3.0910239219665527,
      "reward_std": 0.6024491190910339,
      "rewards/reward_fn/mean": 3.0910239219665527,
      "rewards/reward_fn/std": 0.6024490594863892,
      "step": 577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 850.0,
      "completions/max_terminated_length": 850.0,
      "completions/mean_length": 286.59375,
      "completions/mean_terminated_length": 286.59375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.061313249177893284,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.024446885101497173,
      "learning_rate": 7.7692e-06,
      "loss": 0.0939,
      "num_tokens": 26780743.0,
      "reward": 3.1179909706115723,
      "reward_std": 0.3886381685733795,
      "rewards/reward_fn/mean": 3.1179909706115723,
      "rewards/reward_fn/std": 0.38863810896873474,
      "step": 578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 625.0,
      "completions/max_terminated_length": 625.0,
      "completions/mean_length": 163.4375,
      "completions/mean_terminated_length": 163.4375,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.06141932746366819,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.03373258630745113,
      "learning_rate": 7.7688e-06,
      "loss": 0.0155,
      "num_tokens": 26818709.0,
      "reward": 3.9367802143096924,
      "reward_std": 0.24996694922447205,
      "rewards/reward_fn/mean": 3.9367802143096924,
      "rewards/reward_fn/std": 0.24996691942214966,
      "step": 579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 457.0,
      "completions/max_terminated_length": 457.0,
      "completions/mean_length": 298.34375,
      "completions/mean_terminated_length": 298.34375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.06152540574944309,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.025001312140375376,
      "learning_rate": 7.7684e-06,
      "loss": 0.0323,
      "num_tokens": 26876544.0,
      "reward": 2.8969321250915527,
      "reward_std": 0.41512611508369446,
      "rewards/reward_fn/mean": 2.8969321250915527,
      "rewards/reward_fn/std": 0.41512614488601685,
      "step": 580
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/max_terminated_length": 372.0,
      "completions/mean_length": 207.96875,
      "completions/mean_terminated_length": 207.96875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.06163148403521799,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.02601949847303331,
      "learning_rate": 7.767999999999999e-06,
      "loss": 0.0264,
      "num_tokens": 26914719.0,
      "reward": 3.91837477684021,
      "reward_std": 0.3212246596813202,
      "rewards/reward_fn/mean": 3.91837477684021,
      "rewards/reward_fn/std": 0.3212246298789978,
      "step": 581
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 869.0,
      "completions/max_terminated_length": 869.0,
      "completions/mean_length": 251.75,
      "completions/mean_terminated_length": 251.75,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.061737562320992895,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.02899379818700254,
      "learning_rate": 7.7676e-06,
      "loss": 0.0021,
      "num_tokens": 26951543.0,
      "reward": 1.9556413888931274,
      "reward_std": 0.4255604147911072,
      "rewards/reward_fn/mean": 1.9556413888931274,
      "rewards/reward_fn/std": 0.4255603849887848,
      "step": 582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 427.0,
      "completions/max_terminated_length": 427.0,
      "completions/mean_length": 161.90625,
      "completions/mean_terminated_length": 161.90625,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.061843640606767794,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1357421875,
      "kl": 0.028046605177223682,
      "learning_rate": 7.767199999999999e-06,
      "loss": 0.0011,
      "num_tokens": 26986676.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1094.0,
      "completions/max_terminated_length": 1094.0,
      "completions/mean_length": 329.0625,
      "completions/mean_terminated_length": 329.0625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.06194971889254269,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.02596241678111255,
      "learning_rate": 7.7668e-06,
      "loss": 0.0319,
      "num_tokens": 27038422.0,
      "reward": 2.7040181159973145,
      "reward_std": 0.4574950635433197,
      "rewards/reward_fn/mean": 2.7040181159973145,
      "rewards/reward_fn/std": 0.4574950933456421,
      "step": 584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1041.0,
      "completions/max_terminated_length": 1041.0,
      "completions/mean_length": 310.34375,
      "completions/mean_terminated_length": 310.34375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.0620557971783176,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.02197631192393601,
      "learning_rate": 7.766399999999999e-06,
      "loss": -0.0528,
      "num_tokens": 27092321.0,
      "reward": 3.9704360961914062,
      "reward_std": 0.16723935306072235,
      "rewards/reward_fn/mean": 3.9704360961914062,
      "rewards/reward_fn/std": 0.16723932325839996,
      "step": 585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1077.0,
      "completions/max_terminated_length": 1077.0,
      "completions/mean_length": 256.3125,
      "completions/mean_terminated_length": 256.3125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.0621618754640925,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.025298673193901777,
      "learning_rate": 7.766e-06,
      "loss": 0.034,
      "num_tokens": 27120971.0,
      "reward": 3.0783987045288086,
      "reward_std": 0.49813732504844666,
      "rewards/reward_fn/mean": 3.0783987045288086,
      "rewards/reward_fn/std": 0.49813729524612427,
      "step": 586
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1114.0,
      "completions/max_terminated_length": 1114.0,
      "completions/mean_length": 472.0625,
      "completions/mean_terminated_length": 472.0625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.062267953749867405,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.09375,
      "kl": 0.022866470273584127,
      "learning_rate": 7.765599999999999e-06,
      "loss": -0.0309,
      "num_tokens": 27166509.0,
      "reward": 2.5862374305725098,
      "reward_std": 0.24781370162963867,
      "rewards/reward_fn/mean": 2.5862374305725098,
      "rewards/reward_fn/std": 0.24781371653079987,
      "step": 587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1359.0,
      "completions/max_terminated_length": 1359.0,
      "completions/mean_length": 334.09375,
      "completions/mean_terminated_length": 334.09375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.062374032035642304,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.024537658086046576,
      "learning_rate": 7.7652e-06,
      "loss": 0.0017,
      "num_tokens": 27215664.0,
      "reward": 3.96297287940979,
      "reward_std": 0.2094566822052002,
      "rewards/reward_fn/mean": 3.96297287940979,
      "rewards/reward_fn/std": 0.2094566524028778,
      "step": 588
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 840.0,
      "completions/max_terminated_length": 840.0,
      "completions/mean_length": 236.375,
      "completions/mean_terminated_length": 236.375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.062480110321417204,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.05280748289078474,
      "learning_rate": 7.7648e-06,
      "loss": 0.0752,
      "num_tokens": 27262844.0,
      "reward": 3.666501998901367,
      "reward_std": 0.5441361665725708,
      "rewards/reward_fn/mean": 3.666501998901367,
      "rewards/reward_fn/std": 0.544136106967926,
      "step": 589
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 495.0,
      "completions/max_terminated_length": 495.0,
      "completions/mean_length": 159.875,
      "completions/mean_terminated_length": 159.875,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.0625861886071921,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12255859375,
      "kl": 0.029549932572990656,
      "learning_rate": 7.7644e-06,
      "loss": 0.0012,
      "num_tokens": 27303352.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 590
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 570.0,
      "completions/max_terminated_length": 570.0,
      "completions/mean_length": 242.8125,
      "completions/mean_terminated_length": 242.8125,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.06269226689296702,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.026474663987755775,
      "learning_rate": 7.764e-06,
      "loss": 0.0806,
      "num_tokens": 27345042.0,
      "reward": 3.7683963775634766,
      "reward_std": 0.4177395701408386,
      "rewards/reward_fn/mean": 3.7683963775634766,
      "rewards/reward_fn/std": 0.417739599943161,
      "step": 591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/max_terminated_length": 273.0,
      "completions/mean_length": 192.46875,
      "completions/mean_terminated_length": 192.46875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.06279834517874192,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11328125,
      "kl": 0.02718471735715866,
      "learning_rate": 7.7636e-06,
      "loss": 0.0011,
      "num_tokens": 27389153.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 829.0,
      "completions/max_terminated_length": 829.0,
      "completions/mean_length": 217.40625,
      "completions/mean_terminated_length": 217.40625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.06290442346451681,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.02357006026431918,
      "learning_rate": 7.7632e-06,
      "loss": 0.0768,
      "num_tokens": 27444366.0,
      "reward": 3.6223254203796387,
      "reward_std": 0.6039735674858093,
      "rewards/reward_fn/mean": 3.6223254203796387,
      "rewards/reward_fn/std": 0.6039735674858093,
      "step": 593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/max_terminated_length": 324.0,
      "completions/mean_length": 224.1875,
      "completions/mean_terminated_length": 224.1875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.06301050175029171,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1640625,
      "kl": 0.032485876930877566,
      "learning_rate": 7.7628e-06,
      "loss": 0.0013,
      "num_tokens": 27489652.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 594
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1325.0,
      "completions/mean_length": 370.84375,
      "completions/mean_terminated_length": 316.7419128417969,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.06311658003606661,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.021101591642946005,
      "learning_rate": 7.7624e-06,
      "loss": 0.3438,
      "num_tokens": 27522351.0,
      "reward": 3.6290016174316406,
      "reward_std": 0.8651793599128723,
      "rewards/reward_fn/mean": 3.6290016174316406,
      "rewards/reward_fn/std": 0.8651794195175171,
      "step": 595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1481.0,
      "completions/max_terminated_length": 1481.0,
      "completions/mean_length": 461.3125,
      "completions/mean_terminated_length": 461.3125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.06322265832184151,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.020340920658782125,
      "learning_rate": 7.762e-06,
      "loss": 0.1006,
      "num_tokens": 27556665.0,
      "reward": 2.6203527450561523,
      "reward_std": 0.41824400424957275,
      "rewards/reward_fn/mean": 2.6203527450561523,
      "rewards/reward_fn/std": 0.41824400424957275,
      "step": 596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1311.0,
      "completions/max_terminated_length": 1311.0,
      "completions/mean_length": 362.3125,
      "completions/mean_terminated_length": 362.3125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.06332873660761643,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.031615799525752664,
      "learning_rate": 7.761599999999999e-06,
      "loss": 0.1534,
      "num_tokens": 27603619.0,
      "reward": 3.4667482376098633,
      "reward_std": 0.7769173979759216,
      "rewards/reward_fn/mean": 3.4667482376098633,
      "rewards/reward_fn/std": 0.7769173979759216,
      "step": 597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1047.0,
      "completions/max_terminated_length": 1047.0,
      "completions/mean_length": 298.5,
      "completions/mean_terminated_length": 298.5,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.06343481489339133,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0595703125,
      "kl": 0.01625680283177644,
      "learning_rate": 7.7612e-06,
      "loss": 0.0007,
      "num_tokens": 27658291.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1009.0,
      "completions/max_terminated_length": 1009.0,
      "completions/mean_length": 368.125,
      "completions/mean_terminated_length": 368.125,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.06354089317916622,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.022277246927842498,
      "learning_rate": 7.760799999999999e-06,
      "loss": 0.1759,
      "num_tokens": 27705591.0,
      "reward": 2.9454853534698486,
      "reward_std": 1.09701406955719,
      "rewards/reward_fn/mean": 2.9454853534698486,
      "rewards/reward_fn/std": 1.0970139503479004,
      "step": 599
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1161.0,
      "completions/max_terminated_length": 1161.0,
      "completions/mean_length": 572.25,
      "completions/mean_terminated_length": 572.25,
      "completions/min_length": 327.0,
      "completions/min_terminated_length": 327.0,
      "epoch": 0.06364697146494112,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.09375,
      "kl": 0.01797162415459752,
      "learning_rate": 7.7604e-06,
      "loss": 0.0005,
      "num_tokens": 27773599.0,
      "reward": 2.691895008087158,
      "reward_std": 0.3327391445636749,
      "rewards/reward_fn/mean": 2.691895008087158,
      "rewards/reward_fn/std": 0.33273911476135254,
      "step": 600
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1965.0,
      "completions/max_terminated_length": 1965.0,
      "completions/mean_length": 387.9375,
      "completions/mean_terminated_length": 387.9375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.06375304975071602,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.01835179328918457,
      "learning_rate": 7.76e-06,
      "loss": -0.1032,
      "num_tokens": 27830749.0,
      "reward": 2.8080360889434814,
      "reward_std": 0.028673529624938965,
      "rewards/reward_fn/mean": 2.8080360889434814,
      "rewards/reward_fn/std": 0.02867353893816471,
      "step": 601
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1102.0,
      "completions/max_terminated_length": 1102.0,
      "completions/mean_length": 308.03125,
      "completions/mean_terminated_length": 308.03125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.06385912803649094,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07177734375,
      "kl": 0.020648242440074682,
      "learning_rate": 7.7596e-06,
      "loss": 0.0008,
      "num_tokens": 27880414.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 917.0,
      "completions/mean_length": 640.15625,
      "completions/mean_terminated_length": 546.300048828125,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.06396520632226584,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.023265723371878266,
      "learning_rate": 7.7592e-06,
      "loss": 0.0666,
      "num_tokens": 27935683.0,
      "reward": 2.6192939281463623,
      "reward_std": 0.8203719258308411,
      "rewards/reward_fn/mean": 2.6192939281463623,
      "rewards/reward_fn/std": 0.8203719258308411,
      "step": 603
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 597.0,
      "completions/max_terminated_length": 597.0,
      "completions/mean_length": 339.875,
      "completions/mean_terminated_length": 339.875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.06407128460804073,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.027694092597812414,
      "learning_rate": 7.7588e-06,
      "loss": -0.0216,
      "num_tokens": 27960351.0,
      "reward": 3.7123684883117676,
      "reward_std": 0.5121208429336548,
      "rewards/reward_fn/mean": 3.7123684883117676,
      "rewards/reward_fn/std": 0.5121208429336548,
      "step": 604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 803.0,
      "completions/max_terminated_length": 803.0,
      "completions/mean_length": 222.34375,
      "completions/mean_terminated_length": 222.34375,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.06417736289381563,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.02771115326322615,
      "learning_rate": 7.7584e-06,
      "loss": -0.0306,
      "num_tokens": 28002954.0,
      "reward": 3.9631314277648926,
      "reward_std": 0.2085607498884201,
      "rewards/reward_fn/mean": 3.9631314277648926,
      "rewards/reward_fn/std": 0.2085607349872589,
      "step": 605
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1230.0,
      "completions/max_terminated_length": 1230.0,
      "completions/mean_length": 297.0,
      "completions/mean_terminated_length": 297.0,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.06428344117959053,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02708641323260963,
      "learning_rate": 7.758e-06,
      "loss": 0.0956,
      "num_tokens": 28045898.0,
      "reward": 2.7624735832214355,
      "reward_std": 0.34915468096733093,
      "rewards/reward_fn/mean": 2.7624735832214355,
      "rewards/reward_fn/std": 0.34915465116500854,
      "step": 606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 966.0,
      "completions/max_terminated_length": 966.0,
      "completions/mean_length": 344.78125,
      "completions/mean_terminated_length": 344.78125,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.06438951946536543,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.01575366989709437,
      "learning_rate": 7.7576e-06,
      "loss": -0.054,
      "num_tokens": 28096035.0,
      "reward": 3.480724811553955,
      "reward_std": 0.637944221496582,
      "rewards/reward_fn/mean": 3.480724811553955,
      "rewards/reward_fn/std": 0.6379441618919373,
      "step": 607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1160.0,
      "completions/max_terminated_length": 1160.0,
      "completions/mean_length": 303.4375,
      "completions/mean_terminated_length": 303.4375,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.06449559775114035,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.019724218058399856,
      "learning_rate": 7.7572e-06,
      "loss": 0.1051,
      "num_tokens": 28140113.0,
      "reward": 3.8815999031066895,
      "reward_std": 0.32930222153663635,
      "rewards/reward_fn/mean": 3.8815999031066895,
      "rewards/reward_fn/std": 0.32930222153663635,
      "step": 608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1501.0,
      "completions/max_terminated_length": 1501.0,
      "completions/mean_length": 279.59375,
      "completions/mean_terminated_length": 279.59375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.06460167603691525,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.023657136596739292,
      "learning_rate": 7.7568e-06,
      "loss": 0.0655,
      "num_tokens": 28179076.0,
      "reward": 3.6588215827941895,
      "reward_std": 0.5550169944763184,
      "rewards/reward_fn/mean": 3.6588215827941895,
      "rewards/reward_fn/std": 0.5550169944763184,
      "step": 609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1025.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 315.9375,
      "completions/mean_terminated_length": 315.9375,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.06470775432269014,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.020349433412775397,
      "learning_rate": 7.756399999999999e-06,
      "loss": 0.0056,
      "num_tokens": 28236546.0,
      "reward": 1.650451898574829,
      "reward_std": 0.03633672744035721,
      "rewards/reward_fn/mean": 1.650451898574829,
      "rewards/reward_fn/std": 0.0363367535173893,
      "step": 610
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 203.28125,
      "completions/mean_terminated_length": 203.28125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.06481383260846504,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08447265625,
      "kl": 0.01983096171170473,
      "learning_rate": 7.756e-06,
      "loss": 0.0008,
      "num_tokens": 28277451.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1197.0,
      "completions/max_terminated_length": 1197.0,
      "completions/mean_length": 290.1875,
      "completions/mean_terminated_length": 290.1875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.06491991089423994,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.023188997758552432,
      "learning_rate": 7.7556e-06,
      "loss": -0.0779,
      "num_tokens": 28319761.0,
      "reward": 3.2103209495544434,
      "reward_std": 0.23490554094314575,
      "rewards/reward_fn/mean": 3.2103209495544434,
      "rewards/reward_fn/std": 0.23490552604198456,
      "step": 612
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1524.0,
      "completions/max_terminated_length": 1524.0,
      "completions/mean_length": 269.1875,
      "completions/mean_terminated_length": 269.1875,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.06502598918001486,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.8046875,
      "kl": 0.023811078863218427,
      "learning_rate": 7.7552e-06,
      "loss": -0.0893,
      "num_tokens": 28367543.0,
      "reward": 3.9686954021453857,
      "reward_std": 0.17708587646484375,
      "rewards/reward_fn/mean": 3.9686954021453857,
      "rewards/reward_fn/std": 0.17708587646484375,
      "step": 613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/max_terminated_length": 315.0,
      "completions/mean_length": 220.09375,
      "completions/mean_terminated_length": 220.09375,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.06513206746578976,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.024617396760731936,
      "learning_rate": 7.7548e-06,
      "loss": 0.0609,
      "num_tokens": 28420698.0,
      "reward": 3.9674062728881836,
      "reward_std": 0.1843782216310501,
      "rewards/reward_fn/mean": 3.9674062728881836,
      "rewards/reward_fn/std": 0.1843782216310501,
      "step": 614
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1238.0,
      "completions/max_terminated_length": 1238.0,
      "completions/mean_length": 224.09375,
      "completions/mean_terminated_length": 224.09375,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.06523814575156466,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09326171875,
      "kl": 0.0253062816336751,
      "learning_rate": 7.7544e-06,
      "loss": 0.001,
      "num_tokens": 28457085.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 414.0,
      "completions/max_terminated_length": 414.0,
      "completions/mean_length": 217.34375,
      "completions/mean_terminated_length": 217.34375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.06534422403733955,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.02408299339003861,
      "learning_rate": 7.753999999999999e-06,
      "loss": 0.0,
      "num_tokens": 28502504.0,
      "reward": 3.666853666305542,
      "reward_std": 0.7510157823562622,
      "rewards/reward_fn/mean": 3.666853666305542,
      "rewards/reward_fn/std": 0.7510157823562622,
      "step": 616
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 788.0,
      "completions/max_terminated_length": 788.0,
      "completions/mean_length": 194.34375,
      "completions/mean_terminated_length": 194.34375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.06545030232311445,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10498046875,
      "kl": 0.01842890668194741,
      "learning_rate": 7.7536e-06,
      "loss": 0.0007,
      "num_tokens": 28560915.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1946.0,
      "completions/mean_length": 1078.65625,
      "completions/mean_terminated_length": 978.3793334960938,
      "completions/min_length": 339.0,
      "completions/min_terminated_length": 339.0,
      "epoch": 0.06555638060888937,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0,
      "kl": 0.013798431027680635,
      "learning_rate": 7.753199999999999e-06,
      "loss": 0.1245,
      "num_tokens": 28631080.0,
      "reward": 2.1499953269958496,
      "reward_std": 0.8221304416656494,
      "rewards/reward_fn/mean": 2.1499953269958496,
      "rewards/reward_fn/std": 0.8221304416656494,
      "step": 618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 991.0,
      "completions/max_terminated_length": 991.0,
      "completions/mean_length": 279.21875,
      "completions/mean_terminated_length": 279.21875,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.06566245889466427,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.78125,
      "kl": 0.03788356087170541,
      "learning_rate": 7.7528e-06,
      "loss": 0.1088,
      "num_tokens": 28659407.0,
      "reward": 2.988480567932129,
      "reward_std": 0.23437552154064178,
      "rewards/reward_fn/mean": 2.988480567932129,
      "rewards/reward_fn/std": 0.23437556624412537,
      "step": 619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 268.71875,
      "completions/mean_terminated_length": 268.71875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.06576853718043917,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.022709642769768834,
      "learning_rate": 7.752399999999999e-06,
      "loss": 0.1208,
      "num_tokens": 28697734.0,
      "reward": 3.431100606918335,
      "reward_std": 0.6189658045768738,
      "rewards/reward_fn/mean": 3.431100606918335,
      "rewards/reward_fn/std": 0.6189658641815186,
      "step": 620
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1274.0,
      "completions/max_terminated_length": 1274.0,
      "completions/mean_length": 283.0625,
      "completions/mean_terminated_length": 283.0625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.06587461546621406,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.02149501978419721,
      "learning_rate": 7.752e-06,
      "loss": 0.0237,
      "num_tokens": 28752904.0,
      "reward": 1.8805391788482666,
      "reward_std": 0.6935924291610718,
      "rewards/reward_fn/mean": 1.8805391788482666,
      "rewards/reward_fn/std": 0.6935924291610718,
      "step": 621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 765.0,
      "completions/max_terminated_length": 765.0,
      "completions/mean_length": 383.125,
      "completions/mean_terminated_length": 383.125,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.06598069375198896,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.01584722870029509,
      "learning_rate": 7.751599999999999e-06,
      "loss": -0.006,
      "num_tokens": 28805388.0,
      "reward": 2.8024349212646484,
      "reward_std": 0.36229246854782104,
      "rewards/reward_fn/mean": 2.8024349212646484,
      "rewards/reward_fn/std": 0.36229249835014343,
      "step": 622
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1102.0,
      "completions/max_terminated_length": 1102.0,
      "completions/mean_length": 410.21875,
      "completions/mean_terminated_length": 410.21875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.06608677203776386,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.046875,
      "kl": 0.020291926339268684,
      "learning_rate": 7.7512e-06,
      "loss": -0.0774,
      "num_tokens": 28855475.0,
      "reward": 3.961885690689087,
      "reward_std": 0.2156069576740265,
      "rewards/reward_fn/mean": 3.961885690689087,
      "rewards/reward_fn/std": 0.2156069576740265,
      "step": 623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 915.0,
      "completions/max_terminated_length": 915.0,
      "completions/mean_length": 223.03125,
      "completions/mean_terminated_length": 223.03125,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.06619285032353878,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.024670890532433987,
      "learning_rate": 7.7508e-06,
      "loss": 0.1838,
      "num_tokens": 28909012.0,
      "reward": 3.6656932830810547,
      "reward_std": 0.5034979581832886,
      "rewards/reward_fn/mean": 3.6656932830810547,
      "rewards/reward_fn/std": 0.5034979581832886,
      "step": 624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 375.15625,
      "completions/mean_terminated_length": 375.15625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.06629892860931368,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.02088888338766992,
      "learning_rate": 7.7504e-06,
      "loss": -0.0578,
      "num_tokens": 28951257.0,
      "reward": 2.5856075286865234,
      "reward_std": 0.31954845786094666,
      "rewards/reward_fn/mean": 2.5856075286865234,
      "rewards/reward_fn/std": 0.31954848766326904,
      "step": 625
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 546.0,
      "completions/max_terminated_length": 546.0,
      "completions/mean_length": 265.90625,
      "completions/mean_terminated_length": 265.90625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.06640500689508858,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.01428930729161948,
      "learning_rate": 7.75e-06,
      "loss": 0.0585,
      "num_tokens": 28981846.0,
      "reward": 3.45589542388916,
      "reward_std": 0.6938397288322449,
      "rewards/reward_fn/mean": 3.45589542388916,
      "rewards/reward_fn/std": 0.6938397288322449,
      "step": 626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 955.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 257.3125,
      "completions/mean_terminated_length": 257.3125,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.06651108518086347,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06201171875,
      "kl": 0.016050009289756417,
      "learning_rate": 7.7496e-06,
      "loss": 0.0006,
      "num_tokens": 29035904.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 627
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 414.0,
      "completions/max_terminated_length": 414.0,
      "completions/mean_length": 115.21875,
      "completions/mean_terminated_length": 115.21875,
      "completions/min_length": 59.0,
      "completions/min_terminated_length": 59.0,
      "epoch": 0.06661716346663837,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.75,
      "kl": 0.02869252348318696,
      "learning_rate": 7.7492e-06,
      "loss": -0.0297,
      "num_tokens": 29077415.0,
      "reward": 3.737992763519287,
      "reward_std": 0.5032368302345276,
      "rewards/reward_fn/mean": 3.737992763519287,
      "rewards/reward_fn/std": 0.5032367706298828,
      "step": 628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 636.0,
      "completions/max_terminated_length": 636.0,
      "completions/mean_length": 266.6875,
      "completions/mean_terminated_length": 266.6875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.06672324175241329,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.01821572007611394,
      "learning_rate": 7.7488e-06,
      "loss": 0.0338,
      "num_tokens": 29125021.0,
      "reward": 2.8474972248077393,
      "reward_std": 0.2903161644935608,
      "rewards/reward_fn/mean": 2.8474972248077393,
      "rewards/reward_fn/std": 0.2903161942958832,
      "step": 629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1196.0,
      "completions/max_terminated_length": 1196.0,
      "completions/mean_length": 201.375,
      "completions/mean_terminated_length": 201.375,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.06682932003818819,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07861328125,
      "kl": 0.02066903980448842,
      "learning_rate": 7.7484e-06,
      "loss": 0.0008,
      "num_tokens": 29171081.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 630
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 223.0,
      "completions/max_terminated_length": 223.0,
      "completions/mean_length": 157.15625,
      "completions/mean_terminated_length": 157.15625,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.06693539832396309,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0986328125,
      "kl": 0.018408002564683557,
      "learning_rate": 7.748e-06,
      "loss": 0.0007,
      "num_tokens": 29208398.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1817.0,
      "completions/max_terminated_length": 1817.0,
      "completions/mean_length": 382.125,
      "completions/mean_terminated_length": 382.125,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.06704147660973798,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.016226678737439215,
      "learning_rate": 7.7476e-06,
      "loss": 0.1208,
      "num_tokens": 29263634.0,
      "reward": 2.820263385772705,
      "reward_std": 0.028630422428250313,
      "rewards/reward_fn/mean": 2.820263385772705,
      "rewards/reward_fn/std": 0.02863038145005703,
      "step": 632
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1256.0,
      "completions/max_terminated_length": 1256.0,
      "completions/mean_length": 324.71875,
      "completions/mean_terminated_length": 324.71875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.06714755489551288,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.02659795875661075,
      "learning_rate": 7.7472e-06,
      "loss": -0.0069,
      "num_tokens": 29305705.0,
      "reward": 3.5446953773498535,
      "reward_std": 0.7270760536193848,
      "rewards/reward_fn/mean": 3.5446953773498535,
      "rewards/reward_fn/std": 0.7270760536193848,
      "step": 633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.0,
      "completions/max_terminated_length": 270.0,
      "completions/mean_length": 107.5625,
      "completions/mean_terminated_length": 107.5625,
      "completions/min_length": 59.0,
      "completions/min_terminated_length": 59.0,
      "epoch": 0.06725363318128778,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.234375,
      "kl": 0.026664254954084754,
      "learning_rate": 7.7468e-06,
      "loss": 0.0563,
      "num_tokens": 29356571.0,
      "reward": 2.822035551071167,
      "reward_std": 0.03083919733762741,
      "rewards/reward_fn/mean": 2.822035551071167,
      "rewards/reward_fn/std": 0.030839232727885246,
      "step": 634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 431.0,
      "completions/max_terminated_length": 431.0,
      "completions/mean_length": 171.3125,
      "completions/mean_terminated_length": 171.3125,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.0673597114670627,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0927734375,
      "kl": 0.02076897514052689,
      "learning_rate": 7.7464e-06,
      "loss": 0.0008,
      "num_tokens": 29417093.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1839.0,
      "completions/max_terminated_length": 1839.0,
      "completions/mean_length": 315.9375,
      "completions/mean_terminated_length": 315.9375,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.0674657897528376,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.020625132601708174,
      "learning_rate": 7.746e-06,
      "loss": -0.0231,
      "num_tokens": 29469347.0,
      "reward": 3.4893736839294434,
      "reward_std": 0.8306846618652344,
      "rewards/reward_fn/mean": 3.4893736839294434,
      "rewards/reward_fn/std": 0.8306846618652344,
      "step": 636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1967.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 430.0625,
      "completions/mean_terminated_length": 430.0625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.0675718680386125,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.02193266712129116,
      "learning_rate": 7.7456e-06,
      "loss": 0.199,
      "num_tokens": 29521989.0,
      "reward": 3.3931772708892822,
      "reward_std": 0.9524803757667542,
      "rewards/reward_fn/mean": 3.3931772708892822,
      "rewards/reward_fn/std": 0.9524803757667542,
      "step": 637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 637.0,
      "completions/max_terminated_length": 637.0,
      "completions/mean_length": 218.59375,
      "completions/mean_terminated_length": 218.59375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.0676779463243874,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.01927727018482983,
      "learning_rate": 7.7452e-06,
      "loss": 0.0266,
      "num_tokens": 29557464.0,
      "reward": 3.8538365364074707,
      "reward_std": 0.3451085090637207,
      "rewards/reward_fn/mean": 3.8538365364074707,
      "rewards/reward_fn/std": 0.3451085090637207,
      "step": 638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1125.0,
      "completions/max_terminated_length": 1125.0,
      "completions/mean_length": 226.625,
      "completions/mean_terminated_length": 226.625,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.0677840246101623,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09912109375,
      "kl": 0.023490537889301777,
      "learning_rate": 7.744799999999999e-06,
      "loss": 0.0009,
      "num_tokens": 29601612.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 639
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 420.0,
      "completions/max_terminated_length": 420.0,
      "completions/mean_length": 169.15625,
      "completions/mean_terminated_length": 169.15625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.06789010289593721,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1044921875,
      "kl": 0.022257780889049172,
      "learning_rate": 7.7444e-06,
      "loss": 0.0009,
      "num_tokens": 29650641.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 640
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 749.0,
      "completions/max_terminated_length": 749.0,
      "completions/mean_length": 170.46875,
      "completions/mean_terminated_length": 170.46875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.0679961811817121,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07666015625,
      "kl": 0.01819098659325391,
      "learning_rate": 7.743999999999999e-06,
      "loss": 0.0007,
      "num_tokens": 29711392.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1487.0,
      "completions/max_terminated_length": 1487.0,
      "completions/mean_length": 571.28125,
      "completions/mean_terminated_length": 571.28125,
      "completions/min_length": 351.0,
      "completions/min_terminated_length": 351.0,
      "epoch": 0.068102259467487,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.014475560979917645,
      "learning_rate": 7.7436e-06,
      "loss": 0.0193,
      "num_tokens": 29767849.0,
      "reward": 2.6820812225341797,
      "reward_std": 0.33843210339546204,
      "rewards/reward_fn/mean": 2.6820812225341797,
      "rewards/reward_fn/std": 0.3384321331977844,
      "step": 642
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1318.0,
      "completions/max_terminated_length": 1318.0,
      "completions/mean_length": 672.3125,
      "completions/mean_terminated_length": 672.3125,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.0682083377532619,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.017669666092842817,
      "learning_rate": 7.743199999999999e-06,
      "loss": -0.0573,
      "num_tokens": 29826579.0,
      "reward": 2.787215232849121,
      "reward_std": 0.32044708728790283,
      "rewards/reward_fn/mean": 2.787215232849121,
      "rewards/reward_fn/std": 0.3204471170902252,
      "step": 643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 482.0,
      "completions/max_terminated_length": 482.0,
      "completions/mean_length": 122.84375,
      "completions/mean_terminated_length": 122.84375,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.0683144160390368,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1015625,
      "kl": 0.019987852778285742,
      "learning_rate": 7.7428e-06,
      "loss": 0.0008,
      "num_tokens": 29863278.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 679.0,
      "completions/max_terminated_length": 679.0,
      "completions/mean_length": 273.875,
      "completions/mean_terminated_length": 273.875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.06842049432481172,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.026723440503701568,
      "learning_rate": 7.742399999999999e-06,
      "loss": -0.045,
      "num_tokens": 29911210.0,
      "reward": 3.9678614139556885,
      "reward_std": 0.18180328607559204,
      "rewards/reward_fn/mean": 3.9678614139556885,
      "rewards/reward_fn/std": 0.18180328607559204,
      "step": 645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 875.0,
      "completions/max_terminated_length": 875.0,
      "completions/mean_length": 346.90625,
      "completions/mean_terminated_length": 346.90625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.06852657261058662,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.018849076703190804,
      "learning_rate": 7.742e-06,
      "loss": -0.017,
      "num_tokens": 29950791.0,
      "reward": 3.6496143341064453,
      "reward_std": 0.6005396842956543,
      "rewards/reward_fn/mean": 3.6496143341064453,
      "rewards/reward_fn/std": 0.6005396842956543,
      "step": 646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 776.0,
      "completions/max_terminated_length": 776.0,
      "completions/mean_length": 181.40625,
      "completions/mean_terminated_length": 181.40625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.06863265089636152,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09912109375,
      "kl": 0.01960382249671966,
      "learning_rate": 7.741599999999999e-06,
      "loss": 0.0008,
      "num_tokens": 29989428.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1647.0,
      "completions/max_terminated_length": 1647.0,
      "completions/mean_length": 381.21875,
      "completions/mean_terminated_length": 381.21875,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.06873872918213642,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02327621285803616,
      "learning_rate": 7.7412e-06,
      "loss": 0.1426,
      "num_tokens": 30037851.0,
      "reward": 3.4980902671813965,
      "reward_std": 0.7049679756164551,
      "rewards/reward_fn/mean": 3.4980902671813965,
      "rewards/reward_fn/std": 0.7049679160118103,
      "step": 648
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 682.0,
      "completions/max_terminated_length": 682.0,
      "completions/mean_length": 299.90625,
      "completions/mean_terminated_length": 299.90625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.06884480746791131,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.018094201455824077,
      "learning_rate": 7.7408e-06,
      "loss": -0.0152,
      "num_tokens": 30095672.0,
      "reward": 3.6386489868164062,
      "reward_std": 0.8532451391220093,
      "rewards/reward_fn/mean": 3.6386489868164062,
      "rewards/reward_fn/std": 0.8532451391220093,
      "step": 649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 549.0,
      "completions/max_terminated_length": 549.0,
      "completions/mean_length": 153.125,
      "completions/mean_terminated_length": 153.125,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.06895088575368621,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11962890625,
      "kl": 0.023316435981541872,
      "learning_rate": 7.7404e-06,
      "loss": 0.0009,
      "num_tokens": 30131132.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 650
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 545.0,
      "completions/max_terminated_length": 545.0,
      "completions/mean_length": 145.53125,
      "completions/mean_terminated_length": 145.53125,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.06905696403946113,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.03125,
      "kl": 0.026125010568648577,
      "learning_rate": 7.74e-06,
      "loss": -0.0946,
      "num_tokens": 30154061.0,
      "reward": 3.0254387855529785,
      "reward_std": 0.07992041856050491,
      "rewards/reward_fn/mean": 3.0254387855529785,
      "rewards/reward_fn/std": 0.07992040365934372,
      "step": 651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1189.0,
      "completions/max_terminated_length": 1189.0,
      "completions/mean_length": 458.0625,
      "completions/mean_terminated_length": 458.0625,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.06916304232523603,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.01891616778448224,
      "learning_rate": 7.7396e-06,
      "loss": 0.0773,
      "num_tokens": 30224079.0,
      "reward": 2.673313617706299,
      "reward_std": 0.30429506301879883,
      "rewards/reward_fn/mean": 2.673313617706299,
      "rewards/reward_fn/std": 0.30429503321647644,
      "step": 652
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1321.0,
      "completions/max_terminated_length": 1321.0,
      "completions/mean_length": 351.46875,
      "completions/mean_terminated_length": 351.46875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.06926912061101093,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.023535766871646047,
      "learning_rate": 7.7392e-06,
      "loss": -0.027,
      "num_tokens": 30265534.0,
      "reward": 3.135115623474121,
      "reward_std": 0.47822919487953186,
      "rewards/reward_fn/mean": 3.135115623474121,
      "rewards/reward_fn/std": 0.47822922468185425,
      "step": 653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1862.0,
      "completions/mean_length": 461.40625,
      "completions/mean_terminated_length": 410.2257995605469,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.06937519889678583,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.018667538883164525,
      "learning_rate": 7.7388e-06,
      "loss": 0.1329,
      "num_tokens": 30315243.0,
      "reward": 3.3491392135620117,
      "reward_std": 1.0377370119094849,
      "rewards/reward_fn/mean": 3.3491392135620117,
      "rewards/reward_fn/std": 1.0377370119094849,
      "step": 654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1697.0,
      "completions/max_terminated_length": 1697.0,
      "completions/mean_length": 685.59375,
      "completions/mean_terminated_length": 685.59375,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.06948127718256072,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.125,
      "kl": 0.01727759197819978,
      "learning_rate": 7.7384e-06,
      "loss": 0.0192,
      "num_tokens": 30373502.0,
      "reward": 3.753196954727173,
      "reward_std": 0.5557073950767517,
      "rewards/reward_fn/mean": 3.753196954727173,
      "rewards/reward_fn/std": 0.5557073950767517,
      "step": 655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.0,
      "completions/max_terminated_length": 603.0,
      "completions/mean_length": 181.21875,
      "completions/mean_terminated_length": 181.21875,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.06958735546833564,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.018722419743426144,
      "learning_rate": 7.738e-06,
      "loss": 0.1536,
      "num_tokens": 30412837.0,
      "reward": 2.847813606262207,
      "reward_std": 0.032345082610845566,
      "rewards/reward_fn/mean": 2.847813606262207,
      "rewards/reward_fn/std": 0.03234507888555527,
      "step": 656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1239.0,
      "completions/max_terminated_length": 1239.0,
      "completions/mean_length": 343.125,
      "completions/mean_terminated_length": 343.125,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.06969343375411054,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.03125,
      "kl": 0.01867408840917051,
      "learning_rate": 7.737599999999999e-06,
      "loss": 0.0086,
      "num_tokens": 30456777.0,
      "reward": 2.8930726051330566,
      "reward_std": 0.20554324984550476,
      "rewards/reward_fn/mean": 2.8930726051330566,
      "rewards/reward_fn/std": 0.20554324984550476,
      "step": 657
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1573.0,
      "completions/max_terminated_length": 1573.0,
      "completions/mean_length": 438.90625,
      "completions/mean_terminated_length": 438.90625,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.06979951203988544,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.013406037352979183,
      "learning_rate": 7.7372e-06,
      "loss": 0.0336,
      "num_tokens": 30491014.0,
      "reward": 2.6613709926605225,
      "reward_std": 0.055673278868198395,
      "rewards/reward_fn/mean": 2.6613709926605225,
      "rewards/reward_fn/std": 0.055673304945230484,
      "step": 658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1197.0,
      "completions/max_terminated_length": 1197.0,
      "completions/mean_length": 352.9375,
      "completions/mean_terminated_length": 352.9375,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.06990559032566034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.02186316321603954,
      "learning_rate": 7.736799999999998e-06,
      "loss": 0.0747,
      "num_tokens": 30519428.0,
      "reward": 3.3577191829681396,
      "reward_std": 0.6026961803436279,
      "rewards/reward_fn/mean": 3.3577191829681396,
      "rewards/reward_fn/std": 0.6026961803436279,
      "step": 659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1346.0,
      "completions/max_terminated_length": 1346.0,
      "completions/mean_length": 477.875,
      "completions/mean_terminated_length": 477.875,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.07001166861143523,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.953125,
      "kl": 0.018300026771612465,
      "learning_rate": 7.7364e-06,
      "loss": -0.0899,
      "num_tokens": 30571616.0,
      "reward": 3.9199166297912598,
      "reward_std": 0.3151904344558716,
      "rewards/reward_fn/mean": 3.9199166297912598,
      "rewards/reward_fn/std": 0.3151904046535492,
      "step": 660
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1196.0,
      "completions/max_terminated_length": 1196.0,
      "completions/mean_length": 323.34375,
      "completions/mean_terminated_length": 323.34375,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.07011774689721013,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.022360553964972496,
      "learning_rate": 7.736e-06,
      "loss": -0.0118,
      "num_tokens": 30612235.0,
      "reward": 2.710085391998291,
      "reward_std": 0.1893293261528015,
      "rewards/reward_fn/mean": 2.710085391998291,
      "rewards/reward_fn/std": 0.1893293410539627,
      "step": 661
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 816.0,
      "completions/max_terminated_length": 816.0,
      "completions/mean_length": 146.6875,
      "completions/mean_terminated_length": 146.6875,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.07022382518298505,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.021579281659796834,
      "learning_rate": 7.7356e-06,
      "loss": 0.0009,
      "num_tokens": 30645281.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 662
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 427.0,
      "completions/max_terminated_length": 427.0,
      "completions/mean_length": 137.09375,
      "completions/mean_terminated_length": 137.09375,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.07032990346875995,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.171875,
      "kl": 0.02280471404083073,
      "learning_rate": 7.7352e-06,
      "loss": 0.0127,
      "num_tokens": 30693796.0,
      "reward": 3.1744942665100098,
      "reward_std": 0.06619588285684586,
      "rewards/reward_fn/mean": 3.1744942665100098,
      "rewards/reward_fn/std": 0.06619583815336227,
      "step": 663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1954.0,
      "completions/max_terminated_length": 1954.0,
      "completions/mean_length": 472.78125,
      "completions/mean_terminated_length": 472.78125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.07043598175453485,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.019758876063860953,
      "learning_rate": 7.7348e-06,
      "loss": 0.1493,
      "num_tokens": 30727741.0,
      "reward": 3.272916316986084,
      "reward_std": 0.8355657458305359,
      "rewards/reward_fn/mean": 3.272916316986084,
      "rewards/reward_fn/std": 0.8355657458305359,
      "step": 664
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 586.0,
      "completions/max_terminated_length": 586.0,
      "completions/mean_length": 184.9375,
      "completions/mean_terminated_length": 184.9375,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.07054206004030975,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.099609375,
      "kl": 0.020734936697408557,
      "learning_rate": 7.7344e-06,
      "loss": 0.0008,
      "num_tokens": 30782395.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.0,
      "completions/max_terminated_length": 318.0,
      "completions/mean_length": 227.5625,
      "completions/mean_terminated_length": 227.5625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.07064813832608464,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1640625,
      "kl": 0.029407049994915724,
      "learning_rate": 7.733999999999999e-06,
      "loss": 0.0012,
      "num_tokens": 30830157.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1116.0,
      "completions/max_terminated_length": 1116.0,
      "completions/mean_length": 342.46875,
      "completions/mean_terminated_length": 342.46875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.07075421661185956,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.023776059737429023,
      "learning_rate": 7.7336e-06,
      "loss": 0.1323,
      "num_tokens": 30857724.0,
      "reward": 3.5412867069244385,
      "reward_std": 0.5026692152023315,
      "rewards/reward_fn/mean": 3.5412867069244385,
      "rewards/reward_fn/std": 0.5026691555976868,
      "step": 667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1322.0,
      "completions/max_terminated_length": 1322.0,
      "completions/mean_length": 213.90625,
      "completions/mean_terminated_length": 213.90625,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.07086029489763446,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.026352980406954885,
      "learning_rate": 7.733199999999999e-06,
      "loss": -0.1159,
      "num_tokens": 30882425.0,
      "reward": 3.824970245361328,
      "reward_std": 0.41358694434165955,
      "rewards/reward_fn/mean": 3.824970245361328,
      "rewards/reward_fn/std": 0.41358694434165955,
      "step": 668
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1241.0,
      "completions/max_terminated_length": 1241.0,
      "completions/mean_length": 550.3125,
      "completions/mean_terminated_length": 550.3125,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "epoch": 0.07096637318340936,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.83203125,
      "kl": 0.017197473789565265,
      "learning_rate": 7.7328e-06,
      "loss": -0.086,
      "num_tokens": 30943363.0,
      "reward": 3.852973699569702,
      "reward_std": 0.4963712990283966,
      "rewards/reward_fn/mean": 3.852973699569702,
      "rewards/reward_fn/std": 0.4963712692260742,
      "step": 669
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 694.0,
      "completions/max_terminated_length": 694.0,
      "completions/mean_length": 223.71875,
      "completions/mean_terminated_length": 223.71875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.07107245146918426,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.022278335178270936,
      "learning_rate": 7.732399999999999e-06,
      "loss": 0.0117,
      "num_tokens": 30996954.0,
      "reward": 3.4236133098602295,
      "reward_std": 0.5188043713569641,
      "rewards/reward_fn/mean": 3.4236133098602295,
      "rewards/reward_fn/std": 0.5188043713569641,
      "step": 670
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1981.0,
      "completions/mean_length": 473.53125,
      "completions/mean_terminated_length": 422.7419128417969,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.07117852975495916,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.027860619127750397,
      "learning_rate": 7.732e-06,
      "loss": 0.4003,
      "num_tokens": 31042411.0,
      "reward": 2.8622326850891113,
      "reward_std": 0.21642757952213287,
      "rewards/reward_fn/mean": 2.8622326850891113,
      "rewards/reward_fn/std": 0.21642759442329407,
      "step": 671
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1963.0,
      "completions/mean_length": 1063.59375,
      "completions/mean_terminated_length": 961.7586059570312,
      "completions/min_length": 436.0,
      "completions/min_terminated_length": 436.0,
      "epoch": 0.07128460804073407,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.8828125,
      "kl": 0.015642878832295537,
      "learning_rate": 7.7316e-06,
      "loss": 0.1365,
      "num_tokens": 31111838.0,
      "reward": 2.18656063079834,
      "reward_std": 0.8373485207557678,
      "rewards/reward_fn/mean": 2.18656063079834,
      "rewards/reward_fn/std": 0.8373485207557678,
      "step": 672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 854.0,
      "completions/max_terminated_length": 854.0,
      "completions/mean_length": 370.34375,
      "completions/mean_terminated_length": 370.34375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.07139068632650897,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.017991895554587245,
      "learning_rate": 7.7312e-06,
      "loss": 0.0152,
      "num_tokens": 31155849.0,
      "reward": 3.9679219722747803,
      "reward_std": 0.18146038055419922,
      "rewards/reward_fn/mean": 3.9679219722747803,
      "rewards/reward_fn/std": 0.18146035075187683,
      "step": 673
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 550.0,
      "completions/max_terminated_length": 550.0,
      "completions/mean_length": 234.96875,
      "completions/mean_terminated_length": 234.96875,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.07149676461228387,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.02120826207101345,
      "learning_rate": 7.7308e-06,
      "loss": 0.0147,
      "num_tokens": 31203592.0,
      "reward": 3.9284887313842773,
      "reward_std": 0.4045286774635315,
      "rewards/reward_fn/mean": 3.9284887313842773,
      "rewards/reward_fn/std": 0.4045286476612091,
      "step": 674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1212.0,
      "completions/max_terminated_length": 1212.0,
      "completions/mean_length": 323.625,
      "completions/mean_terminated_length": 323.625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.07160284289805877,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.022802867693826556,
      "learning_rate": 7.7304e-06,
      "loss": -0.0868,
      "num_tokens": 31253724.0,
      "reward": 3.25797963142395,
      "reward_std": 0.7901930809020996,
      "rewards/reward_fn/mean": 3.25797963142395,
      "rewards/reward_fn/std": 0.7901931405067444,
      "step": 675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1011.0,
      "completions/max_terminated_length": 1011.0,
      "completions/mean_length": 302.8125,
      "completions/mean_terminated_length": 302.8125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.07170892118383367,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.014244599267840385,
      "learning_rate": 7.73e-06,
      "loss": -0.0201,
      "num_tokens": 31296598.0,
      "reward": 2.8737645149230957,
      "reward_std": 0.03616030886769295,
      "rewards/reward_fn/mean": 2.8737645149230957,
      "rewards/reward_fn/std": 0.03616032004356384,
      "step": 676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1115.0,
      "completions/mean_length": 601.28125,
      "completions/mean_terminated_length": 554.6129150390625,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.07181499946960856,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.01887105731293559,
      "learning_rate": 7.7296e-06,
      "loss": 0.1873,
      "num_tokens": 31352735.0,
      "reward": 2.5296192169189453,
      "reward_std": 0.8162726759910583,
      "rewards/reward_fn/mean": 2.5296192169189453,
      "rewards/reward_fn/std": 0.8162726163864136,
      "step": 677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 971.0,
      "completions/max_terminated_length": 971.0,
      "completions/mean_length": 349.75,
      "completions/mean_terminated_length": 349.75,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.07192107775538348,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.024308583000674844,
      "learning_rate": 7.729199999999999e-06,
      "loss": 0.0147,
      "num_tokens": 31393367.0,
      "reward": 3.064675807952881,
      "reward_std": 1.1492177248001099,
      "rewards/reward_fn/mean": 3.064675807952881,
      "rewards/reward_fn/std": 1.1492178440093994,
      "step": 678
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 509.0,
      "completions/max_terminated_length": 509.0,
      "completions/mean_length": 190.21875,
      "completions/mean_terminated_length": 190.21875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.07202715604115838,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.02310982788912952,
      "learning_rate": 7.7288e-06,
      "loss": -0.0445,
      "num_tokens": 31450398.0,
      "reward": 3.965233325958252,
      "reward_std": 0.1966707557439804,
      "rewards/reward_fn/mean": 3.965233325958252,
      "rewards/reward_fn/std": 0.1966707557439804,
      "step": 679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 923.0,
      "completions/max_terminated_length": 923.0,
      "completions/mean_length": 331.125,
      "completions/mean_terminated_length": 331.125,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.07213323432693328,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.015066134044900537,
      "learning_rate": 7.728399999999999e-06,
      "loss": 0.087,
      "num_tokens": 31503330.0,
      "reward": 3.8951284885406494,
      "reward_std": 0.4410572648048401,
      "rewards/reward_fn/mean": 3.8951284885406494,
      "rewards/reward_fn/std": 0.4410572946071625,
      "step": 680
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 931.0,
      "completions/max_terminated_length": 931.0,
      "completions/mean_length": 253.625,
      "completions/mean_terminated_length": 253.625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.07223931261270818,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.022291683591902256,
      "learning_rate": 7.728e-06,
      "loss": -0.0688,
      "num_tokens": 31565494.0,
      "reward": 3.6002941131591797,
      "reward_std": 0.5299660563468933,
      "rewards/reward_fn/mean": 3.6002941131591797,
      "rewards/reward_fn/std": 0.5299659967422485,
      "step": 681
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.0,
      "completions/max_terminated_length": 555.0,
      "completions/mean_length": 215.59375,
      "completions/mean_terminated_length": 215.59375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.07234539089848308,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.02722454722970724,
      "learning_rate": 7.727599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 31621225.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 682
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 654.0,
      "completions/max_terminated_length": 654.0,
      "completions/mean_length": 236.9375,
      "completions/mean_terminated_length": 236.9375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.07245146918425799,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.0214088864158839,
      "learning_rate": 7.7272e-06,
      "loss": 0.0853,
      "num_tokens": 31663399.0,
      "reward": 3.0963635444641113,
      "reward_std": 0.06334761530160904,
      "rewards/reward_fn/mean": 3.0963635444641113,
      "rewards/reward_fn/std": 0.06334759294986725,
      "step": 683
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1901.0,
      "completions/mean_length": 519.125,
      "completions/mean_terminated_length": 469.8064270019531,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.07255754747003289,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.023146436316892505,
      "learning_rate": 7.7268e-06,
      "loss": 0.2416,
      "num_tokens": 31720203.0,
      "reward": 2.755568742752075,
      "reward_std": 0.5547494292259216,
      "rewards/reward_fn/mean": 2.755568742752075,
      "rewards/reward_fn/std": 0.5547494888305664,
      "step": 684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1290.0,
      "completions/max_terminated_length": 1290.0,
      "completions/mean_length": 560.8125,
      "completions/mean_terminated_length": 560.8125,
      "completions/min_length": 315.0,
      "completions/min_terminated_length": 315.0,
      "epoch": 0.07266362575580779,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.022556508192792535,
      "learning_rate": 7.7264e-06,
      "loss": 0.1027,
      "num_tokens": 31787141.0,
      "reward": 2.8888206481933594,
      "reward_std": 0.36274033784866333,
      "rewards/reward_fn/mean": 2.8888206481933594,
      "rewards/reward_fn/std": 0.3627403676509857,
      "step": 685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.25,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1970.0,
      "completions/mean_length": 1064.65625,
      "completions/mean_terminated_length": 736.875,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.07276970404158269,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1015625,
      "kl": 0.013749472331255674,
      "learning_rate": 7.726e-06,
      "loss": 0.3949,
      "num_tokens": 31860570.0,
      "reward": 2.409977436065674,
      "reward_std": 1.4189443588256836,
      "rewards/reward_fn/mean": 2.409977436065674,
      "rewards/reward_fn/std": 1.4189443588256836,
      "step": 686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 690.0,
      "completions/max_terminated_length": 690.0,
      "completions/mean_length": 227.40625,
      "completions/mean_terminated_length": 227.40625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.07287578232735759,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08056640625,
      "kl": 0.021269621676765382,
      "learning_rate": 7.7256e-06,
      "loss": 0.0009,
      "num_tokens": 31896007.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1312.0,
      "completions/max_terminated_length": 1312.0,
      "completions/mean_length": 328.40625,
      "completions/mean_terminated_length": 328.40625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.07298186061313248,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.03248383407481015,
      "learning_rate": 7.7252e-06,
      "loss": 0.2071,
      "num_tokens": 31945428.0,
      "reward": 3.6226577758789062,
      "reward_std": 0.5695524215698242,
      "rewards/reward_fn/mean": 3.6226577758789062,
      "rewards/reward_fn/std": 0.5695523619651794,
      "step": 688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1452.0,
      "completions/max_terminated_length": 1452.0,
      "completions/mean_length": 275.75,
      "completions/mean_terminated_length": 275.75,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.0730879388989074,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.024565639439970255,
      "learning_rate": 7.7248e-06,
      "loss": -0.0209,
      "num_tokens": 32000332.0,
      "reward": 3.962454319000244,
      "reward_std": 0.2123897820711136,
      "rewards/reward_fn/mean": 3.962454319000244,
      "rewards/reward_fn/std": 0.21238979697227478,
      "step": 689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 833.0,
      "completions/max_terminated_length": 833.0,
      "completions/mean_length": 306.09375,
      "completions/mean_terminated_length": 306.09375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.0731940171846823,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.019663402810692787,
      "learning_rate": 7.7244e-06,
      "loss": 0.0733,
      "num_tokens": 32058191.0,
      "reward": 3.1262402534484863,
      "reward_std": 0.28920337557792664,
      "rewards/reward_fn/mean": 3.1262402534484863,
      "rewards/reward_fn/std": 0.289203405380249,
      "step": 690
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 753.0,
      "completions/max_terminated_length": 753.0,
      "completions/mean_length": 489.0625,
      "completions/mean_terminated_length": 489.0625,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.0733000954704572,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.022890981985256076,
      "learning_rate": 7.724e-06,
      "loss": -0.002,
      "num_tokens": 32106673.0,
      "reward": 3.150282144546509,
      "reward_std": 0.45853471755981445,
      "rewards/reward_fn/mean": 3.150282144546509,
      "rewards/reward_fn/std": 0.4585346579551697,
      "step": 691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1772.0,
      "completions/mean_length": 514.90625,
      "completions/mean_terminated_length": 412.70001220703125,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.0734061737562321,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.421875,
      "kl": 0.021816590800881386,
      "learning_rate": 7.7236e-06,
      "loss": 0.1898,
      "num_tokens": 32143982.0,
      "reward": 2.987020969390869,
      "reward_std": 1.2113451957702637,
      "rewards/reward_fn/mean": 2.987020969390869,
      "rewards/reward_fn/std": 1.2113451957702637,
      "step": 692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1178.0,
      "completions/mean_length": 559.5,
      "completions/mean_terminated_length": 460.2666931152344,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.073512252042007,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.02110014483332634,
      "learning_rate": 7.7232e-06,
      "loss": 0.2636,
      "num_tokens": 32183230.0,
      "reward": 2.5472910404205322,
      "reward_std": 0.872420072555542,
      "rewards/reward_fn/mean": 2.5472910404205322,
      "rewards/reward_fn/std": 0.872420072555542,
      "step": 693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1967.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 708.1875,
      "completions/mean_terminated_length": 708.1875,
      "completions/min_length": 316.0,
      "completions/min_terminated_length": 316.0,
      "epoch": 0.07361833032778191,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0859375,
      "kl": 0.015690243802964687,
      "learning_rate": 7.7228e-06,
      "loss": 0.1217,
      "num_tokens": 32219076.0,
      "reward": 2.446472644805908,
      "reward_std": 0.4943988025188446,
      "rewards/reward_fn/mean": 2.446472644805908,
      "rewards/reward_fn/std": 0.4943988025188446,
      "step": 694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1022.0,
      "completions/max_terminated_length": 1022.0,
      "completions/mean_length": 326.84375,
      "completions/mean_terminated_length": 326.84375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.07372440861355681,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.02663695439696312,
      "learning_rate": 7.7224e-06,
      "loss": 0.0019,
      "num_tokens": 32266015.0,
      "reward": 3.3688626289367676,
      "reward_std": 0.5659106373786926,
      "rewards/reward_fn/mean": 3.3688626289367676,
      "rewards/reward_fn/std": 0.5659106373786926,
      "step": 695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 408.0,
      "completions/max_terminated_length": 408.0,
      "completions/mean_length": 169.5625,
      "completions/mean_terminated_length": 169.5625,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.07383048689933171,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10791015625,
      "kl": 0.025914974743500352,
      "learning_rate": 7.722e-06,
      "loss": 0.001,
      "num_tokens": 32321521.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 366.65625,
      "completions/mean_terminated_length": 366.65625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.0739365651851066,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.022461338434368372,
      "learning_rate": 7.721599999999999e-06,
      "loss": 0.0393,
      "num_tokens": 32353830.0,
      "reward": 2.6947999000549316,
      "reward_std": 0.4774615168571472,
      "rewards/reward_fn/mean": 2.6947999000549316,
      "rewards/reward_fn/std": 0.47746148705482483,
      "step": 697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 580.0,
      "completions/max_terminated_length": 580.0,
      "completions/mean_length": 201.5625,
      "completions/mean_terminated_length": 201.5625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.0740426434708815,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.030215767910704017,
      "learning_rate": 7.7212e-06,
      "loss": 0.0134,
      "num_tokens": 32404856.0,
      "reward": 3.9019250869750977,
      "reward_std": 0.41585031151771545,
      "rewards/reward_fn/mean": 3.9019250869750977,
      "rewards/reward_fn/std": 0.41585028171539307,
      "step": 698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 203.59375,
      "completions/mean_terminated_length": 203.59375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.07414872175665642,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.022973356302827597,
      "learning_rate": 7.720799999999999e-06,
      "loss": -0.0069,
      "num_tokens": 32430059.0,
      "reward": 3.9313559532165527,
      "reward_std": 0.38830989599227905,
      "rewards/reward_fn/mean": 3.9313559532165527,
      "rewards/reward_fn/std": 0.38830992579460144,
      "step": 699
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1273.0,
      "completions/max_terminated_length": 1273.0,
      "completions/mean_length": 319.5,
      "completions/mean_terminated_length": 319.5,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.07425480004243132,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.02324189874343574,
      "learning_rate": 7.7204e-06,
      "loss": 0.0154,
      "num_tokens": 32483995.0,
      "reward": 2.4519386291503906,
      "reward_std": 0.3796447217464447,
      "rewards/reward_fn/mean": 2.4519386291503906,
      "rewards/reward_fn/std": 0.3796447217464447,
      "step": 700
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 149.0,
      "completions/max_terminated_length": 149.0,
      "completions/mean_length": 108.46875,
      "completions/mean_terminated_length": 108.46875,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.07436087832820622,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1513671875,
      "kl": 0.02412488660775125,
      "learning_rate": 7.719999999999999e-06,
      "loss": 0.001,
      "num_tokens": 32525034.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 502.0,
      "completions/max_terminated_length": 502.0,
      "completions/mean_length": 168.1875,
      "completions/mean_terminated_length": 168.1875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.07446695661398112,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12255859375,
      "kl": 0.026652783853933215,
      "learning_rate": 7.7196e-06,
      "loss": 0.0011,
      "num_tokens": 32562288.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 817.0,
      "completions/max_terminated_length": 817.0,
      "completions/mean_length": 288.71875,
      "completions/mean_terminated_length": 288.71875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.07457303489975602,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.023433730704709888,
      "learning_rate": 7.719199999999999e-06,
      "loss": -0.1515,
      "num_tokens": 32607111.0,
      "reward": 2.775975227355957,
      "reward_std": 0.7966500520706177,
      "rewards/reward_fn/mean": 2.775975227355957,
      "rewards/reward_fn/std": 0.7966500520706177,
      "step": 703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1670.0,
      "completions/max_terminated_length": 1670.0,
      "completions/mean_length": 549.375,
      "completions/mean_terminated_length": 549.375,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "epoch": 0.07467911318553092,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.02032529003918171,
      "learning_rate": 7.7188e-06,
      "loss": 0.0651,
      "num_tokens": 32661107.0,
      "reward": 2.5700185298919678,
      "reward_std": 0.8670512437820435,
      "rewards/reward_fn/mean": 2.5700185298919678,
      "rewards/reward_fn/std": 0.8670512437820435,
      "step": 704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1800.0,
      "completions/max_terminated_length": 1800.0,
      "completions/mean_length": 446.375,
      "completions/mean_terminated_length": 446.375,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.07478519147130583,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.140625,
      "kl": 0.015976089402101934,
      "learning_rate": 7.718399999999999e-06,
      "loss": -0.0692,
      "num_tokens": 32709343.0,
      "reward": 3.776334285736084,
      "reward_std": 0.7065488696098328,
      "rewards/reward_fn/mean": 3.776334285736084,
      "rewards/reward_fn/std": 0.706548810005188,
      "step": 705
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 781.0,
      "completions/max_terminated_length": 781.0,
      "completions/mean_length": 250.6875,
      "completions/mean_terminated_length": 250.6875,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.07489126975708073,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.02156626316718757,
      "learning_rate": 7.718e-06,
      "loss": 0.0282,
      "num_tokens": 32751189.0,
      "reward": 3.279935359954834,
      "reward_std": 0.8665456771850586,
      "rewards/reward_fn/mean": 3.279935359954834,
      "rewards/reward_fn/std": 0.8665456175804138,
      "step": 706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 932.0,
      "completions/max_terminated_length": 932.0,
      "completions/mean_length": 203.4375,
      "completions/mean_terminated_length": 203.4375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.07499734804285563,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1279296875,
      "kl": 0.031126373447477818,
      "learning_rate": 7.7176e-06,
      "loss": 0.0012,
      "num_tokens": 32808963.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 810.0,
      "completions/max_terminated_length": 810.0,
      "completions/mean_length": 283.96875,
      "completions/mean_terminated_length": 283.96875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.07510342632863053,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0947265625,
      "kl": 0.02349319658242166,
      "learning_rate": 7.7172e-06,
      "loss": 0.0009,
      "num_tokens": 32850274.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.0,
      "completions/max_terminated_length": 478.0,
      "completions/mean_length": 175.03125,
      "completions/mean_terminated_length": 175.03125,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.07520950461440543,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0927734375,
      "kl": 0.021260776673443615,
      "learning_rate": 7.7168e-06,
      "loss": 0.0009,
      "num_tokens": 32886243.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 775.0,
      "completions/max_terminated_length": 775.0,
      "completions/mean_length": 252.46875,
      "completions/mean_terminated_length": 252.46875,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.07531558290018034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.025537249632179737,
      "learning_rate": 7.7164e-06,
      "loss": 0.0669,
      "num_tokens": 32930514.0,
      "reward": 2.982074737548828,
      "reward_std": 0.7072264552116394,
      "rewards/reward_fn/mean": 2.982074737548828,
      "rewards/reward_fn/std": 0.7072264552116394,
      "step": 710
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 413.5,
      "completions/mean_terminated_length": 413.5,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.07542166118595524,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.0188356313155964,
      "learning_rate": 7.716e-06,
      "loss": 0.1318,
      "num_tokens": 32981026.0,
      "reward": 2.7349185943603516,
      "reward_std": 0.4819990396499634,
      "rewards/reward_fn/mean": 2.7349185943603516,
      "rewards/reward_fn/std": 0.48199906945228577,
      "step": 711
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 471.0,
      "completions/max_terminated_length": 471.0,
      "completions/mean_length": 225.03125,
      "completions/mean_terminated_length": 225.03125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.07552773947173014,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.011965643963776529,
      "learning_rate": 7.7156e-06,
      "loss": 0.0195,
      "num_tokens": 33032067.0,
      "reward": 3.974524974822998,
      "reward_std": 0.10026301443576813,
      "rewards/reward_fn/mean": 3.974524974822998,
      "rewards/reward_fn/std": 0.10026300698518753,
      "step": 712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 961.0,
      "completions/max_terminated_length": 961.0,
      "completions/mean_length": 248.59375,
      "completions/mean_terminated_length": 248.59375,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.07563381775750504,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.022213632240891457,
      "learning_rate": 7.7152e-06,
      "loss": 0.0989,
      "num_tokens": 33063670.0,
      "reward": 3.016145944595337,
      "reward_std": 0.5643318295478821,
      "rewards/reward_fn/mean": 3.016145944595337,
      "rewards/reward_fn/std": 0.5643318295478821,
      "step": 713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1154.0,
      "completions/max_terminated_length": 1154.0,
      "completions/mean_length": 259.625,
      "completions/mean_terminated_length": 259.625,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.07573989604327994,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.032502480084076524,
      "learning_rate": 7.7148e-06,
      "loss": -0.0117,
      "num_tokens": 33104906.0,
      "reward": 3.8165884017944336,
      "reward_std": 0.3915080428123474,
      "rewards/reward_fn/mean": 3.8165884017944336,
      "rewards/reward_fn/std": 0.3915080726146698,
      "step": 714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 889.0,
      "completions/max_terminated_length": 889.0,
      "completions/mean_length": 203.03125,
      "completions/mean_terminated_length": 203.03125,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.07584597432905485,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.078125,
      "kl": 0.01976885157637298,
      "learning_rate": 7.7144e-06,
      "loss": 0.0008,
      "num_tokens": 33132939.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 146.34375,
      "completions/mean_terminated_length": 146.34375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.07595205261482975,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1494140625,
      "kl": 0.0265513202175498,
      "learning_rate": 7.714e-06,
      "loss": 0.0011,
      "num_tokens": 33170582.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 926.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 281.71875,
      "completions/mean_terminated_length": 281.71875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.07605813090060465,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.023149944143369794,
      "learning_rate": 7.713599999999998e-06,
      "loss": -0.0468,
      "num_tokens": 33219533.0,
      "reward": 3.8506064414978027,
      "reward_std": 0.5878912210464478,
      "rewards/reward_fn/mean": 3.8506064414978027,
      "rewards/reward_fn/std": 0.5878912210464478,
      "step": 717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1528.0,
      "completions/max_terminated_length": 1528.0,
      "completions/mean_length": 408.9375,
      "completions/mean_terminated_length": 408.9375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.07616420918637955,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.020193473668769002,
      "learning_rate": 7.7132e-06,
      "loss": 0.1427,
      "num_tokens": 33275499.0,
      "reward": 3.861990451812744,
      "reward_std": 0.3711107075214386,
      "rewards/reward_fn/mean": 3.861990451812744,
      "rewards/reward_fn/std": 0.371110737323761,
      "step": 718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 873.0,
      "completions/max_terminated_length": 873.0,
      "completions/mean_length": 311.1875,
      "completions/mean_terminated_length": 311.1875,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.07627028747215445,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.01826619717758149,
      "learning_rate": 7.7128e-06,
      "loss": 0.0951,
      "num_tokens": 33316369.0,
      "reward": 3.852308511734009,
      "reward_std": 0.5811760425567627,
      "rewards/reward_fn/mean": 3.852308511734009,
      "rewards/reward_fn/std": 0.5811761021614075,
      "step": 719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 175.0,
      "completions/max_terminated_length": 175.0,
      "completions/mean_length": 93.78125,
      "completions/mean_terminated_length": 93.78125,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.07637636575792935,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.13671875,
      "kl": 0.025791630847379565,
      "learning_rate": 7.7124e-06,
      "loss": 0.001,
      "num_tokens": 33357226.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 720
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1839.0,
      "completions/mean_length": 664.59375,
      "completions/mean_terminated_length": 619.9677124023438,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.07648244404370426,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.014834558707661927,
      "learning_rate": 7.712e-06,
      "loss": 0.1671,
      "num_tokens": 33426845.0,
      "reward": 3.423288345336914,
      "reward_std": 0.9050231575965881,
      "rewards/reward_fn/mean": 3.423288345336914,
      "rewards/reward_fn/std": 0.9050231575965881,
      "step": 721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1371.0,
      "completions/max_terminated_length": 1371.0,
      "completions/mean_length": 492.0625,
      "completions/mean_terminated_length": 492.0625,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.07658852232947916,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.01824855396989733,
      "learning_rate": 7.711599999999999e-06,
      "loss": 0.0541,
      "num_tokens": 33483199.0,
      "reward": 2.606292724609375,
      "reward_std": 0.2552023231983185,
      "rewards/reward_fn/mean": 2.606292724609375,
      "rewards/reward_fn/std": 0.2552023231983185,
      "step": 722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1811.0,
      "completions/max_terminated_length": 1811.0,
      "completions/mean_length": 370.625,
      "completions/mean_terminated_length": 370.625,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.07669460061525406,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.021258773282170296,
      "learning_rate": 7.7112e-06,
      "loss": -0.0289,
      "num_tokens": 33531699.0,
      "reward": 1.7273921966552734,
      "reward_std": 0.20154969394207,
      "rewards/reward_fn/mean": 1.7273921966552734,
      "rewards/reward_fn/std": 0.2015496790409088,
      "step": 723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 275.5625,
      "completions/mean_terminated_length": 275.5625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.07680067890102896,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.018158360850065947,
      "learning_rate": 7.710799999999999e-06,
      "loss": -0.0268,
      "num_tokens": 33571397.0,
      "reward": 2.812833547592163,
      "reward_std": 0.2651287913322449,
      "rewards/reward_fn/mean": 2.812833547592163,
      "rewards/reward_fn/std": 0.2651287913322449,
      "step": 724
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1742.0,
      "completions/mean_length": 508.9375,
      "completions/mean_terminated_length": 459.2903137207031,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.07690675718680386,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.02326313848607242,
      "learning_rate": 7.7104e-06,
      "loss": 0.2781,
      "num_tokens": 33636419.0,
      "reward": 2.658267021179199,
      "reward_std": 0.5596959590911865,
      "rewards/reward_fn/mean": 2.658267021179199,
      "rewards/reward_fn/std": 0.5596958994865417,
      "step": 725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 775.0,
      "completions/max_terminated_length": 775.0,
      "completions/mean_length": 272.8125,
      "completions/mean_terminated_length": 272.8125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.07701283547257877,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0634765625,
      "kl": 0.015897757722996175,
      "learning_rate": 7.709999999999999e-06,
      "loss": 0.0006,
      "num_tokens": 33686141.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1789.0,
      "completions/max_terminated_length": 1789.0,
      "completions/mean_length": 474.3125,
      "completions/mean_terminated_length": 474.3125,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.07711891375835367,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.016974500380456448,
      "learning_rate": 7.7096e-06,
      "loss": -0.0312,
      "num_tokens": 33745319.0,
      "reward": 3.0468087196350098,
      "reward_std": 0.5193257927894592,
      "rewards/reward_fn/mean": 3.0468087196350098,
      "rewards/reward_fn/std": 0.5193257331848145,
      "step": 727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1416.0,
      "completions/max_terminated_length": 1416.0,
      "completions/mean_length": 348.0,
      "completions/mean_terminated_length": 348.0,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.07722499204412857,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.01765015278942883,
      "learning_rate": 7.709199999999999e-06,
      "loss": -0.0524,
      "num_tokens": 33797127.0,
      "reward": 3.139650821685791,
      "reward_std": 0.5897535681724548,
      "rewards/reward_fn/mean": 3.139650821685791,
      "rewards/reward_fn/std": 0.5897536277770996,
      "step": 728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 532.4375,
      "completions/mean_terminated_length": 483.5483703613281,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.07733107032990347,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.017708882922306657,
      "learning_rate": 7.7088e-06,
      "loss": 0.2641,
      "num_tokens": 33851317.0,
      "reward": 2.595705986022949,
      "reward_std": 0.5950980186462402,
      "rewards/reward_fn/mean": 2.595705986022949,
      "rewards/reward_fn/std": 0.595098078250885,
      "step": 729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1520.0,
      "completions/max_terminated_length": 1520.0,
      "completions/mean_length": 321.4375,
      "completions/mean_terminated_length": 321.4375,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.07743714861567837,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.80078125,
      "kl": 0.022806552005931735,
      "learning_rate": 7.7084e-06,
      "loss": -0.1221,
      "num_tokens": 33880131.0,
      "reward": 3.959925651550293,
      "reward_std": 0.226694256067276,
      "rewards/reward_fn/mean": 3.959925651550293,
      "rewards/reward_fn/std": 0.2266942858695984,
      "step": 730
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1690.0,
      "completions/max_terminated_length": 1690.0,
      "completions/mean_length": 309.5625,
      "completions/mean_terminated_length": 309.5625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.07754322690145327,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.018843404366634786,
      "learning_rate": 7.708e-06,
      "loss": 0.2778,
      "num_tokens": 33933077.0,
      "reward": 3.921745777130127,
      "reward_std": 0.30792757868766785,
      "rewards/reward_fn/mean": 3.921745777130127,
      "rewards/reward_fn/std": 0.30792760848999023,
      "step": 731
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 172.0,
      "completions/max_terminated_length": 172.0,
      "completions/mean_length": 102.9375,
      "completions/mean_terminated_length": 102.9375,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.07764930518722818,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.16796875,
      "kl": 0.023415476083755493,
      "learning_rate": 7.7076e-06,
      "loss": 0.0009,
      "num_tokens": 33957107.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 732
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 865.0,
      "completions/max_terminated_length": 865.0,
      "completions/mean_length": 468.9375,
      "completions/mean_terminated_length": 468.9375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.07775538347300308,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.019135850947350264,
      "learning_rate": 7.7072e-06,
      "loss": 0.0913,
      "num_tokens": 34012753.0,
      "reward": 3.1053218841552734,
      "reward_std": 0.46024301648139954,
      "rewards/reward_fn/mean": 3.1053218841552734,
      "rewards/reward_fn/std": 0.46024298667907715,
      "step": 733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1717.0,
      "completions/mean_length": 418.90625,
      "completions/mean_terminated_length": 366.3548278808594,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.07786146175877798,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.017279536346904933,
      "learning_rate": 7.7068e-06,
      "loss": 0.3037,
      "num_tokens": 34061870.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1323.0,
      "completions/mean_length": 606.53125,
      "completions/mean_terminated_length": 560.0322265625,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.07796754004455288,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.014971327618695796,
      "learning_rate": 7.7064e-06,
      "loss": 0.1449,
      "num_tokens": 34126623.0,
      "reward": 2.847194194793701,
      "reward_std": 0.6151965260505676,
      "rewards/reward_fn/mean": 2.847194194793701,
      "rewards/reward_fn/std": 0.6151964664459229,
      "step": 735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 320.0,
      "completions/max_terminated_length": 320.0,
      "completions/mean_length": 108.0,
      "completions/mean_terminated_length": 108.0,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.07807361833032778,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07958984375,
      "kl": 0.013533458928577602,
      "learning_rate": 7.706e-06,
      "loss": 0.0005,
      "num_tokens": 34173343.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 490.0,
      "completions/max_terminated_length": 490.0,
      "completions/mean_length": 296.53125,
      "completions/mean_terminated_length": 296.53125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.07817969661610269,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0625,
      "kl": 0.018062757910229266,
      "learning_rate": 7.7056e-06,
      "loss": 0.0007,
      "num_tokens": 34217328.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1122.0,
      "completions/max_terminated_length": 1122.0,
      "completions/mean_length": 395.125,
      "completions/mean_terminated_length": 395.125,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.07828577490187759,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.014009194332174957,
      "learning_rate": 7.705199999999999e-06,
      "loss": -0.0219,
      "num_tokens": 34247092.0,
      "reward": 2.814393997192383,
      "reward_std": 0.20588137209415436,
      "rewards/reward_fn/mean": 2.814393997192383,
      "rewards/reward_fn/std": 0.20588135719299316,
      "step": 738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1819.0,
      "completions/max_terminated_length": 1819.0,
      "completions/mean_length": 479.1875,
      "completions/mean_terminated_length": 479.1875,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.07839185318765249,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.125,
      "kl": 0.016489942325279117,
      "learning_rate": 7.7048e-06,
      "loss": 0.0784,
      "num_tokens": 34301050.0,
      "reward": 2.9646849632263184,
      "reward_std": 0.4474869966506958,
      "rewards/reward_fn/mean": 2.9646849632263184,
      "rewards/reward_fn/std": 0.4474869966506958,
      "step": 739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1874.0,
      "completions/mean_length": 460.28125,
      "completions/mean_terminated_length": 409.06451416015625,
      "completions/min_length": 255.0,
      "completions/min_terminated_length": 255.0,
      "epoch": 0.07849793147342739,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.021060561761260033,
      "learning_rate": 7.704399999999999e-06,
      "loss": 0.2307,
      "num_tokens": 34379779.0,
      "reward": 3.593684673309326,
      "reward_std": 0.8480998873710632,
      "rewards/reward_fn/mean": 3.593684673309326,
      "rewards/reward_fn/std": 0.8480998873710632,
      "step": 740
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 234.625,
      "completions/mean_terminated_length": 234.625,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.07860400975920229,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.734375,
      "kl": 0.026116218185052276,
      "learning_rate": 7.704e-06,
      "loss": -0.3654,
      "num_tokens": 34420247.0,
      "reward": 3.2040047645568848,
      "reward_std": 0.2753956615924835,
      "rewards/reward_fn/mean": 3.2040047645568848,
      "rewards/reward_fn/std": 0.27539563179016113,
      "step": 741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1012.0,
      "completions/max_terminated_length": 1012.0,
      "completions/mean_length": 304.15625,
      "completions/mean_terminated_length": 304.15625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.0787100880449772,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.0184671861352399,
      "learning_rate": 7.7036e-06,
      "loss": -0.0289,
      "num_tokens": 34460348.0,
      "reward": 3.8210489749908447,
      "reward_std": 0.423511803150177,
      "rewards/reward_fn/mean": 3.8210489749908447,
      "rewards/reward_fn/std": 0.4235118627548218,
      "step": 742
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1977.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 362.90625,
      "completions/mean_terminated_length": 362.90625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.0788161663307521,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.02415016118902713,
      "learning_rate": 7.7032e-06,
      "loss": 0.0105,
      "num_tokens": 34512857.0,
      "reward": 3.9323811531066895,
      "reward_std": 0.2660841941833496,
      "rewards/reward_fn/mean": 3.9323811531066895,
      "rewards/reward_fn/std": 0.2660841643810272,
      "step": 743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1125.0,
      "completions/max_terminated_length": 1125.0,
      "completions/mean_length": 401.65625,
      "completions/mean_terminated_length": 401.65625,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.078922244616527,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.140625,
      "kl": 0.022820353973656893,
      "learning_rate": 7.7028e-06,
      "loss": 0.0953,
      "num_tokens": 34545998.0,
      "reward": 2.9798271656036377,
      "reward_std": 0.3881252706050873,
      "rewards/reward_fn/mean": 2.9798271656036377,
      "rewards/reward_fn/std": 0.38812533020973206,
      "step": 744
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 685.0,
      "completions/max_terminated_length": 685.0,
      "completions/mean_length": 161.46875,
      "completions/mean_terminated_length": 161.46875,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.0790283229023019,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.091796875,
      "kl": 0.018742251209914684,
      "learning_rate": 7.7024e-06,
      "loss": 0.0007,
      "num_tokens": 34589949.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1595.0,
      "completions/max_terminated_length": 1595.0,
      "completions/mean_length": 347.75,
      "completions/mean_terminated_length": 347.75,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.0791344011880768,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.05224609375,
      "kl": 0.016581954550929368,
      "learning_rate": 7.702e-06,
      "loss": 0.0007,
      "num_tokens": 34637141.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1318.0,
      "completions/mean_length": 413.0625,
      "completions/mean_terminated_length": 360.32257080078125,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.0792404794738517,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.01734267408028245,
      "learning_rate": 7.7016e-06,
      "loss": 0.1899,
      "num_tokens": 34671959.0,
      "reward": 3.5228824615478516,
      "reward_std": 0.6560260057449341,
      "rewards/reward_fn/mean": 3.5228824615478516,
      "rewards/reward_fn/std": 0.6560259461402893,
      "step": 747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1482.0,
      "completions/mean_length": 469.125,
      "completions/mean_terminated_length": 363.86669921875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.07934655775962661,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.016482632607221603,
      "learning_rate": 7.7012e-06,
      "loss": 0.3411,
      "num_tokens": 34707547.0,
      "reward": 2.742053508758545,
      "reward_std": 0.8046372532844543,
      "rewards/reward_fn/mean": 2.742053508758545,
      "rewards/reward_fn/std": 0.8046371936798096,
      "step": 748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 823.0,
      "completions/max_terminated_length": 823.0,
      "completions/mean_length": 248.625,
      "completions/mean_terminated_length": 248.625,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.07945263604540151,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.02026499854400754,
      "learning_rate": 7.7008e-06,
      "loss": 0.0099,
      "num_tokens": 34761615.0,
      "reward": 3.801016330718994,
      "reward_std": 0.42593979835510254,
      "rewards/reward_fn/mean": 3.801016330718994,
      "rewards/reward_fn/std": 0.42593976855278015,
      "step": 749
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 186.3125,
      "completions/mean_terminated_length": 186.3125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.07955871433117641,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.98046875,
      "kl": 0.015264550573192537,
      "learning_rate": 7.7004e-06,
      "loss": -0.0742,
      "num_tokens": 34811801.0,
      "reward": 3.933756113052368,
      "reward_std": 0.3747324049472809,
      "rewards/reward_fn/mean": 3.933756113052368,
      "rewards/reward_fn/std": 0.37473243474960327,
      "step": 750
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1936.0,
      "completions/max_terminated_length": 1936.0,
      "completions/mean_length": 328.8125,
      "completions/mean_terminated_length": 328.8125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.07966479261695131,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11279296875,
      "kl": 0.01918186468537897,
      "learning_rate": 7.699999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 34858419.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1659.0,
      "completions/max_terminated_length": 1659.0,
      "completions/mean_length": 412.8125,
      "completions/mean_terminated_length": 412.8125,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.07977087090272621,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.02011913899332285,
      "learning_rate": 7.6996e-06,
      "loss": -0.0163,
      "num_tokens": 34923021.0,
      "reward": 3.248586893081665,
      "reward_std": 0.7823631763458252,
      "rewards/reward_fn/mean": 3.248586893081665,
      "rewards/reward_fn/std": 0.7823631763458252,
      "step": 752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1150.0,
      "completions/max_terminated_length": 1150.0,
      "completions/mean_length": 188.375,
      "completions/mean_terminated_length": 188.375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.07987694918850112,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.65625,
      "kl": 0.02701102104038,
      "learning_rate": 7.6992e-06,
      "loss": 0.1138,
      "num_tokens": 34963833.0,
      "reward": 3.7283644676208496,
      "reward_std": 0.5220069885253906,
      "rewards/reward_fn/mean": 3.7283644676208496,
      "rewards/reward_fn/std": 0.5220070481300354,
      "step": 753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1733.0,
      "completions/max_terminated_length": 1733.0,
      "completions/mean_length": 799.8125,
      "completions/mean_terminated_length": 799.8125,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.07998302747427602,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0859375,
      "kl": 0.013593915617093444,
      "learning_rate": 7.6988e-06,
      "loss": 0.0106,
      "num_tokens": 35034419.0,
      "reward": 2.5703787803649902,
      "reward_std": 0.6685802340507507,
      "rewards/reward_fn/mean": 2.5703787803649902,
      "rewards/reward_fn/std": 0.668580174446106,
      "step": 754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1257.0,
      "completions/max_terminated_length": 1257.0,
      "completions/mean_length": 214.875,
      "completions/mean_terminated_length": 214.875,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.08008910576005092,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.017514656181447208,
      "learning_rate": 7.6984e-06,
      "loss": 0.3551,
      "num_tokens": 35078991.0,
      "reward": 3.92777681350708,
      "reward_std": 0.4085560739040375,
      "rewards/reward_fn/mean": 3.92777681350708,
      "rewards/reward_fn/std": 0.4085560142993927,
      "step": 755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 935.0,
      "completions/max_terminated_length": 935.0,
      "completions/mean_length": 200.375,
      "completions/mean_terminated_length": 200.375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.08019518404582582,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.022400660207495093,
      "learning_rate": 7.698e-06,
      "loss": 0.0009,
      "num_tokens": 35115003.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 990.0,
      "completions/max_terminated_length": 990.0,
      "completions/mean_length": 245.65625,
      "completions/mean_terminated_length": 245.65625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.08030126233160072,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.01861444814130664,
      "learning_rate": 7.6976e-06,
      "loss": 0.0078,
      "num_tokens": 35159408.0,
      "reward": 2.909533977508545,
      "reward_std": 0.039463140070438385,
      "rewards/reward_fn/mean": 2.909533977508545,
      "rewards/reward_fn/std": 0.03946312144398689,
      "step": 757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 918.0,
      "completions/max_terminated_length": 918.0,
      "completions/mean_length": 254.03125,
      "completions/mean_terminated_length": 254.03125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.08040734061737562,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.018796015181578696,
      "learning_rate": 7.6972e-06,
      "loss": 0.0522,
      "num_tokens": 35185681.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 758
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1630.0,
      "completions/max_terminated_length": 1630.0,
      "completions/mean_length": 317.6875,
      "completions/mean_terminated_length": 317.6875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.08051341890315053,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.015750034246593714,
      "learning_rate": 7.696799999999999e-06,
      "loss": 0.0456,
      "num_tokens": 35228807.0,
      "reward": 3.8852972984313965,
      "reward_std": 0.3084171712398529,
      "rewards/reward_fn/mean": 3.8852972984313965,
      "rewards/reward_fn/std": 0.3084172010421753,
      "step": 759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1313.0,
      "completions/max_terminated_length": 1313.0,
      "completions/mean_length": 429.1875,
      "completions/mean_terminated_length": 429.1875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.08061949718892543,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.016051248530857265,
      "learning_rate": 7.6964e-06,
      "loss": 0.0066,
      "num_tokens": 35264141.0,
      "reward": 3.350024700164795,
      "reward_std": 0.5828197002410889,
      "rewards/reward_fn/mean": 3.350024700164795,
      "rewards/reward_fn/std": 0.5828196406364441,
      "step": 760
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 641.0,
      "completions/mean_terminated_length": 495.4482727050781,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.08072557547470033,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.01636024343315512,
      "learning_rate": 7.695999999999999e-06,
      "loss": 0.2756,
      "num_tokens": 35323661.0,
      "reward": 3.2801287174224854,
      "reward_std": 1.179065227508545,
      "rewards/reward_fn/mean": 3.2801287174224854,
      "rewards/reward_fn/std": 1.179065227508545,
      "step": 761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1244.0,
      "completions/mean_length": 338.78125,
      "completions/mean_terminated_length": 283.6451416015625,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.08083165376047523,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.023242034018039703,
      "learning_rate": 7.6956e-06,
      "loss": 0.3512,
      "num_tokens": 35355654.0,
      "reward": 3.727604866027832,
      "reward_std": 0.7867724895477295,
      "rewards/reward_fn/mean": 3.727604866027832,
      "rewards/reward_fn/std": 0.7867724895477295,
      "step": 762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1400.0,
      "completions/mean_length": 434.65625,
      "completions/mean_terminated_length": 382.6128845214844,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.08093773204625013,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.020363064482808113,
      "learning_rate": 7.695199999999999e-06,
      "loss": 0.166,
      "num_tokens": 35397915.0,
      "reward": 2.0777950286865234,
      "reward_std": 0.674912691116333,
      "rewards/reward_fn/mean": 2.0777950286865234,
      "rewards/reward_fn/std": 0.6749126315116882,
      "step": 763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1564.0,
      "completions/max_terminated_length": 1564.0,
      "completions/mean_length": 552.4375,
      "completions/mean_terminated_length": 552.4375,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.08104381033202504,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.01603428611997515,
      "learning_rate": 7.6948e-06,
      "loss": 0.0247,
      "num_tokens": 35448105.0,
      "reward": 2.9090466499328613,
      "reward_std": 0.07430879026651382,
      "rewards/reward_fn/mean": 2.9090466499328613,
      "rewards/reward_fn/std": 0.07430876046419144,
      "step": 764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 534.0,
      "completions/mean_length": 366.125,
      "completions/mean_terminated_length": 311.8709716796875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.08114988861779994,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.019333304720930755,
      "learning_rate": 7.6944e-06,
      "loss": 0.2851,
      "num_tokens": 35477549.0,
      "reward": 3.4079909324645996,
      "reward_std": 0.7734149098396301,
      "rewards/reward_fn/mean": 3.4079909324645996,
      "rewards/reward_fn/std": 0.7734148502349854,
      "step": 765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1036.0,
      "completions/max_terminated_length": 1036.0,
      "completions/mean_length": 350.1875,
      "completions/mean_terminated_length": 350.1875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.08125596690357484,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.020013973116874695,
      "learning_rate": 7.694e-06,
      "loss": 0.0958,
      "num_tokens": 35539795.0,
      "reward": 3.3708925247192383,
      "reward_std": 0.7116749286651611,
      "rewards/reward_fn/mean": 3.3708925247192383,
      "rewards/reward_fn/std": 0.7116749286651611,
      "step": 766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1595.0,
      "completions/mean_length": 510.46875,
      "completions/mean_terminated_length": 460.8709411621094,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.08136204518934974,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.013919757795520127,
      "learning_rate": 7.6936e-06,
      "loss": 0.2956,
      "num_tokens": 35605730.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 571.15625,
      "completions/mean_terminated_length": 523.51611328125,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.08146812347512464,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.019678838085383177,
      "learning_rate": 7.6932e-06,
      "loss": 0.0894,
      "num_tokens": 35654567.0,
      "reward": 2.3275630474090576,
      "reward_std": 0.6938040256500244,
      "rewards/reward_fn/mean": 2.3275630474090576,
      "rewards/reward_fn/std": 0.6938039660453796,
      "step": 768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 661.0,
      "completions/max_terminated_length": 661.0,
      "completions/mean_length": 202.84375,
      "completions/mean_terminated_length": 202.84375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.08157420176089955,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.019846069626510143,
      "learning_rate": 7.6928e-06,
      "loss": 0.0203,
      "num_tokens": 35690050.0,
      "reward": 3.797757625579834,
      "reward_std": 0.4278443157672882,
      "rewards/reward_fn/mean": 3.797757625579834,
      "rewards/reward_fn/std": 0.4278443455696106,
      "step": 769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1466.0,
      "completions/max_terminated_length": 1466.0,
      "completions/mean_length": 375.28125,
      "completions/mean_terminated_length": 375.28125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.08168028004667445,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.022206757916137576,
      "learning_rate": 7.6924e-06,
      "loss": -0.0462,
      "num_tokens": 35735115.0,
      "reward": 2.7710344791412354,
      "reward_std": 0.07037150859832764,
      "rewards/reward_fn/mean": 2.7710344791412354,
      "rewards/reward_fn/std": 0.07037156820297241,
      "step": 770
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 358.0,
      "completions/max_terminated_length": 358.0,
      "completions/mean_length": 173.28125,
      "completions/mean_terminated_length": 173.28125,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.08178635833244935,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1748046875,
      "kl": 0.02803934703115374,
      "learning_rate": 7.692e-06,
      "loss": 0.0011,
      "num_tokens": 35761108.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 771
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 718.0,
      "completions/max_terminated_length": 718.0,
      "completions/mean_length": 257.5625,
      "completions/mean_terminated_length": 257.5625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.08189243661822425,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.015047145425342023,
      "learning_rate": 7.6916e-06,
      "loss": -0.0131,
      "num_tokens": 35800998.0,
      "reward": 3.958484649658203,
      "reward_std": 0.23484668135643005,
      "rewards/reward_fn/mean": 3.958484649658203,
      "rewards/reward_fn/std": 0.23484671115875244,
      "step": 772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1469.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 406.8125,
      "completions/mean_terminated_length": 406.8125,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.08199851490399915,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.05859375,
      "kl": 0.015709312865510583,
      "learning_rate": 7.6912e-06,
      "loss": 0.0006,
      "num_tokens": 35847232.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 773
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1601.0,
      "completions/max_terminated_length": 1601.0,
      "completions/mean_length": 267.65625,
      "completions/mean_terminated_length": 267.65625,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.08210459318977405,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.017633047536946833,
      "learning_rate": 7.6908e-06,
      "loss": 0.1638,
      "num_tokens": 35907957.0,
      "reward": 2.982841730117798,
      "reward_std": 0.028663719072937965,
      "rewards/reward_fn/mean": 2.982841730117798,
      "rewards/reward_fn/std": 0.028663722798228264,
      "step": 774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 933.0,
      "completions/max_terminated_length": 933.0,
      "completions/mean_length": 294.3125,
      "completions/mean_terminated_length": 294.3125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.08221067147554896,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.015748307458125055,
      "learning_rate": 7.6904e-06,
      "loss": -0.0098,
      "num_tokens": 35951743.0,
      "reward": 3.4863507747650146,
      "reward_std": 0.9863615036010742,
      "rewards/reward_fn/mean": 3.4863507747650146,
      "rewards/reward_fn/std": 0.9863614439964294,
      "step": 775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1481.0,
      "completions/max_terminated_length": 1481.0,
      "completions/mean_length": 532.0625,
      "completions/mean_terminated_length": 532.0625,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.08231674976132386,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.01679909380618483,
      "learning_rate": 7.69e-06,
      "loss": 0.0363,
      "num_tokens": 36001249.0,
      "reward": 3.2947301864624023,
      "reward_std": 0.632847249507904,
      "rewards/reward_fn/mean": 3.2947301864624023,
      "rewards/reward_fn/std": 0.6328471899032593,
      "step": 776
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1166.0,
      "completions/mean_length": 421.5,
      "completions/mean_terminated_length": 369.0322570800781,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.08242282804709876,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.020656271022744477,
      "learning_rate": 7.6896e-06,
      "loss": 0.2965,
      "num_tokens": 36050065.0,
      "reward": 2.78275203704834,
      "reward_std": 0.5125721096992493,
      "rewards/reward_fn/mean": 2.78275203704834,
      "rewards/reward_fn/std": 0.5125721096992493,
      "step": 777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1732.0,
      "completions/max_terminated_length": 1732.0,
      "completions/mean_length": 440.625,
      "completions/mean_terminated_length": 440.625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.08252890633287366,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.01858210703358054,
      "learning_rate": 7.6892e-06,
      "loss": 0.1469,
      "num_tokens": 36102053.0,
      "reward": 3.6386284828186035,
      "reward_std": 0.5598682761192322,
      "rewards/reward_fn/mean": 3.6386284828186035,
      "rewards/reward_fn/std": 0.559868335723877,
      "step": 778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 107.40625,
      "completions/mean_terminated_length": 107.40625,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.08263498461864856,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.111328125,
      "kl": 0.017615402408409864,
      "learning_rate": 7.6888e-06,
      "loss": 0.0007,
      "num_tokens": 36141522.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 888.0,
      "completions/max_terminated_length": 888.0,
      "completions/mean_length": 498.15625,
      "completions/mean_terminated_length": 498.15625,
      "completions/min_length": 309.0,
      "completions/min_terminated_length": 309.0,
      "epoch": 0.08274106290442347,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0234375,
      "kl": 0.020500344457104802,
      "learning_rate": 7.688399999999999e-06,
      "loss": 0.0002,
      "num_tokens": 36191415.0,
      "reward": 2.5993824005126953,
      "reward_std": 0.1720532327890396,
      "rewards/reward_fn/mean": 2.5993824005126953,
      "rewards/reward_fn/std": 0.1720532774925232,
      "step": 780
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 467.0,
      "completions/max_terminated_length": 467.0,
      "completions/mean_length": 277.96875,
      "completions/mean_terminated_length": 277.96875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.08284714119019837,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.01927991397678852,
      "learning_rate": 7.688e-06,
      "loss": 0.0236,
      "num_tokens": 36230550.0,
      "reward": 2.7684693336486816,
      "reward_std": 0.029289107769727707,
      "rewards/reward_fn/mean": 2.7684693336486816,
      "rewards/reward_fn/std": 0.029289091005921364,
      "step": 781
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 390.0,
      "completions/max_terminated_length": 390.0,
      "completions/mean_length": 131.03125,
      "completions/mean_terminated_length": 131.03125,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.08295321947597327,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.010917730629444122,
      "learning_rate": 7.687599999999999e-06,
      "loss": 0.0665,
      "num_tokens": 36268119.0,
      "reward": 3.0935535430908203,
      "reward_std": 0.016159607097506523,
      "rewards/reward_fn/mean": 3.0935535430908203,
      "rewards/reward_fn/std": 0.016159581020474434,
      "step": 782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1797.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 546.78125,
      "completions/mean_terminated_length": 546.78125,
      "completions/min_length": 343.0,
      "completions/min_terminated_length": 343.0,
      "epoch": 0.08305929776174817,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0546875,
      "kl": 0.010865212534554303,
      "learning_rate": 7.6872e-06,
      "loss": 0.0287,
      "num_tokens": 36342576.0,
      "reward": 3.487700939178467,
      "reward_std": 0.5917753577232361,
      "rewards/reward_fn/mean": 3.487700939178467,
      "rewards/reward_fn/std": 0.5917754173278809,
      "step": 783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1078.0,
      "completions/max_terminated_length": 1078.0,
      "completions/mean_length": 360.71875,
      "completions/mean_terminated_length": 360.71875,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.08316537604752307,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.024502220330759883,
      "learning_rate": 7.686799999999999e-06,
      "loss": 0.0588,
      "num_tokens": 36373287.0,
      "reward": 3.8351099491119385,
      "reward_std": 0.3897174298763275,
      "rewards/reward_fn/mean": 3.8351099491119385,
      "rewards/reward_fn/std": 0.38971734046936035,
      "step": 784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1505.0,
      "completions/mean_length": 666.5625,
      "completions/mean_terminated_length": 574.4666748046875,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.08327145433329797,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.01942377514205873,
      "learning_rate": 7.6864e-06,
      "loss": 0.3233,
      "num_tokens": 36432665.0,
      "reward": 2.4874258041381836,
      "reward_std": 0.7904840111732483,
      "rewards/reward_fn/mean": 2.4874258041381836,
      "rewards/reward_fn/std": 0.7904840111732483,
      "step": 785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 562.0,
      "completions/max_terminated_length": 562.0,
      "completions/mean_length": 242.3125,
      "completions/mean_terminated_length": 242.3125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.08337753261907288,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.031069141812622547,
      "learning_rate": 7.685999999999999e-06,
      "loss": 0.0068,
      "num_tokens": 36487043.0,
      "reward": 3.757603168487549,
      "reward_std": 0.4073527753353119,
      "rewards/reward_fn/mean": 3.757603168487549,
      "rewards/reward_fn/std": 0.4073527753353119,
      "step": 786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 897.0,
      "completions/max_terminated_length": 897.0,
      "completions/mean_length": 190.9375,
      "completions/mean_terminated_length": 190.9375,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.08348361090484778,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.023711836896836758,
      "learning_rate": 7.6856e-06,
      "loss": 0.0631,
      "num_tokens": 36527585.0,
      "reward": 2.923456907272339,
      "reward_std": 0.28942155838012695,
      "rewards/reward_fn/mean": 2.923456907272339,
      "rewards/reward_fn/std": 0.28942152857780457,
      "step": 787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 724.0,
      "completions/max_terminated_length": 724.0,
      "completions/mean_length": 271.09375,
      "completions/mean_terminated_length": 271.09375,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.08358968919062268,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.020150523632764816,
      "learning_rate": 7.685199999999999e-06,
      "loss": 0.0728,
      "num_tokens": 36567908.0,
      "reward": 3.884533405303955,
      "reward_std": 0.47682517766952515,
      "rewards/reward_fn/mean": 3.884533405303955,
      "rewards/reward_fn/std": 0.47682514786720276,
      "step": 788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.0,
      "completions/max_terminated_length": 603.0,
      "completions/mean_length": 202.4375,
      "completions/mean_terminated_length": 202.4375,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.08369576747639758,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.03790642227977514,
      "learning_rate": 7.6848e-06,
      "loss": 0.0211,
      "num_tokens": 36607410.0,
      "reward": 3.8924498558044434,
      "reward_std": 0.3397402763366699,
      "rewards/reward_fn/mean": 3.8924498558044434,
      "rewards/reward_fn/std": 0.3397402763366699,
      "step": 789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 991.0,
      "completions/max_terminated_length": 991.0,
      "completions/mean_length": 501.4375,
      "completions/mean_terminated_length": 501.4375,
      "completions/min_length": 324.0,
      "completions/min_terminated_length": 324.0,
      "epoch": 0.08380184576217248,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.02125004376284778,
      "learning_rate": 7.6844e-06,
      "loss": 0.0061,
      "num_tokens": 36672960.0,
      "reward": 2.670154571533203,
      "reward_std": 0.5752670168876648,
      "rewards/reward_fn/mean": 2.670154571533203,
      "rewards/reward_fn/std": 0.57526695728302,
      "step": 790
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.0,
      "completions/max_terminated_length": 717.0,
      "completions/mean_length": 455.21875,
      "completions/mean_terminated_length": 455.21875,
      "completions/min_length": 310.0,
      "completions/min_terminated_length": 310.0,
      "epoch": 0.08390792404794739,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.020999554311856627,
      "learning_rate": 7.684e-06,
      "loss": 0.0642,
      "num_tokens": 36732487.0,
      "reward": 3.457927942276001,
      "reward_std": 0.5872803330421448,
      "rewards/reward_fn/mean": 3.457927942276001,
      "rewards/reward_fn/std": 0.5872803330421448,
      "step": 791
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 982.0,
      "completions/max_terminated_length": 982.0,
      "completions/mean_length": 186.1875,
      "completions/mean_terminated_length": 186.1875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.08401400233372229,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1826171875,
      "kl": 0.032360953744500875,
      "learning_rate": 7.6836e-06,
      "loss": 0.0013,
      "num_tokens": 36765805.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 218.0,
      "completions/max_terminated_length": 218.0,
      "completions/mean_length": 151.46875,
      "completions/mean_terminated_length": 151.46875,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.08412008061949719,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1279296875,
      "kl": 0.021889066323637962,
      "learning_rate": 7.6832e-06,
      "loss": 0.0009,
      "num_tokens": 36804956.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 992.0,
      "completions/max_terminated_length": 992.0,
      "completions/mean_length": 199.96875,
      "completions/mean_terminated_length": 199.96875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.08422615890527209,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09814453125,
      "kl": 0.018962694564834237,
      "learning_rate": 7.6828e-06,
      "loss": 0.0008,
      "num_tokens": 36844315.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1186.0,
      "completions/max_terminated_length": 1186.0,
      "completions/mean_length": 337.875,
      "completions/mean_terminated_length": 337.875,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.08433223719104699,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.021812525810673833,
      "learning_rate": 7.6824e-06,
      "loss": 0.1178,
      "num_tokens": 36890487.0,
      "reward": 3.9017152786254883,
      "reward_std": 0.3109425902366638,
      "rewards/reward_fn/mean": 3.9017152786254883,
      "rewards/reward_fn/std": 0.3109425902366638,
      "step": 795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1777.0,
      "completions/mean_length": 704.53125,
      "completions/mean_terminated_length": 614.9666748046875,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.0844383154768219,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02236817847006023,
      "learning_rate": 7.682e-06,
      "loss": 0.3403,
      "num_tokens": 36943112.0,
      "reward": 2.4587063789367676,
      "reward_std": 0.5394301414489746,
      "rewards/reward_fn/mean": 2.4587063789367676,
      "rewards/reward_fn/std": 0.5394301414489746,
      "step": 796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1273.0,
      "completions/max_terminated_length": 1273.0,
      "completions/mean_length": 536.34375,
      "completions/mean_terminated_length": 536.34375,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.0845443937625968,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.02385992626659572,
      "learning_rate": 7.6816e-06,
      "loss": 0.0694,
      "num_tokens": 36997363.0,
      "reward": 2.4099903106689453,
      "reward_std": 0.5640437602996826,
      "rewards/reward_fn/mean": 2.4099903106689453,
      "rewards/reward_fn/std": 0.5640437602996826,
      "step": 797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 213.0,
      "completions/max_terminated_length": 213.0,
      "completions/mean_length": 149.15625,
      "completions/mean_terminated_length": 149.15625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.0846504720483717,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.091796875,
      "kl": 0.017519668908789754,
      "learning_rate": 7.681199999999999e-06,
      "loss": 0.0007,
      "num_tokens": 37028024.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 313.40625,
      "completions/mean_terminated_length": 313.40625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.0847565503341466,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.022777023958042264,
      "learning_rate": 7.6808e-06,
      "loss": 0.0037,
      "num_tokens": 37076261.0,
      "reward": 3.26804256439209,
      "reward_std": 0.7380927801132202,
      "rewards/reward_fn/mean": 3.26804256439209,
      "rewards/reward_fn/std": 0.7380927801132202,
      "step": 799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 220.0,
      "completions/mean_terminated_length": 220.0,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.0848626286199215,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.04452996770851314,
      "learning_rate": 7.680399999999998e-06,
      "loss": 0.074,
      "num_tokens": 37114917.0,
      "reward": 3.9180896282196045,
      "reward_std": 0.26771649718284607,
      "rewards/reward_fn/mean": 3.9180896282196045,
      "rewards/reward_fn/std": 0.26771649718284607,
      "step": 800
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 929.0,
      "completions/max_terminated_length": 929.0,
      "completions/mean_length": 374.96875,
      "completions/mean_terminated_length": 374.96875,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.0849687069056964,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.01646363304462284,
      "learning_rate": 7.68e-06,
      "loss": 0.0849,
      "num_tokens": 37163716.0,
      "reward": 2.890430450439453,
      "reward_std": 0.055527813732624054,
      "rewards/reward_fn/mean": 2.890430450439453,
      "rewards/reward_fn/std": 0.05552782118320465,
      "step": 801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 709.0,
      "completions/max_terminated_length": 709.0,
      "completions/mean_length": 156.5,
      "completions/mean_terminated_length": 156.5,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.08507478519147131,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.16796875,
      "kl": 0.03423686744645238,
      "learning_rate": 7.6796e-06,
      "loss": 0.0014,
      "num_tokens": 37213556.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 926.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 260.8125,
      "completions/mean_terminated_length": 260.8125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.08518086347724621,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.01638385117985308,
      "learning_rate": 7.6792e-06,
      "loss": -0.076,
      "num_tokens": 37258478.0,
      "reward": 3.609133243560791,
      "reward_std": 0.5494344234466553,
      "rewards/reward_fn/mean": 3.609133243560791,
      "rewards/reward_fn/std": 0.5494344234466553,
      "step": 803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1347.0,
      "completions/max_terminated_length": 1347.0,
      "completions/mean_length": 448.46875,
      "completions/mean_terminated_length": 448.46875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.08528694176302111,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.020947554847225547,
      "learning_rate": 7.6788e-06,
      "loss": -0.1078,
      "num_tokens": 37296669.0,
      "reward": 3.074223518371582,
      "reward_std": 0.5923977494239807,
      "rewards/reward_fn/mean": 3.074223518371582,
      "rewards/reward_fn/std": 0.5923976898193359,
      "step": 804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 421.0,
      "completions/max_terminated_length": 421.0,
      "completions/mean_length": 110.90625,
      "completions/mean_terminated_length": 110.90625,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.08539302004879601,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1103515625,
      "kl": 0.017318370169959962,
      "learning_rate": 7.6784e-06,
      "loss": 0.0007,
      "num_tokens": 37333658.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.0,
      "completions/max_terminated_length": 306.0,
      "completions/mean_length": 197.4375,
      "completions/mean_terminated_length": 197.4375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.08549909833457091,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.4375,
      "kl": 0.02576698805205524,
      "learning_rate": 7.678e-06,
      "loss": 0.0374,
      "num_tokens": 37370536.0,
      "reward": 3.7869386672973633,
      "reward_std": 0.6730425357818604,
      "rewards/reward_fn/mean": 3.7869386672973633,
      "rewards/reward_fn/std": 0.6730424761772156,
      "step": 806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 586.0,
      "completions/max_terminated_length": 586.0,
      "completions/mean_length": 171.59375,
      "completions/mean_terminated_length": 171.59375,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.08560517662034582,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.022562434431165457,
      "learning_rate": 7.677599999999999e-06,
      "loss": 0.017,
      "num_tokens": 37412859.0,
      "reward": 3.9462358951568604,
      "reward_std": 0.21158860623836517,
      "rewards/reward_fn/mean": 3.9462358951568604,
      "rewards/reward_fn/std": 0.21158860623836517,
      "step": 807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 796.0,
      "completions/max_terminated_length": 796.0,
      "completions/mean_length": 177.53125,
      "completions/mean_terminated_length": 177.53125,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.08571125490612072,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.19921875,
      "kl": 0.029298200272023678,
      "learning_rate": 7.6772e-06,
      "loss": 0.0012,
      "num_tokens": 37452204.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 640.0,
      "completions/max_terminated_length": 640.0,
      "completions/mean_length": 171.09375,
      "completions/mean_terminated_length": 171.09375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.08581733319189562,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.130859375,
      "kl": 0.028025910491123796,
      "learning_rate": 7.676799999999999e-06,
      "loss": 0.0011,
      "num_tokens": 37508335.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 263.25,
      "completions/mean_terminated_length": 263.25,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.08592341147767052,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.020565056474879384,
      "learning_rate": 7.6764e-06,
      "loss": -0.0028,
      "num_tokens": 37538775.0,
      "reward": 3.859889507293701,
      "reward_std": 0.5514804124832153,
      "rewards/reward_fn/mean": 3.859889507293701,
      "rewards/reward_fn/std": 0.5514804124832153,
      "step": 810
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1669.0,
      "completions/max_terminated_length": 1669.0,
      "completions/mean_length": 508.625,
      "completions/mean_terminated_length": 508.625,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.08602948976344542,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.016198519384488463,
      "learning_rate": 7.675999999999999e-06,
      "loss": 0.1003,
      "num_tokens": 37572555.0,
      "reward": 3.0730252265930176,
      "reward_std": 0.4106665253639221,
      "rewards/reward_fn/mean": 3.0730252265930176,
      "rewards/reward_fn/std": 0.4106665253639221,
      "step": 811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1107.0,
      "completions/max_terminated_length": 1107.0,
      "completions/mean_length": 251.84375,
      "completions/mean_terminated_length": 251.84375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.08613556804922032,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.024606948718428612,
      "learning_rate": 7.6756e-06,
      "loss": 0.2776,
      "num_tokens": 37617158.0,
      "reward": 3.967801332473755,
      "reward_std": 0.18214285373687744,
      "rewards/reward_fn/mean": 3.967801332473755,
      "rewards/reward_fn/std": 0.18214282393455505,
      "step": 812
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1282.0,
      "completions/max_terminated_length": 1282.0,
      "completions/mean_length": 566.5,
      "completions/mean_terminated_length": 566.5,
      "completions/min_length": 353.0,
      "completions/min_terminated_length": 353.0,
      "epoch": 0.08624164633499523,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.028156861662864685,
      "learning_rate": 7.6752e-06,
      "loss": 0.0301,
      "num_tokens": 37669654.0,
      "reward": 2.7869529724121094,
      "reward_std": 0.3411664366722107,
      "rewards/reward_fn/mean": 2.7869529724121094,
      "rewards/reward_fn/std": 0.3411664366722107,
      "step": 813
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 397.0,
      "completions/max_terminated_length": 397.0,
      "completions/mean_length": 137.625,
      "completions/mean_terminated_length": 137.625,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.08634772462077013,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.021783202653750777,
      "learning_rate": 7.6748e-06,
      "loss": 0.0009,
      "num_tokens": 37707338.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 776.0,
      "completions/max_terminated_length": 776.0,
      "completions/mean_length": 268.15625,
      "completions/mean_terminated_length": 268.15625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.08645380290654503,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.020849171094596386,
      "learning_rate": 7.6744e-06,
      "loss": -0.0546,
      "num_tokens": 37751279.0,
      "reward": 3.7785048484802246,
      "reward_std": 0.6255349516868591,
      "rewards/reward_fn/mean": 3.7785048484802246,
      "rewards/reward_fn/std": 0.6255349516868591,
      "step": 815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 97.0,
      "completions/max_terminated_length": 97.0,
      "completions/mean_length": 66.34375,
      "completions/mean_terminated_length": 66.34375,
      "completions/min_length": 40.0,
      "completions/min_terminated_length": 40.0,
      "epoch": 0.08655988119231993,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.115234375,
      "kl": 0.01903400884475559,
      "learning_rate": 7.674e-06,
      "loss": 0.0008,
      "num_tokens": 37785402.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 609.0,
      "completions/max_terminated_length": 609.0,
      "completions/mean_length": 249.0625,
      "completions/mean_terminated_length": 249.0625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.08666595947809483,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0751953125,
      "kl": 0.018705508206039667,
      "learning_rate": 7.6736e-06,
      "loss": 0.0007,
      "num_tokens": 37835932.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 434.9375,
      "completions/mean_terminated_length": 434.9375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.08677203776386974,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.021974525414407253,
      "learning_rate": 7.6732e-06,
      "loss": -0.028,
      "num_tokens": 37887770.0,
      "reward": 3.078002452850342,
      "reward_std": 0.9280657172203064,
      "rewards/reward_fn/mean": 3.078002452850342,
      "rewards/reward_fn/std": 0.9280656576156616,
      "step": 818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 588.0,
      "completions/max_terminated_length": 588.0,
      "completions/mean_length": 151.3125,
      "completions/mean_terminated_length": 151.3125,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.08687811604964464,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.8125,
      "kl": 0.02121459529735148,
      "learning_rate": 7.672799999999999e-06,
      "loss": 0.0208,
      "num_tokens": 37912644.0,
      "reward": 3.916912317276001,
      "reward_std": 0.2673051953315735,
      "rewards/reward_fn/mean": 3.916912317276001,
      "rewards/reward_fn/std": 0.2673051655292511,
      "step": 819
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1782.0,
      "completions/max_terminated_length": 1782.0,
      "completions/mean_length": 596.375,
      "completions/mean_terminated_length": 596.375,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.08698419433541954,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0703125,
      "kl": 0.01679900661110878,
      "learning_rate": 7.6724e-06,
      "loss": 0.211,
      "num_tokens": 37971696.0,
      "reward": 2.634601593017578,
      "reward_std": 0.8135941624641418,
      "rewards/reward_fn/mean": 2.634601593017578,
      "rewards/reward_fn/std": 0.8135941028594971,
      "step": 820
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 248.0,
      "completions/max_terminated_length": 248.0,
      "completions/mean_length": 80.15625,
      "completions/mean_terminated_length": 80.15625,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.08709027262119444,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1142578125,
      "kl": 0.014007492223754525,
      "learning_rate": 7.671999999999999e-06,
      "loss": 0.0006,
      "num_tokens": 37994645.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1119.0,
      "completions/max_terminated_length": 1119.0,
      "completions/mean_length": 587.875,
      "completions/mean_terminated_length": 587.875,
      "completions/min_length": 276.0,
      "completions/min_terminated_length": 276.0,
      "epoch": 0.08719635090696934,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.016050471109338105,
      "learning_rate": 7.6716e-06,
      "loss": 0.0154,
      "num_tokens": 38054577.0,
      "reward": 2.849022388458252,
      "reward_std": 0.03270436450839043,
      "rewards/reward_fn/mean": 2.849022388458252,
      "rewards/reward_fn/std": 0.03270438313484192,
      "step": 822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 423.0,
      "completions/max_terminated_length": 423.0,
      "completions/mean_length": 134.9375,
      "completions/mean_terminated_length": 134.9375,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.08730242919274425,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10302734375,
      "kl": 0.021432526409626007,
      "learning_rate": 7.671199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 38093487.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1193.0,
      "completions/max_terminated_length": 1193.0,
      "completions/mean_length": 314.75,
      "completions/mean_terminated_length": 314.75,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.08740850747851915,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06103515625,
      "kl": 0.012500970042310655,
      "learning_rate": 7.6708e-06,
      "loss": 0.0005,
      "num_tokens": 38138407.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1915.0,
      "completions/mean_length": 789.125,
      "completions/mean_terminated_length": 748.51611328125,
      "completions/min_length": 45.0,
      "completions/min_terminated_length": 45.0,
      "epoch": 0.08751458576429405,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.9375,
      "kl": 0.014306797063909471,
      "learning_rate": 7.6704e-06,
      "loss": -0.0029,
      "num_tokens": 38237739.0,
      "reward": 2.5165700912475586,
      "reward_std": 0.8159104585647583,
      "rewards/reward_fn/mean": 2.5165700912475586,
      "rewards/reward_fn/std": 0.8159104585647583,
      "step": 825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1498.0,
      "completions/max_terminated_length": 1498.0,
      "completions/mean_length": 484.15625,
      "completions/mean_terminated_length": 484.15625,
      "completions/min_length": 313.0,
      "completions/min_terminated_length": 313.0,
      "epoch": 0.08762066405006895,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.015709159546531737,
      "learning_rate": 7.67e-06,
      "loss": 0.1323,
      "num_tokens": 38306224.0,
      "reward": 2.799229860305786,
      "reward_std": 0.059028059244155884,
      "rewards/reward_fn/mean": 2.799229860305786,
      "rewards/reward_fn/std": 0.059028033167123795,
      "step": 826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1373.0,
      "completions/max_terminated_length": 1373.0,
      "completions/mean_length": 325.90625,
      "completions/mean_terminated_length": 325.90625,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.08772674233584385,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.021479285322129726,
      "learning_rate": 7.6696e-06,
      "loss": -0.0611,
      "num_tokens": 38359309.0,
      "reward": 3.9237232208251953,
      "reward_std": 0.30016380548477173,
      "rewards/reward_fn/mean": 3.9237232208251953,
      "rewards/reward_fn/std": 0.3001638352870941,
      "step": 827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1149.0,
      "completions/max_terminated_length": 1149.0,
      "completions/mean_length": 188.53125,
      "completions/mean_terminated_length": 188.53125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.08783282062161875,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.578125,
      "kl": 0.02761186519637704,
      "learning_rate": 7.6692e-06,
      "loss": -0.0688,
      "num_tokens": 38397758.0,
      "reward": 3.613966464996338,
      "reward_std": 0.5824852585792542,
      "rewards/reward_fn/mean": 3.613966464996338,
      "rewards/reward_fn/std": 0.5824853181838989,
      "step": 828
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 565.0,
      "completions/max_terminated_length": 565.0,
      "completions/mean_length": 178.53125,
      "completions/mean_terminated_length": 178.53125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.08793889890739366,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0732421875,
      "kl": 0.01873406278900802,
      "learning_rate": 7.6688e-06,
      "loss": 0.0007,
      "num_tokens": 38436335.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 829
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1652.0,
      "completions/max_terminated_length": 1652.0,
      "completions/mean_length": 360.3125,
      "completions/mean_terminated_length": 360.3125,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.08804497719316856,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.02481435379013419,
      "learning_rate": 7.6684e-06,
      "loss": -0.0879,
      "num_tokens": 38459545.0,
      "reward": 2.863328456878662,
      "reward_std": 0.4318251311779022,
      "rewards/reward_fn/mean": 2.863328456878662,
      "rewards/reward_fn/std": 0.43182510137557983,
      "step": 830
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 154.5,
      "completions/mean_terminated_length": 154.5,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.08815105547894346,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.265625,
      "kl": 0.024363160831853747,
      "learning_rate": 7.668e-06,
      "loss": 0.125,
      "num_tokens": 38510345.0,
      "reward": 3.92673659324646,
      "reward_std": 0.4144406020641327,
      "rewards/reward_fn/mean": 3.92673659324646,
      "rewards/reward_fn/std": 0.4144406318664551,
      "step": 831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 254.53125,
      "completions/mean_terminated_length": 254.53125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.08825713376471836,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.021779751870781183,
      "learning_rate": 7.6676e-06,
      "loss": -0.0541,
      "num_tokens": 38568538.0,
      "reward": 3.9609336853027344,
      "reward_std": 0.2209915965795517,
      "rewards/reward_fn/mean": 3.9609336853027344,
      "rewards/reward_fn/std": 0.2209915667772293,
      "step": 832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 838.0,
      "completions/mean_length": 539.09375,
      "completions/mean_terminated_length": 490.4193420410156,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.08836321205049326,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.01555003086104989,
      "learning_rate": 7.6672e-06,
      "loss": 0.1733,
      "num_tokens": 38624541.0,
      "reward": 2.5395612716674805,
      "reward_std": 0.5905151963233948,
      "rewards/reward_fn/mean": 2.5395612716674805,
      "rewards/reward_fn/std": 0.5905151963233948,
      "step": 833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 798.0,
      "completions/mean_length": 550.09375,
      "completions/mean_terminated_length": 501.774169921875,
      "completions/min_length": 289.0,
      "completions/min_terminated_length": 289.0,
      "epoch": 0.08846929033626817,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.011983388103544712,
      "learning_rate": 7.6668e-06,
      "loss": 0.1678,
      "num_tokens": 38679872.0,
      "reward": 2.6343441009521484,
      "reward_std": 0.5172379016876221,
      "rewards/reward_fn/mean": 2.6343441009521484,
      "rewards/reward_fn/std": 0.5172379016876221,
      "step": 834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1709.0,
      "completions/max_terminated_length": 1709.0,
      "completions/mean_length": 458.5,
      "completions/mean_terminated_length": 458.5,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.08857536862204307,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0458984375,
      "kl": 0.015996047877706587,
      "learning_rate": 7.6664e-06,
      "loss": 0.0006,
      "num_tokens": 38727152.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1978.0,
      "completions/max_terminated_length": 1978.0,
      "completions/mean_length": 492.3125,
      "completions/mean_terminated_length": 492.3125,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.08868144690781797,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.017040529986843467,
      "learning_rate": 7.666e-06,
      "loss": 0.1084,
      "num_tokens": 38779738.0,
      "reward": 3.5246658325195312,
      "reward_std": 0.5842354893684387,
      "rewards/reward_fn/mean": 3.5246658325195312,
      "rewards/reward_fn/std": 0.584235429763794,
      "step": 836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 243.46875,
      "completions/mean_terminated_length": 243.46875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.08878752519359287,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.076171875,
      "kl": 0.01812937785871327,
      "learning_rate": 7.6656e-06,
      "loss": 0.0007,
      "num_tokens": 38807785.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 837
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 907.0,
      "completions/max_terminated_length": 907.0,
      "completions/mean_length": 233.59375,
      "completions/mean_terminated_length": 233.59375,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.08889360347936777,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.02154145378153771,
      "learning_rate": 7.665199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 38860764.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1264.0,
      "completions/max_terminated_length": 1264.0,
      "completions/mean_length": 482.875,
      "completions/mean_terminated_length": 482.875,
      "completions/min_length": 297.0,
      "completions/min_terminated_length": 297.0,
      "epoch": 0.08899968176514267,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.02117840899154544,
      "learning_rate": 7.6648e-06,
      "loss": 0.0261,
      "num_tokens": 38892632.0,
      "reward": 2.9815337657928467,
      "reward_std": 0.5712193846702576,
      "rewards/reward_fn/mean": 2.9815337657928467,
      "rewards/reward_fn/std": 0.5712193250656128,
      "step": 839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 407.0,
      "completions/max_terminated_length": 407.0,
      "completions/mean_length": 96.15625,
      "completions/mean_terminated_length": 96.15625,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.08910576005091758,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.119140625,
      "kl": 0.012993088574148715,
      "learning_rate": 7.664399999999999e-06,
      "loss": 0.0005,
      "num_tokens": 38921501.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 840
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1709.0,
      "completions/max_terminated_length": 1709.0,
      "completions/mean_length": 292.4375,
      "completions/mean_terminated_length": 292.4375,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.08921183833669248,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10400390625,
      "kl": 0.023782695876434445,
      "learning_rate": 7.664e-06,
      "loss": 0.001,
      "num_tokens": 38963435.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 355.0,
      "completions/max_terminated_length": 355.0,
      "completions/mean_length": 251.90625,
      "completions/mean_terminated_length": 251.90625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.08931791662246738,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.021294391248375177,
      "learning_rate": 7.663599999999999e-06,
      "loss": -0.0354,
      "num_tokens": 39018280.0,
      "reward": 3.854649305343628,
      "reward_std": 0.3912486135959625,
      "rewards/reward_fn/mean": 3.854649305343628,
      "rewards/reward_fn/std": 0.39124858379364014,
      "step": 842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1967.0,
      "completions/max_terminated_length": 1967.0,
      "completions/mean_length": 521.6875,
      "completions/mean_terminated_length": 521.6875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.08942399490824228,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.421875,
      "kl": 0.02067981311120093,
      "learning_rate": 7.6632e-06,
      "loss": 0.0552,
      "num_tokens": 39071550.0,
      "reward": 2.960012674331665,
      "reward_std": 0.3984401524066925,
      "rewards/reward_fn/mean": 2.960012674331665,
      "rewards/reward_fn/std": 0.3984401226043701,
      "step": 843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1737.0,
      "completions/max_terminated_length": 1737.0,
      "completions/mean_length": 478.0,
      "completions/mean_terminated_length": 478.0,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.08953007319401718,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.019556208280846477,
      "learning_rate": 7.662799999999999e-06,
      "loss": 0.054,
      "num_tokens": 39119614.0,
      "reward": 1.653461217880249,
      "reward_std": 0.041531752794981,
      "rewards/reward_fn/mean": 1.653461217880249,
      "rewards/reward_fn/std": 0.041531749069690704,
      "step": 844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 608.5625,
      "completions/mean_terminated_length": 562.1290283203125,
      "completions/min_length": 295.0,
      "completions/min_terminated_length": 295.0,
      "epoch": 0.08963615147979209,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.017408509156666696,
      "learning_rate": 7.6624e-06,
      "loss": 0.1428,
      "num_tokens": 39176944.0,
      "reward": 2.5016188621520996,
      "reward_std": 0.5439700484275818,
      "rewards/reward_fn/mean": 2.5016188621520996,
      "rewards/reward_fn/std": 0.5439700484275818,
      "step": 845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 523.0,
      "completions/max_terminated_length": 523.0,
      "completions/mean_length": 98.9375,
      "completions/mean_terminated_length": 98.9375,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.08974222976556699,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.671875,
      "kl": 0.015259308856911957,
      "learning_rate": 7.661999999999999e-06,
      "loss": 0.0593,
      "num_tokens": 39214222.0,
      "reward": 2.9853861331939697,
      "reward_std": 0.0448482483625412,
      "rewards/reward_fn/mean": 2.9853861331939697,
      "rewards/reward_fn/std": 0.04484826698899269,
      "step": 846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1274.0,
      "completions/max_terminated_length": 1274.0,
      "completions/mean_length": 305.65625,
      "completions/mean_terminated_length": 305.65625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.08984830805134189,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.267578125,
      "kl": 0.020439033047296107,
      "learning_rate": 7.6616e-06,
      "loss": 0.0008,
      "num_tokens": 39262947.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 603.0,
      "completions/max_terminated_length": 603.0,
      "completions/mean_length": 272.21875,
      "completions/mean_terminated_length": 272.21875,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.08995438633711679,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07470703125,
      "kl": 0.016530890949070454,
      "learning_rate": 7.6612e-06,
      "loss": 0.0007,
      "num_tokens": 39315562.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1454.0,
      "completions/mean_length": 934.9375,
      "completions/mean_terminated_length": 860.7333984375,
      "completions/min_length": 502.0,
      "completions/min_terminated_length": 502.0,
      "epoch": 0.09006046462289169,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0234375,
      "kl": 0.011996885878033936,
      "learning_rate": 7.6608e-06,
      "loss": 0.1388,
      "num_tokens": 39382120.0,
      "reward": 2.5481839179992676,
      "reward_std": 0.7321963906288147,
      "rewards/reward_fn/mean": 2.5481839179992676,
      "rewards/reward_fn/std": 0.7321963906288147,
      "step": 849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1143.0,
      "completions/max_terminated_length": 1143.0,
      "completions/mean_length": 247.875,
      "completions/mean_terminated_length": 247.875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.0901665429086666,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.025268358644098043,
      "learning_rate": 7.6604e-06,
      "loss": -0.0004,
      "num_tokens": 39427172.0,
      "reward": 3.895744800567627,
      "reward_std": 0.4322659969329834,
      "rewards/reward_fn/mean": 3.895744800567627,
      "rewards/reward_fn/std": 0.43226608633995056,
      "step": 850
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1147.0,
      "completions/max_terminated_length": 1147.0,
      "completions/mean_length": 307.03125,
      "completions/mean_terminated_length": 307.03125,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.0902726211944415,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06494140625,
      "kl": 0.018672091653570533,
      "learning_rate": 7.66e-06,
      "loss": 0.0007,
      "num_tokens": 39471077.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 302.4375,
      "completions/mean_terminated_length": 302.4375,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.0903786994802164,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.016184502048417926,
      "learning_rate": 7.6596e-06,
      "loss": -0.0154,
      "num_tokens": 39516083.0,
      "reward": 3.964545249938965,
      "reward_std": 0.2005615234375,
      "rewards/reward_fn/mean": 3.964545249938965,
      "rewards/reward_fn/std": 0.2005615085363388,
      "step": 852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1340.0,
      "completions/mean_length": 324.40625,
      "completions/mean_terminated_length": 268.80645751953125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.0904847777659913,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.01840786065440625,
      "learning_rate": 7.6592e-06,
      "loss": 0.3014,
      "num_tokens": 39581696.0,
      "reward": 3.629117012023926,
      "reward_std": 0.9064881205558777,
      "rewards/reward_fn/mean": 3.629117012023926,
      "rewards/reward_fn/std": 0.9064880609512329,
      "step": 853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1126.0,
      "completions/max_terminated_length": 1126.0,
      "completions/mean_length": 262.0,
      "completions/mean_terminated_length": 262.0,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.0905908560517662,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.02637373749166727,
      "learning_rate": 7.6588e-06,
      "loss": 0.1283,
      "num_tokens": 39620544.0,
      "reward": 2.9511616230010986,
      "reward_std": 0.08586955070495605,
      "rewards/reward_fn/mean": 2.9511616230010986,
      "rewards/reward_fn/std": 0.08586958050727844,
      "step": 854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1835.0,
      "completions/max_terminated_length": 1835.0,
      "completions/mean_length": 448.1875,
      "completions/mean_terminated_length": 448.1875,
      "completions/min_length": 278.0,
      "completions/min_terminated_length": 278.0,
      "epoch": 0.0906969343375411,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.01755295612383634,
      "learning_rate": 7.6584e-06,
      "loss": 0.0497,
      "num_tokens": 39678278.0,
      "reward": 3.100637197494507,
      "reward_std": 0.4405517578125,
      "rewards/reward_fn/mean": 3.100637197494507,
      "rewards/reward_fn/std": 0.4405516982078552,
      "step": 855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1361.0,
      "completions/max_terminated_length": 1361.0,
      "completions/mean_length": 370.0625,
      "completions/mean_terminated_length": 370.0625,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.09080301262331601,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.02147255139425397,
      "learning_rate": 7.658e-06,
      "loss": 0.0513,
      "num_tokens": 39723720.0,
      "reward": 2.9578869342803955,
      "reward_std": 0.45630425214767456,
      "rewards/reward_fn/mean": 2.9578869342803955,
      "rewards/reward_fn/std": 0.45630425214767456,
      "step": 856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 507.0,
      "completions/max_terminated_length": 507.0,
      "completions/mean_length": 160.34375,
      "completions/mean_terminated_length": 160.34375,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.09090909090909091,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.134765625,
      "kl": 0.02221720013767481,
      "learning_rate": 7.6576e-06,
      "loss": 0.0009,
      "num_tokens": 39767827.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1939.0,
      "completions/mean_length": 474.875,
      "completions/mean_terminated_length": 370.0000305175781,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.09101516919486581,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.02296722703613341,
      "learning_rate": 7.657199999999998e-06,
      "loss": 0.1096,
      "num_tokens": 39814287.0,
      "reward": 2.8872292041778564,
      "reward_std": 0.912183940410614,
      "rewards/reward_fn/mean": 2.8872292041778564,
      "rewards/reward_fn/std": 0.9121840596199036,
      "step": 858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1292.0,
      "completions/max_terminated_length": 1292.0,
      "completions/mean_length": 396.125,
      "completions/mean_terminated_length": 396.125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.09112124748064071,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0546875,
      "kl": 0.019654609728604555,
      "learning_rate": 7.6568e-06,
      "loss": -0.0741,
      "num_tokens": 39861555.0,
      "reward": 3.9295010566711426,
      "reward_std": 0.39880141615867615,
      "rewards/reward_fn/mean": 3.9295010566711426,
      "rewards/reward_fn/std": 0.39880138635635376,
      "step": 859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 589.0,
      "completions/max_terminated_length": 589.0,
      "completions/mean_length": 378.1875,
      "completions/mean_terminated_length": 378.1875,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.09122732576641561,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.023176385322585702,
      "learning_rate": 7.6564e-06,
      "loss": 0.029,
      "num_tokens": 39908185.0,
      "reward": 2.712822437286377,
      "reward_std": 0.5235727429389954,
      "rewards/reward_fn/mean": 2.712822437286377,
      "rewards/reward_fn/std": 0.5235726833343506,
      "step": 860
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1054.0,
      "completions/max_terminated_length": 1054.0,
      "completions/mean_length": 582.9375,
      "completions/mean_terminated_length": 582.9375,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.09133340405219052,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1953125,
      "kl": 0.02485931245610118,
      "learning_rate": 7.656e-06,
      "loss": 0.0291,
      "num_tokens": 39970263.0,
      "reward": 2.0070159435272217,
      "reward_std": 0.5709453821182251,
      "rewards/reward_fn/mean": 2.0070159435272217,
      "rewards/reward_fn/std": 0.5709454417228699,
      "step": 861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1708.0,
      "completions/mean_length": 727.5,
      "completions/mean_terminated_length": 684.9031982421875,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.09143948233796542,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.021499027032405138,
      "learning_rate": 7.6556e-06,
      "loss": 0.1757,
      "num_tokens": 40033191.0,
      "reward": 2.741589069366455,
      "reward_std": 0.7133889198303223,
      "rewards/reward_fn/mean": 2.741589069366455,
      "rewards/reward_fn/std": 0.713388979434967,
      "step": 862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 847.0,
      "completions/max_terminated_length": 847.0,
      "completions/mean_length": 166.59375,
      "completions/mean_terminated_length": 166.59375,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.09154556062374032,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.01900175167247653,
      "learning_rate": 7.655199999999999e-06,
      "loss": 0.0008,
      "num_tokens": 40071258.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/max_terminated_length": 297.0,
      "completions/mean_length": 138.9375,
      "completions/mean_terminated_length": 138.9375,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.09165163890951522,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.640625,
      "kl": 0.02012345683760941,
      "learning_rate": 7.6548e-06,
      "loss": 0.0304,
      "num_tokens": 40103192.0,
      "reward": 3.9747822284698486,
      "reward_std": 0.14265310764312744,
      "rewards/reward_fn/mean": 3.9747822284698486,
      "rewards/reward_fn/std": 0.14265307784080505,
      "step": 864
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 748.0,
      "completions/max_terminated_length": 748.0,
      "completions/mean_length": 239.40625,
      "completions/mean_terminated_length": 239.40625,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.09175771719529012,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.023207159945741296,
      "learning_rate": 7.654399999999999e-06,
      "loss": 0.0592,
      "num_tokens": 40141413.0,
      "reward": 3.481161117553711,
      "reward_std": 0.5994711518287659,
      "rewards/reward_fn/mean": 3.481161117553711,
      "rewards/reward_fn/std": 0.5994711518287659,
      "step": 865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 539.0,
      "completions/max_terminated_length": 539.0,
      "completions/mean_length": 184.46875,
      "completions/mean_terminated_length": 184.46875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.09186379548106502,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1416015625,
      "kl": 0.025038019753992558,
      "learning_rate": 7.654e-06,
      "loss": 0.001,
      "num_tokens": 40193268.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 972.0,
      "completions/max_terminated_length": 972.0,
      "completions/mean_length": 258.125,
      "completions/mean_terminated_length": 258.125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.09196987376683993,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.019463328178972006,
      "learning_rate": 7.653599999999999e-06,
      "loss": 0.0152,
      "num_tokens": 40232248.0,
      "reward": 2.827080249786377,
      "reward_std": 0.38547733426094055,
      "rewards/reward_fn/mean": 2.827080249786377,
      "rewards/reward_fn/std": 0.38547733426094055,
      "step": 867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1029.0,
      "completions/max_terminated_length": 1029.0,
      "completions/mean_length": 183.78125,
      "completions/mean_terminated_length": 183.78125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.09207595205261483,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.6875,
      "kl": 0.0231759175658226,
      "learning_rate": 7.6532e-06,
      "loss": 0.3201,
      "num_tokens": 40283857.0,
      "reward": 3.9275426864624023,
      "reward_std": 0.40988099575042725,
      "rewards/reward_fn/mean": 3.9275426864624023,
      "rewards/reward_fn/std": 0.40988096594810486,
      "step": 868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1254.0,
      "completions/max_terminated_length": 1254.0,
      "completions/mean_length": 375.5625,
      "completions/mean_terminated_length": 375.5625,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.09218203033838973,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.02289043739438057,
      "learning_rate": 7.652799999999999e-06,
      "loss": 0.0872,
      "num_tokens": 40329763.0,
      "reward": 3.6777396202087402,
      "reward_std": 0.4553356170654297,
      "rewards/reward_fn/mean": 3.6777396202087402,
      "rewards/reward_fn/std": 0.4553355872631073,
      "step": 869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1893.0,
      "completions/max_terminated_length": 1893.0,
      "completions/mean_length": 473.125,
      "completions/mean_terminated_length": 473.125,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.09228810862416463,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.01598887878935784,
      "learning_rate": 7.6524e-06,
      "loss": 0.0179,
      "num_tokens": 40403239.0,
      "reward": 2.7556214332580566,
      "reward_std": 0.2854246497154236,
      "rewards/reward_fn/mean": 2.7556214332580566,
      "rewards/reward_fn/std": 0.28542467951774597,
      "step": 870
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.0,
      "completions/max_terminated_length": 294.0,
      "completions/mean_length": 192.84375,
      "completions/mean_terminated_length": 192.84375,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.09239418690993953,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.022107360186055303,
      "learning_rate": 7.652e-06,
      "loss": 0.0033,
      "num_tokens": 40428162.0,
      "reward": 3.720233201980591,
      "reward_std": 0.4924321472644806,
      "rewards/reward_fn/mean": 3.720233201980591,
      "rewards/reward_fn/std": 0.492432177066803,
      "step": 871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1444.0,
      "completions/max_terminated_length": 1444.0,
      "completions/mean_length": 297.59375,
      "completions/mean_terminated_length": 297.59375,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.09250026519571444,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.018545285565778613,
      "learning_rate": 7.6516e-06,
      "loss": 0.0992,
      "num_tokens": 40486805.0,
      "reward": 3.9627604484558105,
      "reward_std": 0.21065910160541534,
      "rewards/reward_fn/mean": 3.9627604484558105,
      "rewards/reward_fn/std": 0.21065913140773773,
      "step": 872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 407.0,
      "completions/max_terminated_length": 407.0,
      "completions/mean_length": 246.0625,
      "completions/mean_terminated_length": 246.0625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.09260634348148934,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.02543105883523822,
      "learning_rate": 7.6512e-06,
      "loss": -0.0205,
      "num_tokens": 40540087.0,
      "reward": 3.9671568870544434,
      "reward_std": 0.18578803539276123,
      "rewards/reward_fn/mean": 3.9671568870544434,
      "rewards/reward_fn/std": 0.18578806519508362,
      "step": 873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.0,
      "completions/max_terminated_length": 353.0,
      "completions/mean_length": 224.21875,
      "completions/mean_terminated_length": 224.21875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.09271242176726424,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.018198609352111816,
      "learning_rate": 7.6508e-06,
      "loss": 0.0684,
      "num_tokens": 40569118.0,
      "reward": 3.9687681198120117,
      "reward_std": 0.17667338252067566,
      "rewards/reward_fn/mean": 3.9687681198120117,
      "rewards/reward_fn/std": 0.17667338252067566,
      "step": 874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1499.0,
      "completions/max_terminated_length": 1499.0,
      "completions/mean_length": 536.28125,
      "completions/mean_terminated_length": 536.28125,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.09281850005303914,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.01982128922827542,
      "learning_rate": 7.6504e-06,
      "loss": -0.0039,
      "num_tokens": 40620615.0,
      "reward": 2.6173102855682373,
      "reward_std": 0.29557812213897705,
      "rewards/reward_fn/mean": 2.6173102855682373,
      "rewards/reward_fn/std": 0.29557812213897705,
      "step": 875
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1640.0,
      "completions/max_terminated_length": 1640.0,
      "completions/mean_length": 477.5,
      "completions/mean_terminated_length": 477.5,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.09292457833881404,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.02005974156782031,
      "learning_rate": 7.65e-06,
      "loss": 0.0006,
      "num_tokens": 40666359.0,
      "reward": 2.715482473373413,
      "reward_std": 0.26461300253868103,
      "rewards/reward_fn/mean": 2.715482473373413,
      "rewards/reward_fn/std": 0.2646130323410034,
      "step": 876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 593.0,
      "completions/max_terminated_length": 593.0,
      "completions/mean_length": 324.375,
      "completions/mean_terminated_length": 324.375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.09303065662458895,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.023724806495010853,
      "learning_rate": 7.6496e-06,
      "loss": -0.0251,
      "num_tokens": 40712195.0,
      "reward": 2.6783430576324463,
      "reward_std": 0.43827834725379944,
      "rewards/reward_fn/mean": 2.6783430576324463,
      "rewards/reward_fn/std": 0.43827834725379944,
      "step": 877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1622.0,
      "completions/max_terminated_length": 1622.0,
      "completions/mean_length": 609.21875,
      "completions/mean_terminated_length": 609.21875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.09313673491036385,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.015918764751404524,
      "learning_rate": 7.6492e-06,
      "loss": 0.2026,
      "num_tokens": 40765418.0,
      "reward": 2.542436122894287,
      "reward_std": 0.3645319640636444,
      "rewards/reward_fn/mean": 2.542436122894287,
      "rewards/reward_fn/std": 0.3645319640636444,
      "step": 878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 599.0,
      "completions/max_terminated_length": 599.0,
      "completions/mean_length": 329.6875,
      "completions/mean_terminated_length": 329.6875,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.09324281319613875,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.020563342375680804,
      "learning_rate": 7.648799999999999e-06,
      "loss": -0.0037,
      "num_tokens": 40812096.0,
      "reward": 3.659517526626587,
      "reward_std": 0.78047776222229,
      "rewards/reward_fn/mean": 3.659517526626587,
      "rewards/reward_fn/std": 0.7804778218269348,
      "step": 879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1857.0,
      "completions/max_terminated_length": 1857.0,
      "completions/mean_length": 410.0,
      "completions/mean_terminated_length": 410.0,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.09334889148191365,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5859375,
      "kl": 0.01993569522164762,
      "learning_rate": 7.6484e-06,
      "loss": 0.2059,
      "num_tokens": 40862816.0,
      "reward": 3.4595108032226562,
      "reward_std": 0.9185887575149536,
      "rewards/reward_fn/mean": 3.4595108032226562,
      "rewards/reward_fn/std": 0.9185887575149536,
      "step": 880
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 581.0,
      "completions/max_terminated_length": 581.0,
      "completions/mean_length": 205.53125,
      "completions/mean_terminated_length": 205.53125,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.09345496976768855,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.02375972643494606,
      "learning_rate": 7.647999999999999e-06,
      "loss": -0.0053,
      "num_tokens": 40906737.0,
      "reward": 3.0442795753479004,
      "reward_std": 0.4683447778224945,
      "rewards/reward_fn/mean": 3.0442795753479004,
      "rewards/reward_fn/std": 0.4683447480201721,
      "step": 881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1041.0,
      "completions/max_terminated_length": 1041.0,
      "completions/mean_length": 371.21875,
      "completions/mean_terminated_length": 371.21875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.09356104805346345,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.02078143460676074,
      "learning_rate": 7.6476e-06,
      "loss": 0.0293,
      "num_tokens": 40958680.0,
      "reward": 2.791837692260742,
      "reward_std": 0.0601964108645916,
      "rewards/reward_fn/mean": 2.791837692260742,
      "rewards/reward_fn/std": 0.06019642949104309,
      "step": 882
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 789.0,
      "completions/max_terminated_length": 789.0,
      "completions/mean_length": 220.625,
      "completions/mean_terminated_length": 220.625,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.09366712633923836,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.014467753586359322,
      "learning_rate": 7.6472e-06,
      "loss": 0.0468,
      "num_tokens": 41006028.0,
      "reward": 3.193929672241211,
      "reward_std": 0.0326162613928318,
      "rewards/reward_fn/mean": 3.193929672241211,
      "rewards/reward_fn/std": 0.03261625021696091,
      "step": 883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1583.0,
      "completions/mean_length": 310.75,
      "completions/mean_terminated_length": 254.7096710205078,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.09377320462501326,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.026728518772870302,
      "learning_rate": 7.6468e-06,
      "loss": 0.3628,
      "num_tokens": 41045572.0,
      "reward": 3.0327024459838867,
      "reward_std": 0.8356220722198486,
      "rewards/reward_fn/mean": 3.0327024459838867,
      "rewards/reward_fn/std": 0.8356220126152039,
      "step": 884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 858.0,
      "completions/max_terminated_length": 858.0,
      "completions/mean_length": 200.5,
      "completions/mean_terminated_length": 200.5,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.09387928291078816,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.020390488440170884,
      "learning_rate": 7.6464e-06,
      "loss": 0.0299,
      "num_tokens": 41089652.0,
      "reward": 3.96085786819458,
      "reward_std": 0.15403839945793152,
      "rewards/reward_fn/mean": 3.96085786819458,
      "rewards/reward_fn/std": 0.1540384292602539,
      "step": 885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1878.0,
      "completions/mean_length": 977.59375,
      "completions/mean_terminated_length": 943.0645141601562,
      "completions/min_length": 375.0,
      "completions/min_terminated_length": 375.0,
      "epoch": 0.09398536119656306,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.078125,
      "kl": 0.017107663094066083,
      "learning_rate": 7.646e-06,
      "loss": 0.0785,
      "num_tokens": 41176263.0,
      "reward": 2.5095417499542236,
      "reward_std": 0.5657038688659668,
      "rewards/reward_fn/mean": 2.5095417499542236,
      "rewards/reward_fn/std": 0.5657038688659668,
      "step": 886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1121.0,
      "completions/max_terminated_length": 1121.0,
      "completions/mean_length": 222.34375,
      "completions/mean_terminated_length": 222.34375,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.09409143948233796,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.01801448129117489,
      "learning_rate": 7.6456e-06,
      "loss": -0.0125,
      "num_tokens": 41209234.0,
      "reward": 2.8958828449249268,
      "reward_std": 0.20669691264629364,
      "rewards/reward_fn/mean": 2.8958828449249268,
      "rewards/reward_fn/std": 0.20669691264629364,
      "step": 887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1028.0,
      "completions/max_terminated_length": 1028.0,
      "completions/mean_length": 300.0,
      "completions/mean_terminated_length": 300.0,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.09419751776811287,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.015553548815660179,
      "learning_rate": 7.6452e-06,
      "loss": 0.0764,
      "num_tokens": 41254418.0,
      "reward": 3.924589157104492,
      "reward_std": 0.4265884757041931,
      "rewards/reward_fn/mean": 3.924589157104492,
      "rewards/reward_fn/std": 0.4265885055065155,
      "step": 888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 517.0,
      "completions/max_terminated_length": 517.0,
      "completions/mean_length": 157.1875,
      "completions/mean_terminated_length": 157.1875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.09430359605388777,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1552734375,
      "kl": 0.03170281834900379,
      "learning_rate": 7.6448e-06,
      "loss": 0.0013,
      "num_tokens": 41298296.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 674.0,
      "completions/max_terminated_length": 674.0,
      "completions/mean_length": 204.5,
      "completions/mean_terminated_length": 204.5,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.09440967433966267,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.03371644695289433,
      "learning_rate": 7.6444e-06,
      "loss": 0.0301,
      "num_tokens": 41342216.0,
      "reward": 3.099053382873535,
      "reward_std": 0.3049076199531555,
      "rewards/reward_fn/mean": 3.099053382873535,
      "rewards/reward_fn/std": 0.3049076497554779,
      "step": 890
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 386.0,
      "completions/max_terminated_length": 386.0,
      "completions/mean_length": 184.71875,
      "completions/mean_terminated_length": 184.71875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.09451575262543757,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.625,
      "kl": 0.02772973943501711,
      "learning_rate": 7.644e-06,
      "loss": 0.1017,
      "num_tokens": 41380127.0,
      "reward": 3.9672179222106934,
      "reward_std": 0.18544383347034454,
      "rewards/reward_fn/mean": 3.9672179222106934,
      "rewards/reward_fn/std": 0.18544386327266693,
      "step": 891
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.0,
      "completions/max_terminated_length": 377.0,
      "completions/mean_length": 252.875,
      "completions/mean_terminated_length": 252.875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.09462183091121247,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09423828125,
      "kl": 0.022775678196921945,
      "learning_rate": 7.643599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 41434459.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 463.28125,
      "completions/mean_terminated_length": 412.1612854003906,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.09472790919698737,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.022876902716234326,
      "learning_rate": 7.6432e-06,
      "loss": 0.2348,
      "num_tokens": 41483044.0,
      "reward": 3.818485736846924,
      "reward_std": 0.7323809266090393,
      "rewards/reward_fn/mean": 3.818485736846924,
      "rewards/reward_fn/std": 0.7323809266090393,
      "step": 893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1393.0,
      "completions/max_terminated_length": 1393.0,
      "completions/mean_length": 417.28125,
      "completions/mean_terminated_length": 417.28125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.09483398748276228,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.02479085512459278,
      "learning_rate": 7.6428e-06,
      "loss": -0.0023,
      "num_tokens": 41526541.0,
      "reward": 3.401907444000244,
      "reward_std": 0.5439134240150452,
      "rewards/reward_fn/mean": 3.401907444000244,
      "rewards/reward_fn/std": 0.5439134240150452,
      "step": 894
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 489.0,
      "completions/max_terminated_length": 489.0,
      "completions/mean_length": 137.875,
      "completions/mean_terminated_length": 137.875,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.09494006576853718,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.27734375,
      "kl": 0.03966691764071584,
      "learning_rate": 7.6424e-06,
      "loss": 0.0016,
      "num_tokens": 41574281.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 280.8125,
      "completions/mean_terminated_length": 280.8125,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.09504614405431208,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.022205424029380083,
      "learning_rate": 7.642e-06,
      "loss": -0.0289,
      "num_tokens": 41623075.0,
      "reward": 3.148716688156128,
      "reward_std": 0.39955171942710876,
      "rewards/reward_fn/mean": 3.148716688156128,
      "rewards/reward_fn/std": 0.3995516896247864,
      "step": 896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1307.0,
      "completions/max_terminated_length": 1307.0,
      "completions/mean_length": 313.78125,
      "completions/mean_terminated_length": 313.78125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.09515222234008698,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.02836911752820015,
      "learning_rate": 7.6416e-06,
      "loss": 0.0118,
      "num_tokens": 41669948.0,
      "reward": 3.4885735511779785,
      "reward_std": 0.6286227107048035,
      "rewards/reward_fn/mean": 3.4885735511779785,
      "rewards/reward_fn/std": 0.6286226511001587,
      "step": 897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 356.21875,
      "completions/mean_terminated_length": 356.21875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.09525830062586188,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.018277009017765522,
      "learning_rate": 7.6412e-06,
      "loss": 0.0616,
      "num_tokens": 41715267.0,
      "reward": 3.8610944747924805,
      "reward_std": 0.3736887574195862,
      "rewards/reward_fn/mean": 3.8610944747924805,
      "rewards/reward_fn/std": 0.3736887574195862,
      "step": 898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 187.0,
      "completions/max_terminated_length": 187.0,
      "completions/mean_length": 137.5625,
      "completions/mean_terminated_length": 137.5625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.0953643789116368,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.023039878346025944,
      "learning_rate": 7.6408e-06,
      "loss": -0.0044,
      "num_tokens": 41749525.0,
      "reward": 2.80351185798645,
      "reward_std": 0.03616482764482498,
      "rewards/reward_fn/mean": 2.80351185798645,
      "rewards/reward_fn/std": 0.036164846271276474,
      "step": 899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1680.0,
      "completions/mean_length": 790.65625,
      "completions/mean_terminated_length": 706.8333740234375,
      "completions/min_length": 371.0,
      "completions/min_terminated_length": 371.0,
      "epoch": 0.09547045719741169,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.02036685636267066,
      "learning_rate": 7.640399999999999e-06,
      "loss": 0.1461,
      "num_tokens": 41817514.0,
      "reward": 1.921440839767456,
      "reward_std": 0.7092944383621216,
      "rewards/reward_fn/mean": 1.921440839767456,
      "rewards/reward_fn/std": 0.7092943787574768,
      "step": 900
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 669.0,
      "completions/max_terminated_length": 669.0,
      "completions/mean_length": 280.15625,
      "completions/mean_terminated_length": 280.15625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.09557653548318659,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.01943918946199119,
      "learning_rate": 7.64e-06,
      "loss": 0.0304,
      "num_tokens": 41864623.0,
      "reward": 3.3483524322509766,
      "reward_std": 1.0586309432983398,
      "rewards/reward_fn/mean": 3.3483524322509766,
      "rewards/reward_fn/std": 1.0586309432983398,
      "step": 901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1026.0,
      "completions/max_terminated_length": 1026.0,
      "completions/mean_length": 226.78125,
      "completions/mean_terminated_length": 226.78125,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.09568261376896149,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11669921875,
      "kl": 0.02719919686205685,
      "learning_rate": 7.639599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 41918024.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 511.0,
      "completions/max_terminated_length": 511.0,
      "completions/mean_length": 323.78125,
      "completions/mean_terminated_length": 323.78125,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.09578869205473639,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.028861571103334427,
      "learning_rate": 7.6392e-06,
      "loss": -0.0134,
      "num_tokens": 41965441.0,
      "reward": 2.796419143676758,
      "reward_std": 0.3470582664012909,
      "rewards/reward_fn/mean": 2.796419143676758,
      "rewards/reward_fn/std": 0.3470582365989685,
      "step": 903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 899.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 253.96875,
      "completions/mean_terminated_length": 253.96875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.0958947703405113,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.022272631525993347,
      "learning_rate": 7.638799999999999e-06,
      "loss": -0.0688,
      "num_tokens": 42010112.0,
      "reward": 3.690798282623291,
      "reward_std": 0.5035431981086731,
      "rewards/reward_fn/mean": 3.690798282623291,
      "rewards/reward_fn/std": 0.5035431981086731,
      "step": 904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1235.0,
      "completions/max_terminated_length": 1235.0,
      "completions/mean_length": 385.0625,
      "completions/mean_terminated_length": 385.0625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.0960008486262862,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.031112836906686425,
      "learning_rate": 7.6384e-06,
      "loss": 0.0479,
      "num_tokens": 42074306.0,
      "reward": 2.775426149368286,
      "reward_std": 0.4809582829475403,
      "rewards/reward_fn/mean": 2.775426149368286,
      "rewards/reward_fn/std": 0.48095831274986267,
      "step": 905
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1885.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 313.6875,
      "completions/mean_terminated_length": 313.6875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.0961069269120611,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.020309182349592447,
      "learning_rate": 7.638e-06,
      "loss": -0.0108,
      "num_tokens": 42123544.0,
      "reward": 2.7922677993774414,
      "reward_std": 0.33847782015800476,
      "rewards/reward_fn/mean": 2.7922677993774414,
      "rewards/reward_fn/std": 0.33847787976264954,
      "step": 906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1131.0,
      "completions/max_terminated_length": 1131.0,
      "completions/mean_length": 415.65625,
      "completions/mean_terminated_length": 415.65625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.096213005197836,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.02549328119494021,
      "learning_rate": 7.6376e-06,
      "loss": 0.0944,
      "num_tokens": 42171149.0,
      "reward": 3.443866729736328,
      "reward_std": 0.6673449277877808,
      "rewards/reward_fn/mean": 3.443866729736328,
      "rewards/reward_fn/std": 0.6673449277877808,
      "step": 907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 456.0,
      "completions/max_terminated_length": 456.0,
      "completions/mean_length": 140.0,
      "completions/mean_terminated_length": 140.0,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.0963190834836109,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.134765625,
      "kl": 0.027116876328364015,
      "learning_rate": 7.6372e-06,
      "loss": 0.0011,
      "num_tokens": 42206669.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 790.0,
      "completions/max_terminated_length": 790.0,
      "completions/mean_length": 265.84375,
      "completions/mean_terminated_length": 265.84375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.0964251617693858,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.01707066618837416,
      "learning_rate": 7.6368e-06,
      "loss": 0.0234,
      "num_tokens": 42253128.0,
      "reward": 2.9526233673095703,
      "reward_std": 0.3429475724697113,
      "rewards/reward_fn/mean": 2.9526233673095703,
      "rewards/reward_fn/std": 0.3429475724697113,
      "step": 909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 179.0,
      "completions/max_terminated_length": 179.0,
      "completions/mean_length": 121.71875,
      "completions/mean_terminated_length": 121.71875,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.09653124005516071,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.19140625,
      "kl": 0.029393920907750726,
      "learning_rate": 7.6364e-06,
      "loss": 0.0012,
      "num_tokens": 42296863.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 910
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1530.0,
      "completions/max_terminated_length": 1530.0,
      "completions/mean_length": 290.84375,
      "completions/mean_terminated_length": 290.84375,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.09663731834093561,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02383925556205213,
      "learning_rate": 7.636e-06,
      "loss": 0.0789,
      "num_tokens": 42336154.0,
      "reward": 2.788799524307251,
      "reward_std": 0.29157719016075134,
      "rewards/reward_fn/mean": 2.788799524307251,
      "rewards/reward_fn/std": 0.29157716035842896,
      "step": 911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 634.0,
      "completions/max_terminated_length": 634.0,
      "completions/mean_length": 230.71875,
      "completions/mean_terminated_length": 230.71875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.09674339662671051,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.027955673867836595,
      "learning_rate": 7.6356e-06,
      "loss": -0.0334,
      "num_tokens": 42378865.0,
      "reward": 2.8833703994750977,
      "reward_std": 0.21842359006404877,
      "rewards/reward_fn/mean": 2.8833703994750977,
      "rewards/reward_fn/std": 0.21842356026172638,
      "step": 912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 789.0,
      "completions/max_terminated_length": 789.0,
      "completions/mean_length": 169.0,
      "completions/mean_terminated_length": 169.0,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.09684947491248541,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11962890625,
      "kl": 0.030652977991849184,
      "learning_rate": 7.6352e-06,
      "loss": 0.0012,
      "num_tokens": 42412497.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 913
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 965.0,
      "completions/max_terminated_length": 965.0,
      "completions/mean_length": 320.3125,
      "completions/mean_terminated_length": 320.3125,
      "completions/min_length": 232.0,
      "completions/min_terminated_length": 232.0,
      "epoch": 0.09695555319826031,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2421875,
      "kl": 0.027334638172760606,
      "learning_rate": 7.6348e-06,
      "loss": -0.0232,
      "num_tokens": 42459707.0,
      "reward": 3.9664275646209717,
      "reward_std": 0.18991468846797943,
      "rewards/reward_fn/mean": 3.9664275646209717,
      "rewards/reward_fn/std": 0.18991467356681824,
      "step": 914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1007.0,
      "completions/max_terminated_length": 1007.0,
      "completions/mean_length": 287.5,
      "completions/mean_terminated_length": 287.5,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.09706163148403522,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.026974455220624804,
      "learning_rate": 7.6344e-06,
      "loss": 0.0048,
      "num_tokens": 42512107.0,
      "reward": 2.9059715270996094,
      "reward_std": 0.3558712303638458,
      "rewards/reward_fn/mean": 2.9059715270996094,
      "rewards/reward_fn/std": 0.3558712303638458,
      "step": 915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 733.0,
      "completions/max_terminated_length": 733.0,
      "completions/mean_length": 261.1875,
      "completions/mean_terminated_length": 261.1875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.09716770976981012,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.024873450631275773,
      "learning_rate": 7.634e-06,
      "loss": 0.0466,
      "num_tokens": 42561489.0,
      "reward": 3.0658812522888184,
      "reward_std": 0.45738157629966736,
      "rewards/reward_fn/mean": 3.0658812522888184,
      "rewards/reward_fn/std": 0.45738163590431213,
      "step": 916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 764.0,
      "completions/max_terminated_length": 764.0,
      "completions/mean_length": 134.875,
      "completions/mean_terminated_length": 134.875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.09727378805558502,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.17578125,
      "kl": 0.02832574676722288,
      "learning_rate": 7.6336e-06,
      "loss": 0.0011,
      "num_tokens": 42610765.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 448.0,
      "completions/max_terminated_length": 448.0,
      "completions/mean_length": 276.375,
      "completions/mean_terminated_length": 276.375,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.09737986634135992,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.022886406630277634,
      "learning_rate": 7.6332e-06,
      "loss": -0.0003,
      "num_tokens": 42658553.0,
      "reward": 3.8918814659118652,
      "reward_std": 0.4476149380207062,
      "rewards/reward_fn/mean": 3.8918814659118652,
      "rewards/reward_fn/std": 0.4476148784160614,
      "step": 918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 786.0,
      "completions/max_terminated_length": 786.0,
      "completions/mean_length": 377.375,
      "completions/mean_terminated_length": 377.375,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.09748594462713482,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.014997152611613274,
      "learning_rate": 7.6328e-06,
      "loss": 0.0899,
      "num_tokens": 42718917.0,
      "reward": 3.833319664001465,
      "reward_std": 0.44810566306114197,
      "rewards/reward_fn/mean": 3.833319664001465,
      "rewards/reward_fn/std": 0.4481056332588196,
      "step": 919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1032.0,
      "completions/max_terminated_length": 1032.0,
      "completions/mean_length": 214.65625,
      "completions/mean_terminated_length": 214.65625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.09759202291290972,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.126953125,
      "kl": 0.026748921489343047,
      "learning_rate": 7.6324e-06,
      "loss": 0.0011,
      "num_tokens": 42766810.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 920
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 433.0,
      "completions/max_terminated_length": 433.0,
      "completions/mean_length": 277.9375,
      "completions/mean_terminated_length": 277.9375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.09769810119868463,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.029225841630250216,
      "learning_rate": 7.631999999999999e-06,
      "loss": -0.0142,
      "num_tokens": 42812408.0,
      "reward": 3.3031575679779053,
      "reward_std": 0.5849432945251465,
      "rewards/reward_fn/mean": 3.3031575679779053,
      "rewards/reward_fn/std": 0.5849433541297913,
      "step": 921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 80.0,
      "completions/max_terminated_length": 80.0,
      "completions/mean_length": 72.1875,
      "completions/mean_terminated_length": 72.1875,
      "completions/min_length": 54.0,
      "completions/min_terminated_length": 54.0,
      "epoch": 0.09780417948445953,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.228515625,
      "kl": 0.01937575329793617,
      "learning_rate": 7.6316e-06,
      "loss": 0.0008,
      "num_tokens": 42856382.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 460.0,
      "completions/max_terminated_length": 460.0,
      "completions/mean_length": 300.40625,
      "completions/mean_terminated_length": 300.40625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.09791025777023443,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.04207867290824652,
      "learning_rate": 7.631199999999999e-06,
      "loss": 0.0742,
      "num_tokens": 42903371.0,
      "reward": 3.767624855041504,
      "reward_std": 0.5340158939361572,
      "rewards/reward_fn/mean": 3.767624855041504,
      "rewards/reward_fn/std": 0.5340158343315125,
      "step": 923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1156.0,
      "completions/max_terminated_length": 1156.0,
      "completions/mean_length": 324.9375,
      "completions/mean_terminated_length": 324.9375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.09801633605600933,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.027455645380541682,
      "learning_rate": 7.6308e-06,
      "loss": -0.0995,
      "num_tokens": 42947977.0,
      "reward": 3.0452606678009033,
      "reward_std": 0.368459552526474,
      "rewards/reward_fn/mean": 3.0452606678009033,
      "rewards/reward_fn/std": 0.368459552526474,
      "step": 924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 896.0,
      "completions/mean_length": 472.5,
      "completions/mean_terminated_length": 421.6773986816406,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.09812241434178423,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.01985622337087989,
      "learning_rate": 7.630399999999999e-06,
      "loss": 0.2311,
      "num_tokens": 42978681.0,
      "reward": 2.82580828666687,
      "reward_std": 0.7253391146659851,
      "rewards/reward_fn/mean": 2.82580828666687,
      "rewards/reward_fn/std": 0.7253391742706299,
      "step": 925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 686.0,
      "completions/max_terminated_length": 686.0,
      "completions/mean_length": 411.09375,
      "completions/mean_terminated_length": 411.09375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.09822849262755914,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.03032882115803659,
      "learning_rate": 7.63e-06,
      "loss": 0.0001,
      "num_tokens": 43022940.0,
      "reward": 3.6942696571350098,
      "reward_std": 0.6968668699264526,
      "rewards/reward_fn/mean": 3.6942696571350098,
      "rewards/reward_fn/std": 0.6968669295310974,
      "step": 926
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 888.0,
      "completions/max_terminated_length": 888.0,
      "completions/mean_length": 238.1875,
      "completions/mean_terminated_length": 238.1875,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.09833457091333404,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.035402664449065924,
      "learning_rate": 7.629599999999999e-06,
      "loss": 0.0078,
      "num_tokens": 43059234.0,
      "reward": 3.816627025604248,
      "reward_std": 0.39149269461631775,
      "rewards/reward_fn/mean": 3.816627025604248,
      "rewards/reward_fn/std": 0.39149269461631775,
      "step": 927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 538.0,
      "completions/max_terminated_length": 538.0,
      "completions/mean_length": 207.5625,
      "completions/mean_terminated_length": 207.5625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.09844064919910894,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.025182449258863926,
      "learning_rate": 7.6292e-06,
      "loss": 0.013,
      "num_tokens": 43098900.0,
      "reward": 3.970850944519043,
      "reward_std": 0.16489259898662567,
      "rewards/reward_fn/mean": 3.970850944519043,
      "rewards/reward_fn/std": 0.16489258408546448,
      "step": 928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1068.0,
      "completions/max_terminated_length": 1068.0,
      "completions/mean_length": 260.90625,
      "completions/mean_terminated_length": 260.90625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.09854672748488384,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.0351427448913455,
      "learning_rate": 7.6288e-06,
      "loss": -0.0097,
      "num_tokens": 43140209.0,
      "reward": 3.0380711555480957,
      "reward_std": 0.37293097376823425,
      "rewards/reward_fn/mean": 3.0380711555480957,
      "rewards/reward_fn/std": 0.37293094396591187,
      "step": 929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1932.0,
      "completions/mean_length": 742.28125,
      "completions/mean_terminated_length": 655.2333374023438,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.09865280577065874,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.019054226577281952,
      "learning_rate": 7.6284e-06,
      "loss": 0.31,
      "num_tokens": 43201562.0,
      "reward": 2.4119246006011963,
      "reward_std": 0.6986344456672668,
      "rewards/reward_fn/mean": 2.4119246006011963,
      "rewards/reward_fn/std": 0.6986343860626221,
      "step": 930
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 248.0,
      "completions/max_terminated_length": 248.0,
      "completions/mean_length": 144.28125,
      "completions/mean_terminated_length": 144.28125,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.09875888405643365,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09814453125,
      "kl": 0.02223593066446483,
      "learning_rate": 7.628e-06,
      "loss": 0.0009,
      "num_tokens": 43242531.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 931
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1766.0,
      "completions/max_terminated_length": 1766.0,
      "completions/mean_length": 392.96875,
      "completions/mean_terminated_length": 392.96875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.09886496234220855,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.019913258031010628,
      "learning_rate": 7.6276e-06,
      "loss": 0.0549,
      "num_tokens": 43291458.0,
      "reward": 3.416562080383301,
      "reward_std": 0.694709300994873,
      "rewards/reward_fn/mean": 3.416562080383301,
      "rewards/reward_fn/std": 0.694709300994873,
      "step": 932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1833.0,
      "completions/mean_length": 476.09375,
      "completions/mean_terminated_length": 425.3870849609375,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.09897104062798345,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.022749242838472128,
      "learning_rate": 7.6272e-06,
      "loss": 0.2832,
      "num_tokens": 43340805.0,
      "reward": 3.8043880462646484,
      "reward_std": 0.7476766109466553,
      "rewards/reward_fn/mean": 3.8043880462646484,
      "rewards/reward_fn/std": 0.7476766109466553,
      "step": 933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 560.71875,
      "completions/mean_terminated_length": 461.5666809082031,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.09907711891375835,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.02255812706425786,
      "learning_rate": 7.6267999999999996e-06,
      "loss": 0.1704,
      "num_tokens": 43409628.0,
      "reward": 3.572598934173584,
      "reward_std": 1.1030330657958984,
      "rewards/reward_fn/mean": 3.572598934173584,
      "rewards/reward_fn/std": 1.1030330657958984,
      "step": 934
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 688.0,
      "completions/max_terminated_length": 688.0,
      "completions/mean_length": 477.0,
      "completions/mean_terminated_length": 477.0,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.09918319719953325,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.017629666137509048,
      "learning_rate": 7.6263999999999995e-06,
      "loss": -0.0552,
      "num_tokens": 43443996.0,
      "reward": 2.8076069355010986,
      "reward_std": 0.29366716742515564,
      "rewards/reward_fn/mean": 2.8076069355010986,
      "rewards/reward_fn/std": 0.29366716742515564,
      "step": 935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1123.0,
      "completions/max_terminated_length": 1123.0,
      "completions/mean_length": 305.6875,
      "completions/mean_terminated_length": 305.6875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.09928927548530815,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.02135719486977905,
      "learning_rate": 7.626e-06,
      "loss": 0.0887,
      "num_tokens": 43491442.0,
      "reward": 3.76924991607666,
      "reward_std": 0.48810887336730957,
      "rewards/reward_fn/mean": 3.76924991607666,
      "rewards/reward_fn/std": 0.4881088435649872,
      "step": 936
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 170.0,
      "completions/max_terminated_length": 170.0,
      "completions/mean_length": 144.9375,
      "completions/mean_terminated_length": 144.9375,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.09939535377108306,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.024941423209384084,
      "learning_rate": 7.6256e-06,
      "loss": 0.001,
      "num_tokens": 43530480.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 978.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 505.1875,
      "completions/mean_terminated_length": 505.1875,
      "completions/min_length": 299.0,
      "completions/min_terminated_length": 299.0,
      "epoch": 0.09950143205685796,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.0277643243316561,
      "learning_rate": 7.6252e-06,
      "loss": 0.0105,
      "num_tokens": 43579542.0,
      "reward": 2.689387321472168,
      "reward_std": 0.519531786441803,
      "rewards/reward_fn/mean": 2.689387321472168,
      "rewards/reward_fn/std": 0.519531786441803,
      "step": 938
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 251.0,
      "completions/max_terminated_length": 251.0,
      "completions/mean_length": 156.46875,
      "completions/mean_terminated_length": 156.46875,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.09960751034263286,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.4375,
      "kl": 0.024052355904132128,
      "learning_rate": 7.624799999999999e-06,
      "loss": 0.0352,
      "num_tokens": 43613061.0,
      "reward": 3.1143696308135986,
      "reward_std": 0.43374985456466675,
      "rewards/reward_fn/mean": 3.1143696308135986,
      "rewards/reward_fn/std": 0.43374985456466675,
      "step": 939
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1454.0,
      "completions/max_terminated_length": 1454.0,
      "completions/mean_length": 422.25,
      "completions/mean_terminated_length": 422.25,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.09971358862840776,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.027861488750204444,
      "learning_rate": 7.624399999999999e-06,
      "loss": 0.269,
      "num_tokens": 43657805.0,
      "reward": 2.7488107681274414,
      "reward_std": 0.2731390595436096,
      "rewards/reward_fn/mean": 2.7488107681274414,
      "rewards/reward_fn/std": 0.27313902974128723,
      "step": 940
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 455.0,
      "completions/max_terminated_length": 455.0,
      "completions/mean_length": 310.46875,
      "completions/mean_terminated_length": 310.46875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.09981966691418266,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.01709406217560172,
      "learning_rate": 7.623999999999999e-06,
      "loss": -0.0491,
      "num_tokens": 43689948.0,
      "reward": 3.244318723678589,
      "reward_std": 0.6297351121902466,
      "rewards/reward_fn/mean": 3.244318723678589,
      "rewards/reward_fn/std": 0.6297351121902466,
      "step": 941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 776.0,
      "completions/max_terminated_length": 776.0,
      "completions/mean_length": 236.59375,
      "completions/mean_terminated_length": 236.59375,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.09992574519995757,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.029757092706859112,
      "learning_rate": 7.623599999999999e-06,
      "loss": -0.0306,
      "num_tokens": 43729743.0,
      "reward": 3.699985980987549,
      "reward_std": 0.48831066489219666,
      "rewards/reward_fn/mean": 3.699985980987549,
      "rewards/reward_fn/std": 0.48831063508987427,
      "step": 942
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1085.0,
      "completions/max_terminated_length": 1085.0,
      "completions/mean_length": 359.71875,
      "completions/mean_terminated_length": 359.71875,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.10003182348573247,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.0185692491941154,
      "learning_rate": 7.623199999999999e-06,
      "loss": 0.0006,
      "num_tokens": 43781254.0,
      "reward": 3.932116985321045,
      "reward_std": 0.38400447368621826,
      "rewards/reward_fn/mean": 3.932116985321045,
      "rewards/reward_fn/std": 0.38400450348854065,
      "step": 943
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 706.0,
      "completions/max_terminated_length": 706.0,
      "completions/mean_length": 215.125,
      "completions/mean_terminated_length": 215.125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.10013790177150737,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08349609375,
      "kl": 0.022619884461164474,
      "learning_rate": 7.622799999999999e-06,
      "loss": 0.0009,
      "num_tokens": 43821258.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 242.0,
      "completions/max_terminated_length": 242.0,
      "completions/mean_length": 129.46875,
      "completions/mean_terminated_length": 129.46875,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.10024398005728227,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5,
      "kl": 0.030272313859313726,
      "learning_rate": 7.622399999999999e-06,
      "loss": -0.0063,
      "num_tokens": 43859129.0,
      "reward": 3.9288439750671387,
      "reward_std": 0.28039026260375977,
      "rewards/reward_fn/mean": 3.9288439750671387,
      "rewards/reward_fn/std": 0.2803902328014374,
      "step": 945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1575.0,
      "completions/max_terminated_length": 1575.0,
      "completions/mean_length": 345.75,
      "completions/mean_terminated_length": 345.75,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.10035005834305717,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.022123834351077676,
      "learning_rate": 7.621999999999999e-06,
      "loss": -0.064,
      "num_tokens": 43899505.0,
      "reward": 2.691455364227295,
      "reward_std": 0.3160874843597412,
      "rewards/reward_fn/mean": 2.691455364227295,
      "rewards/reward_fn/std": 0.3160874545574188,
      "step": 946
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1028.0,
      "completions/max_terminated_length": 1028.0,
      "completions/mean_length": 164.59375,
      "completions/mean_terminated_length": 164.59375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.10045613662883207,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.125,
      "kl": 0.027731532929465175,
      "learning_rate": 7.6216e-06,
      "loss": 0.0011,
      "num_tokens": 43945348.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 947
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 605.0,
      "completions/max_terminated_length": 605.0,
      "completions/mean_length": 211.8125,
      "completions/mean_terminated_length": 211.8125,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.10056221491460698,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.0301664131693542,
      "learning_rate": 7.6212e-06,
      "loss": -0.0287,
      "num_tokens": 43992798.0,
      "reward": 3.930818796157837,
      "reward_std": 0.3913477957248688,
      "rewards/reward_fn/mean": 3.930818796157837,
      "rewards/reward_fn/std": 0.391347736120224,
      "step": 948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1828.0,
      "completions/max_terminated_length": 1828.0,
      "completions/mean_length": 496.125,
      "completions/mean_terminated_length": 496.125,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.10066829320038188,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.019181253854185343,
      "learning_rate": 7.6208e-06,
      "loss": 0.0394,
      "num_tokens": 44044322.0,
      "reward": 3.3273301124572754,
      "reward_std": 0.7396343946456909,
      "rewards/reward_fn/mean": 3.3273301124572754,
      "rewards/reward_fn/std": 0.7396343946456909,
      "step": 949
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1993.0,
      "completions/max_terminated_length": 1993.0,
      "completions/mean_length": 602.75,
      "completions/mean_terminated_length": 602.75,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.10077437148615678,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.028830960392951965,
      "learning_rate": 7.6204e-06,
      "loss": -0.0344,
      "num_tokens": 44096154.0,
      "reward": 1.9313682317733765,
      "reward_std": 0.4274498224258423,
      "rewards/reward_fn/mean": 1.9313682317733765,
      "rewards/reward_fn/std": 0.4274497926235199,
      "step": 950
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1048.0,
      "completions/max_terminated_length": 1048.0,
      "completions/mean_length": 310.3125,
      "completions/mean_terminated_length": 310.3125,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.10088044977193168,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.025494011351838708,
      "learning_rate": 7.62e-06,
      "loss": 0.1634,
      "num_tokens": 44178660.0,
      "reward": 3.572533369064331,
      "reward_std": 0.6003016233444214,
      "rewards/reward_fn/mean": 3.572533369064331,
      "rewards/reward_fn/std": 0.6003016829490662,
      "step": 951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 385.1875,
      "completions/mean_terminated_length": 385.1875,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.10098652805770658,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.021688956068828702,
      "learning_rate": 7.6196e-06,
      "loss": 0.0484,
      "num_tokens": 44213994.0,
      "reward": 3.7324137687683105,
      "reward_std": 0.669641375541687,
      "rewards/reward_fn/mean": 3.7324137687683105,
      "rewards/reward_fn/std": 0.669641375541687,
      "step": 952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 743.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 322.71875,
      "completions/mean_terminated_length": 322.71875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.1010926063434815,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.020461396779865026,
      "learning_rate": 7.6192e-06,
      "loss": -0.0531,
      "num_tokens": 44267777.0,
      "reward": 3.1110587120056152,
      "reward_std": 0.43503865599632263,
      "rewards/reward_fn/mean": 3.1110587120056152,
      "rewards/reward_fn/std": 0.43503862619400024,
      "step": 953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 438.0,
      "completions/max_terminated_length": 438.0,
      "completions/mean_length": 244.84375,
      "completions/mean_terminated_length": 244.84375,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.1011986846292564,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.021231455844826996,
      "learning_rate": 7.6188e-06,
      "loss": 0.0719,
      "num_tokens": 44324988.0,
      "reward": 3.789945602416992,
      "reward_std": 0.5255440473556519,
      "rewards/reward_fn/mean": 3.789945602416992,
      "rewards/reward_fn/std": 0.5255439877510071,
      "step": 954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1725.0,
      "completions/mean_length": 539.4375,
      "completions/mean_terminated_length": 490.774169921875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.1013047629150313,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.019856604980304837,
      "learning_rate": 7.6184e-06,
      "loss": 0.0295,
      "num_tokens": 44379306.0,
      "reward": 1.9409844875335693,
      "reward_std": 0.5565598011016846,
      "rewards/reward_fn/mean": 1.9409844875335693,
      "rewards/reward_fn/std": 0.5565597414970398,
      "step": 955
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 782.0,
      "completions/mean_length": 499.71875,
      "completions/mean_terminated_length": 449.774169921875,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.10141084120080619,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.025161937111988664,
      "learning_rate": 7.618e-06,
      "loss": 0.1219,
      "num_tokens": 44439393.0,
      "reward": 2.661538600921631,
      "reward_std": 0.39979878067970276,
      "rewards/reward_fn/mean": 2.661538600921631,
      "rewards/reward_fn/std": 0.399798721075058,
      "step": 956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1571.0,
      "completions/max_terminated_length": 1571.0,
      "completions/mean_length": 397.9375,
      "completions/mean_terminated_length": 397.9375,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.10151691948658109,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.027824259363114834,
      "learning_rate": 7.6176e-06,
      "loss": -0.0297,
      "num_tokens": 44486335.0,
      "reward": 2.802313804626465,
      "reward_std": 0.21157807111740112,
      "rewards/reward_fn/mean": 2.802313804626465,
      "rewards/reward_fn/std": 0.21157805621623993,
      "step": 957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 925.0,
      "completions/max_terminated_length": 925.0,
      "completions/mean_length": 458.6875,
      "completions/mean_terminated_length": 458.6875,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.101622997772356,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.01801618025638163,
      "learning_rate": 7.6172e-06,
      "loss": 0.0008,
      "num_tokens": 44541941.0,
      "reward": 2.776561737060547,
      "reward_std": 0.20328201353549957,
      "rewards/reward_fn/mean": 2.776561737060547,
      "rewards/reward_fn/std": 0.20328204333782196,
      "step": 958
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1326.0,
      "completions/max_terminated_length": 1326.0,
      "completions/mean_length": 260.125,
      "completions/mean_terminated_length": 260.125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.1017290760581309,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.03001307207159698,
      "learning_rate": 7.6168e-06,
      "loss": -0.0721,
      "num_tokens": 44599129.0,
      "reward": 3.648618221282959,
      "reward_std": 0.493778258562088,
      "rewards/reward_fn/mean": 3.648618221282959,
      "rewards/reward_fn/std": 0.4937782883644104,
      "step": 959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 214.0,
      "completions/max_terminated_length": 214.0,
      "completions/mean_length": 149.3125,
      "completions/mean_terminated_length": 149.3125,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.1018351543439058,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.03182677808217704,
      "learning_rate": 7.6164e-06,
      "loss": -0.0079,
      "num_tokens": 44627427.0,
      "reward": 3.9289231300354004,
      "reward_std": 0.4020720422267914,
      "rewards/reward_fn/mean": 3.9289231300354004,
      "rewards/reward_fn/std": 0.4020719826221466,
      "step": 960
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 791.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 195.65625,
      "completions/mean_terminated_length": 195.65625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.1019412326296807,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08935546875,
      "kl": 0.025319629814475775,
      "learning_rate": 7.616e-06,
      "loss": 0.001,
      "num_tokens": 44652216.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 256.0,
      "completions/max_terminated_length": 256.0,
      "completions/mean_length": 155.125,
      "completions/mean_terminated_length": 155.125,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.1020473109154556,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.625,
      "kl": 0.03323507239110768,
      "learning_rate": 7.6155999999999996e-06,
      "loss": 0.1249,
      "num_tokens": 44690076.0,
      "reward": 2.9434142112731934,
      "reward_std": 0.04483083263039589,
      "rewards/reward_fn/mean": 2.9434142112731934,
      "rewards/reward_fn/std": 0.044830840080976486,
      "step": 962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 948.0,
      "completions/max_terminated_length": 948.0,
      "completions/mean_length": 269.8125,
      "completions/mean_terminated_length": 269.8125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.1021533892012305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.04052834562025964,
      "learning_rate": 7.6151999999999995e-06,
      "loss": 0.0596,
      "num_tokens": 44742006.0,
      "reward": 3.814697265625,
      "reward_std": 0.4385845363140106,
      "rewards/reward_fn/mean": 3.814697265625,
      "rewards/reward_fn/std": 0.43858450651168823,
      "step": 963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 567.0,
      "completions/max_terminated_length": 567.0,
      "completions/mean_length": 337.90625,
      "completions/mean_terminated_length": 337.90625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.10225946748700541,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.027457768563181162,
      "learning_rate": 7.6147999999999995e-06,
      "loss": 0.0372,
      "num_tokens": 44779315.0,
      "reward": 3.6313183307647705,
      "reward_std": 0.5176029205322266,
      "rewards/reward_fn/mean": 3.6313183307647705,
      "rewards/reward_fn/std": 0.5176029801368713,
      "step": 964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1231.0,
      "completions/max_terminated_length": 1231.0,
      "completions/mean_length": 328.5,
      "completions/mean_terminated_length": 328.5,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.10236554577278031,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.023238977417349815,
      "learning_rate": 7.6143999999999995e-06,
      "loss": 0.0578,
      "num_tokens": 44820835.0,
      "reward": 2.8203535079956055,
      "reward_std": 0.028799260035157204,
      "rewards/reward_fn/mean": 2.8203535079956055,
      "rewards/reward_fn/std": 0.028799280524253845,
      "step": 965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1401.0,
      "completions/mean_length": 591.9375,
      "completions/mean_terminated_length": 544.9677124023438,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.10247162405855521,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.018361143651418388,
      "learning_rate": 7.6139999999999994e-06,
      "loss": 0.212,
      "num_tokens": 44876033.0,
      "reward": 2.5604774951934814,
      "reward_std": 0.6667385101318359,
      "rewards/reward_fn/mean": 2.5604774951934814,
      "rewards/reward_fn/std": 0.6667385101318359,
      "step": 966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 232.0,
      "completions/max_terminated_length": 232.0,
      "completions/mean_length": 167.6875,
      "completions/mean_terminated_length": 167.6875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.10257770234433011,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1796875,
      "kl": 0.028179120272397995,
      "learning_rate": 7.613599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 44924119.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 727.0,
      "completions/max_terminated_length": 727.0,
      "completions/mean_length": 346.5,
      "completions/mean_terminated_length": 346.5,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.10268378063010501,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.027506219688802958,
      "learning_rate": 7.613199999999999e-06,
      "loss": 0.0885,
      "num_tokens": 44979431.0,
      "reward": 2.5675511360168457,
      "reward_std": 0.48671212792396545,
      "rewards/reward_fn/mean": 2.5675511360168457,
      "rewards/reward_fn/std": 0.48671212792396545,
      "step": 968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1400.0,
      "completions/max_terminated_length": 1400.0,
      "completions/mean_length": 320.90625,
      "completions/mean_terminated_length": 320.90625,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.10278985891587993,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.02348879328928888,
      "learning_rate": 7.612799999999999e-06,
      "loss": 0.0561,
      "num_tokens": 45025924.0,
      "reward": 3.9348433017730713,
      "reward_std": 0.25716766715049744,
      "rewards/reward_fn/mean": 3.9348433017730713,
      "rewards/reward_fn/std": 0.25716766715049744,
      "step": 969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 485.0,
      "completions/mean_length": 348.03125,
      "completions/mean_terminated_length": 293.19354248046875,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.10289593720165482,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.02728769346140325,
      "learning_rate": 7.612399999999999e-06,
      "loss": 0.299,
      "num_tokens": 45080165.0,
      "reward": 3.480499744415283,
      "reward_std": 0.8933743834495544,
      "rewards/reward_fn/mean": 3.480499744415283,
      "rewards/reward_fn/std": 0.8933743834495544,
      "step": 970
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 825.0,
      "completions/max_terminated_length": 825.0,
      "completions/mean_length": 227.75,
      "completions/mean_terminated_length": 227.75,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.10300201548742972,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.027561142342165112,
      "learning_rate": 7.612e-06,
      "loss": -0.0759,
      "num_tokens": 45130973.0,
      "reward": 3.857459783554077,
      "reward_std": 0.33770760893821716,
      "rewards/reward_fn/mean": 3.857459783554077,
      "rewards/reward_fn/std": 0.3377075791358948,
      "step": 971
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 638.0,
      "completions/max_terminated_length": 638.0,
      "completions/mean_length": 299.78125,
      "completions/mean_terminated_length": 299.78125,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.10310809377320462,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.02726740762591362,
      "learning_rate": 7.6116e-06,
      "loss": -0.0207,
      "num_tokens": 45169302.0,
      "reward": 2.7473816871643066,
      "reward_std": 0.1762368530035019,
      "rewards/reward_fn/mean": 2.7473816871643066,
      "rewards/reward_fn/std": 0.1762368530035019,
      "step": 972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 157.0,
      "completions/max_terminated_length": 157.0,
      "completions/mean_length": 101.09375,
      "completions/mean_terminated_length": 101.09375,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.10321417205897952,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.033008648082613945,
      "learning_rate": 7.6112e-06,
      "loss": 0.0013,
      "num_tokens": 45197241.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 469.0,
      "completions/max_terminated_length": 469.0,
      "completions/mean_length": 285.46875,
      "completions/mean_terminated_length": 285.46875,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.10332025034475444,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.02396201086230576,
      "learning_rate": 7.6108e-06,
      "loss": 0.0925,
      "num_tokens": 45240744.0,
      "reward": 1.7027685642242432,
      "reward_std": 0.03398967534303665,
      "rewards/reward_fn/mean": 1.7027685642242432,
      "rewards/reward_fn/std": 0.03398967534303665,
      "step": 974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.0,
      "completions/max_terminated_length": 350.0,
      "completions/mean_length": 194.375,
      "completions/mean_terminated_length": 194.375,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.10342632863052934,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1044921875,
      "kl": 0.031388872768729925,
      "learning_rate": 7.6104e-06,
      "loss": 0.0013,
      "num_tokens": 45280020.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1202.0,
      "completions/max_terminated_length": 1202.0,
      "completions/mean_length": 226.59375,
      "completions/mean_terminated_length": 226.59375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.10353240691630423,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.03019576147198677,
      "learning_rate": 7.61e-06,
      "loss": -0.0612,
      "num_tokens": 45328007.0,
      "reward": 3.906989336013794,
      "reward_std": 0.30038613080978394,
      "rewards/reward_fn/mean": 3.906989336013794,
      "rewards/reward_fn/std": 0.3003861606121063,
      "step": 976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 919.0,
      "completions/max_terminated_length": 919.0,
      "completions/mean_length": 299.59375,
      "completions/mean_terminated_length": 299.59375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.10363848520207913,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.024021990364417434,
      "learning_rate": 7.6096e-06,
      "loss": -0.0009,
      "num_tokens": 45371802.0,
      "reward": 2.7480766773223877,
      "reward_std": 0.044364336878061295,
      "rewards/reward_fn/mean": 2.7480766773223877,
      "rewards/reward_fn/std": 0.0443643182516098,
      "step": 977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 610.0,
      "completions/mean_length": 388.46875,
      "completions/mean_terminated_length": 334.93548583984375,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.10374456348785403,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.021239728201180696,
      "learning_rate": 7.6092e-06,
      "loss": 0.2854,
      "num_tokens": 45415017.0,
      "reward": 3.8120007514953613,
      "reward_std": 0.7408618330955505,
      "rewards/reward_fn/mean": 3.8120007514953613,
      "rewards/reward_fn/std": 0.7408618330955505,
      "step": 978
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 794.0,
      "completions/max_terminated_length": 794.0,
      "completions/mean_length": 197.78125,
      "completions/mean_terminated_length": 197.78125,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.10385064177362893,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09033203125,
      "kl": 0.02474969206377864,
      "learning_rate": 7.608799999999999e-06,
      "loss": 0.001,
      "num_tokens": 45455330.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1123.0,
      "completions/max_terminated_length": 1123.0,
      "completions/mean_length": 413.9375,
      "completions/mean_terminated_length": 413.9375,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.10395672005940385,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.01774134172592312,
      "learning_rate": 7.608399999999999e-06,
      "loss": 0.0342,
      "num_tokens": 45504768.0,
      "reward": 2.7947754859924316,
      "reward_std": 0.048552006483078,
      "rewards/reward_fn/mean": 2.7947754859924316,
      "rewards/reward_fn/std": 0.048552028834819794,
      "step": 980
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.0,
      "completions/max_terminated_length": 308.0,
      "completions/mean_length": 203.03125,
      "completions/mean_terminated_length": 203.03125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.10406279834517874,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0927734375,
      "kl": 0.025733540067449212,
      "learning_rate": 7.607999999999999e-06,
      "loss": 0.001,
      "num_tokens": 45550593.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 477.0,
      "completions/max_terminated_length": 477.0,
      "completions/mean_length": 222.5625,
      "completions/mean_terminated_length": 222.5625,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.10416887663095364,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.023094360250979662,
      "learning_rate": 7.607599999999999e-06,
      "loss": 0.0127,
      "num_tokens": 45598131.0,
      "reward": 2.8349218368530273,
      "reward_std": 0.058446187525987625,
      "rewards/reward_fn/mean": 2.8349218368530273,
      "rewards/reward_fn/std": 0.05844619497656822,
      "step": 982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1743.0,
      "completions/max_terminated_length": 1743.0,
      "completions/mean_length": 378.90625,
      "completions/mean_terminated_length": 378.90625,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.10427495491672854,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.028874794021248817,
      "learning_rate": 7.6072e-06,
      "loss": -0.044,
      "num_tokens": 45648208.0,
      "reward": 3.8350107669830322,
      "reward_std": 0.39003050327301025,
      "rewards/reward_fn/mean": 3.8350107669830322,
      "rewards/reward_fn/std": 0.39003047347068787,
      "step": 983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 558.0,
      "completions/max_terminated_length": 558.0,
      "completions/mean_length": 232.03125,
      "completions/mean_terminated_length": 232.03125,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.10438103320250344,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.0243125488050282,
      "learning_rate": 7.6068e-06,
      "loss": 0.0304,
      "num_tokens": 45700241.0,
      "reward": 3.8992538452148438,
      "reward_std": 0.3183940649032593,
      "rewards/reward_fn/mean": 3.8992538452148438,
      "rewards/reward_fn/std": 0.3183940649032593,
      "step": 984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 663.0,
      "completions/max_terminated_length": 663.0,
      "completions/mean_length": 215.53125,
      "completions/mean_terminated_length": 215.53125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.10448711148827836,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.05102335708215833,
      "learning_rate": 7.6064e-06,
      "loss": -0.0175,
      "num_tokens": 45759362.0,
      "reward": 3.928581476211548,
      "reward_std": 0.40400430560112,
      "rewards/reward_fn/mean": 3.928581476211548,
      "rewards/reward_fn/std": 0.40400430560112,
      "step": 985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 861.0,
      "completions/max_terminated_length": 861.0,
      "completions/mean_length": 509.96875,
      "completions/mean_terminated_length": 509.96875,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.10459318977405326,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1328125,
      "kl": 0.018654248444363475,
      "learning_rate": 7.606e-06,
      "loss": -0.0156,
      "num_tokens": 45806657.0,
      "reward": 3.7861359119415283,
      "reward_std": 0.6757104992866516,
      "rewards/reward_fn/mean": 3.7861359119415283,
      "rewards/reward_fn/std": 0.6757104396820068,
      "step": 986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 385.0,
      "completions/max_terminated_length": 385.0,
      "completions/mean_length": 225.625,
      "completions/mean_terminated_length": 225.625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.10469926805982815,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.019475288689136505,
      "learning_rate": 7.6056e-06,
      "loss": -0.0837,
      "num_tokens": 45853589.0,
      "reward": 2.9933929443359375,
      "reward_std": 0.440521240234375,
      "rewards/reward_fn/mean": 2.9933929443359375,
      "rewards/reward_fn/std": 0.440521240234375,
      "step": 987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.0,
      "completions/max_terminated_length": 312.0,
      "completions/mean_length": 220.96875,
      "completions/mean_terminated_length": 220.96875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.10480534634560305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.02420557360164821,
      "learning_rate": 7.6052e-06,
      "loss": 0.0416,
      "num_tokens": 45912820.0,
      "reward": 3.9028656482696533,
      "reward_std": 0.3068977892398834,
      "rewards/reward_fn/mean": 3.9028656482696533,
      "rewards/reward_fn/std": 0.3068977892398834,
      "step": 988
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 446.0,
      "completions/max_terminated_length": 446.0,
      "completions/mean_length": 293.875,
      "completions/mean_terminated_length": 293.875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.10491142463137795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.0265792990103364,
      "learning_rate": 7.6048e-06,
      "loss": 0.0531,
      "num_tokens": 45961456.0,
      "reward": 3.8468708992004395,
      "reward_std": 0.41194701194763184,
      "rewards/reward_fn/mean": 3.8468708992004395,
      "rewards/reward_fn/std": 0.41194698214530945,
      "step": 989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 392.0,
      "completions/max_terminated_length": 392.0,
      "completions/mean_length": 284.53125,
      "completions/mean_terminated_length": 284.53125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.10501750291715285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.014853294123895466,
      "learning_rate": 7.6043999999999996e-06,
      "loss": -0.0016,
      "num_tokens": 46004897.0,
      "reward": 3.556659460067749,
      "reward_std": 0.4804559051990509,
      "rewards/reward_fn/mean": 3.556659460067749,
      "rewards/reward_fn/std": 0.4804559350013733,
      "step": 990
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 477.0,
      "completions/max_terminated_length": 477.0,
      "completions/mean_length": 148.71875,
      "completions/mean_terminated_length": 148.71875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.10512358120292777,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.890625,
      "kl": 0.01824998517986387,
      "learning_rate": 7.6039999999999995e-06,
      "loss": 0.1187,
      "num_tokens": 46042200.0,
      "reward": 3.964564561843872,
      "reward_std": 0.2004532665014267,
      "rewards/reward_fn/mean": 3.964564561843872,
      "rewards/reward_fn/std": 0.2004532814025879,
      "step": 991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 318.0,
      "completions/max_terminated_length": 318.0,
      "completions/mean_length": 220.625,
      "completions/mean_terminated_length": 220.625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.10522965948870266,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.020736161852255464,
      "learning_rate": 7.6035999999999995e-06,
      "loss": -0.0034,
      "num_tokens": 46085484.0,
      "reward": 3.8878173828125,
      "reward_std": 0.3545609414577484,
      "rewards/reward_fn/mean": 3.8878173828125,
      "rewards/reward_fn/std": 0.3545609414577484,
      "step": 992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 987.0,
      "completions/max_terminated_length": 987.0,
      "completions/mean_length": 276.5625,
      "completions/mean_terminated_length": 276.5625,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.10533573777447756,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07373046875,
      "kl": 0.019082832615822554,
      "learning_rate": 7.6031999999999995e-06,
      "loss": 0.0008,
      "num_tokens": 46130718.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 118.0,
      "completions/max_terminated_length": 118.0,
      "completions/mean_length": 79.4375,
      "completions/mean_terminated_length": 79.4375,
      "completions/min_length": 44.0,
      "completions/min_terminated_length": 44.0,
      "epoch": 0.10544181606025246,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.03125,
      "kl": 0.02028225746471435,
      "learning_rate": 7.6028e-06,
      "loss": 0.0617,
      "num_tokens": 46156524.0,
      "reward": 3.9314725399017334,
      "reward_std": 0.3876495361328125,
      "rewards/reward_fn/mean": 3.9314725399017334,
      "rewards/reward_fn/std": 0.3876495659351349,
      "step": 994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 986.0,
      "completions/max_terminated_length": 986.0,
      "completions/mean_length": 261.5625,
      "completions/mean_terminated_length": 261.5625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.10554789434602736,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09326171875,
      "kl": 0.02337950048968196,
      "learning_rate": 7.6024e-06,
      "loss": 0.0009,
      "num_tokens": 46201086.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 423.0,
      "completions/max_terminated_length": 423.0,
      "completions/mean_length": 177.34375,
      "completions/mean_terminated_length": 177.34375,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.10565397263180228,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0869140625,
      "kl": 0.023212826810777187,
      "learning_rate": 7.602e-06,
      "loss": 0.0009,
      "num_tokens": 46232425.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 604.0,
      "completions/max_terminated_length": 604.0,
      "completions/mean_length": 310.28125,
      "completions/mean_terminated_length": 310.28125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.10576005091757718,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.028905097395181656,
      "learning_rate": 7.6016e-06,
      "loss": 0.0946,
      "num_tokens": 46271346.0,
      "reward": 2.8112916946411133,
      "reward_std": 1.1012606620788574,
      "rewards/reward_fn/mean": 2.8112916946411133,
      "rewards/reward_fn/std": 1.1012605428695679,
      "step": 997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 235.0,
      "completions/max_terminated_length": 235.0,
      "completions/mean_length": 164.28125,
      "completions/mean_terminated_length": 164.28125,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.10586612920335207,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.023424757411703467,
      "learning_rate": 7.6012e-06,
      "loss": 0.047,
      "num_tokens": 46305499.0,
      "reward": 3.071727991104126,
      "reward_std": 0.04227209836244583,
      "rewards/reward_fn/mean": 3.071727991104126,
      "rewards/reward_fn/std": 0.042272068560123444,
      "step": 998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 310.0,
      "completions/max_terminated_length": 310.0,
      "completions/mean_length": 215.46875,
      "completions/mean_terminated_length": 215.46875,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.10597220748912697,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.020644933450967073,
      "learning_rate": 7.600799999999999e-06,
      "loss": 0.0149,
      "num_tokens": 46356042.0,
      "reward": 3.8897316455841064,
      "reward_std": 0.4581899642944336,
      "rewards/reward_fn/mean": 3.8897316455841064,
      "rewards/reward_fn/std": 0.458189994096756,
      "step": 999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 159.0,
      "completions/max_terminated_length": 159.0,
      "completions/mean_length": 102.78125,
      "completions/mean_terminated_length": 102.78125,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.10607828577490187,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08740234375,
      "kl": 0.016965405957307667,
      "learning_rate": 7.600399999999999e-06,
      "loss": 0.0007,
      "num_tokens": 46400163.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1000
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 249.0,
      "completions/max_terminated_length": 249.0,
      "completions/mean_length": 167.6875,
      "completions/mean_terminated_length": 167.6875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.10618436406067679,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11474609375,
      "kl": 0.02575285453349352,
      "learning_rate": 7.599999999999999e-06,
      "loss": 0.001,
      "num_tokens": 46440729.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1001
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 630.0,
      "completions/max_terminated_length": 630.0,
      "completions/mean_length": 316.84375,
      "completions/mean_terminated_length": 316.84375,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.10629044234645169,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.0235441483091563,
      "learning_rate": 7.599599999999999e-06,
      "loss": 0.0518,
      "num_tokens": 46485972.0,
      "reward": 2.7349283695220947,
      "reward_std": 0.3006006181240082,
      "rewards/reward_fn/mean": 2.7349283695220947,
      "rewards/reward_fn/std": 0.3006005883216858,
      "step": 1002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 653.0,
      "completions/max_terminated_length": 653.0,
      "completions/mean_length": 311.46875,
      "completions/mean_terminated_length": 311.46875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.10639652063222658,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2578125,
      "kl": 0.019770273473113775,
      "learning_rate": 7.599199999999999e-06,
      "loss": 0.0655,
      "num_tokens": 46531491.0,
      "reward": 3.046574831008911,
      "reward_std": 0.034899428486824036,
      "rewards/reward_fn/mean": 3.046574831008911,
      "rewards/reward_fn/std": 0.034899454563856125,
      "step": 1003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1233.0,
      "completions/max_terminated_length": 1233.0,
      "completions/mean_length": 219.84375,
      "completions/mean_terminated_length": 219.84375,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.10650259891800148,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.022727035451680422,
      "learning_rate": 7.598799999999999e-06,
      "loss": 0.26,
      "num_tokens": 46583710.0,
      "reward": 2.8298349380493164,
      "reward_std": 0.035851918160915375,
      "rewards/reward_fn/mean": 2.8298349380493164,
      "rewards/reward_fn/std": 0.03585192188620567,
      "step": 1004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1732.0,
      "completions/max_terminated_length": 1732.0,
      "completions/mean_length": 469.0625,
      "completions/mean_terminated_length": 469.0625,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.10660867720377638,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1328125,
      "kl": 0.017710814368911088,
      "learning_rate": 7.598399999999999e-06,
      "loss": -0.0522,
      "num_tokens": 46648288.0,
      "reward": 3.8750860691070557,
      "reward_std": 0.3370124101638794,
      "rewards/reward_fn/mean": 3.8750860691070557,
      "rewards/reward_fn/std": 0.337012380361557,
      "step": 1005
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2024.0,
      "completions/max_terminated_length": 2024.0,
      "completions/mean_length": 510.9375,
      "completions/mean_terminated_length": 510.9375,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.10671475548955128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.018817924661561847,
      "learning_rate": 7.598e-06,
      "loss": 0.0941,
      "num_tokens": 46701182.0,
      "reward": 3.7116811275482178,
      "reward_std": 0.6552125811576843,
      "rewards/reward_fn/mean": 3.7116811275482178,
      "rewards/reward_fn/std": 0.6552125215530396,
      "step": 1006
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1690.0,
      "completions/max_terminated_length": 1690.0,
      "completions/mean_length": 590.78125,
      "completions/mean_terminated_length": 590.78125,
      "completions/min_length": 321.0,
      "completions/min_terminated_length": 321.0,
      "epoch": 0.1068208337753262,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.020602114964276552,
      "learning_rate": 7.5976e-06,
      "loss": -0.0235,
      "num_tokens": 46758519.0,
      "reward": 2.503760814666748,
      "reward_std": 0.6346949338912964,
      "rewards/reward_fn/mean": 2.503760814666748,
      "rewards/reward_fn/std": 0.6346949338912964,
      "step": 1007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 422.0,
      "completions/max_terminated_length": 422.0,
      "completions/mean_length": 277.1875,
      "completions/mean_terminated_length": 277.1875,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.1069269120611011,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.018794673145748675,
      "learning_rate": 7.5972e-06,
      "loss": 0.0631,
      "num_tokens": 46811837.0,
      "reward": 2.8126931190490723,
      "reward_std": 0.046026017516851425,
      "rewards/reward_fn/mean": 2.8126931190490723,
      "rewards/reward_fn/std": 0.04602604731917381,
      "step": 1008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 556.0,
      "completions/mean_length": 370.4375,
      "completions/mean_terminated_length": 316.32257080078125,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.107032990346876,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.02782504353672266,
      "learning_rate": 7.5968e-06,
      "loss": 0.3013,
      "num_tokens": 46857707.0,
      "reward": 3.1419944763183594,
      "reward_std": 0.6233690977096558,
      "rewards/reward_fn/mean": 3.1419944763183594,
      "rewards/reward_fn/std": 0.6233690977096558,
      "step": 1009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 613.0,
      "completions/max_terminated_length": 613.0,
      "completions/mean_length": 101.96875,
      "completions/mean_terminated_length": 101.96875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.1071390686326509,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.201171875,
      "kl": 0.022366830613464117,
      "learning_rate": 7.5964e-06,
      "loss": 0.0009,
      "num_tokens": 46896874.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1010
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 834.0,
      "completions/max_terminated_length": 834.0,
      "completions/mean_length": 425.25,
      "completions/mean_terminated_length": 425.25,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.1072451469184258,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.025819960748776793,
      "learning_rate": 7.596e-06,
      "loss": 0.0277,
      "num_tokens": 46952274.0,
      "reward": 2.5166473388671875,
      "reward_std": 0.42934849858283997,
      "rewards/reward_fn/mean": 2.5166473388671875,
      "rewards/reward_fn/std": 0.42934852838516235,
      "step": 1011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 967.0,
      "completions/mean_terminated_length": 894.933349609375,
      "completions/min_length": 384.0,
      "completions/min_terminated_length": 384.0,
      "epoch": 0.1073512252042007,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.9453125,
      "kl": 0.01642954268027097,
      "learning_rate": 7.5956e-06,
      "loss": 0.1213,
      "num_tokens": 47010386.0,
      "reward": 2.331674337387085,
      "reward_std": 0.7580024003982544,
      "rewards/reward_fn/mean": 2.331674337387085,
      "rewards/reward_fn/std": 0.7580023407936096,
      "step": 1012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 245.0,
      "completions/max_terminated_length": 245.0,
      "completions/mean_length": 177.8125,
      "completions/mean_terminated_length": 177.8125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.1074573034899756,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09423828125,
      "kl": 0.021480249939486384,
      "learning_rate": 7.5952e-06,
      "loss": 0.0009,
      "num_tokens": 47050796.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 839.0,
      "completions/max_terminated_length": 839.0,
      "completions/mean_length": 278.1875,
      "completions/mean_terminated_length": 278.1875,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.1075633817757505,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.028301968472078443,
      "learning_rate": 7.5948e-06,
      "loss": 0.0219,
      "num_tokens": 47100498.0,
      "reward": 3.1440305709838867,
      "reward_std": 0.5901278853416443,
      "rewards/reward_fn/mean": 3.1440305709838867,
      "rewards/reward_fn/std": 0.5901278257369995,
      "step": 1014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 365.0,
      "completions/max_terminated_length": 365.0,
      "completions/mean_length": 220.96875,
      "completions/mean_terminated_length": 220.96875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.1076694600615254,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10595703125,
      "kl": 0.025707697961479425,
      "learning_rate": 7.5944e-06,
      "loss": 0.001,
      "num_tokens": 47161393.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 955.0,
      "completions/mean_length": 632.0625,
      "completions/mean_terminated_length": 586.3870849609375,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.1077755383473003,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.02113516186363995,
      "learning_rate": 7.594e-06,
      "loss": 0.2314,
      "num_tokens": 47223315.0,
      "reward": 2.526656150817871,
      "reward_std": 0.6006430983543396,
      "rewards/reward_fn/mean": 2.526656150817871,
      "rewards/reward_fn/std": 0.6006431579589844,
      "step": 1016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1488.0,
      "completions/max_terminated_length": 1488.0,
      "completions/mean_length": 676.65625,
      "completions/mean_terminated_length": 676.65625,
      "completions/min_length": 400.0,
      "completions/min_terminated_length": 400.0,
      "epoch": 0.1078816166330752,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0703125,
      "kl": 0.01965883933007717,
      "learning_rate": 7.5936e-06,
      "loss": -0.0026,
      "num_tokens": 47279528.0,
      "reward": 2.664598226547241,
      "reward_std": 0.19238144159317017,
      "rewards/reward_fn/mean": 2.664598226547241,
      "rewards/reward_fn/std": 0.19238145649433136,
      "step": 1017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 687.0,
      "completions/max_terminated_length": 687.0,
      "completions/mean_length": 166.8125,
      "completions/mean_terminated_length": 166.8125,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.10798769491885012,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10498046875,
      "kl": 0.02208179165609181,
      "learning_rate": 7.5932e-06,
      "loss": 0.0009,
      "num_tokens": 47334466.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1018
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1037.0,
      "completions/max_terminated_length": 1037.0,
      "completions/mean_length": 287.625,
      "completions/mean_terminated_length": 287.625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.10809377320462502,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.030248204711824656,
      "learning_rate": 7.5928e-06,
      "loss": 0.1147,
      "num_tokens": 47382646.0,
      "reward": 3.9577441215515137,
      "reward_std": 0.23903484642505646,
      "rewards/reward_fn/mean": 3.9577441215515137,
      "rewards/reward_fn/std": 0.23903487622737885,
      "step": 1019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1610.0,
      "completions/max_terminated_length": 1610.0,
      "completions/mean_length": 223.875,
      "completions/mean_terminated_length": 223.875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.10819985149039991,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.02753225597552955,
      "learning_rate": 7.5923999999999995e-06,
      "loss": -0.1361,
      "num_tokens": 47424050.0,
      "reward": 3.9119248390197754,
      "reward_std": 0.27822986245155334,
      "rewards/reward_fn/mean": 3.9119248390197754,
      "rewards/reward_fn/std": 0.27822983264923096,
      "step": 1020
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1636.0,
      "completions/mean_length": 445.1875,
      "completions/mean_terminated_length": 393.4838562011719,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.10830592977617481,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.025169007247313857,
      "learning_rate": 7.5919999999999995e-06,
      "loss": 0.2699,
      "num_tokens": 47475288.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 1021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 665.0,
      "completions/max_terminated_length": 665.0,
      "completions/mean_length": 432.5,
      "completions/mean_terminated_length": 432.5,
      "completions/min_length": 275.0,
      "completions/min_terminated_length": 275.0,
      "epoch": 0.10841200806194971,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.020216177916154265,
      "learning_rate": 7.5915999999999994e-06,
      "loss": 0.0523,
      "num_tokens": 47528808.0,
      "reward": 2.7419400215148926,
      "reward_std": 0.19625967741012573,
      "rewards/reward_fn/mean": 2.7419400215148926,
      "rewards/reward_fn/std": 0.19625964760780334,
      "step": 1022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 995.0,
      "completions/max_terminated_length": 995.0,
      "completions/mean_length": 570.21875,
      "completions/mean_terminated_length": 570.21875,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.10851808634772463,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.024952333886176348,
      "learning_rate": 7.591199999999999e-06,
      "loss": 0.0449,
      "num_tokens": 47584559.0,
      "reward": 2.8316707611083984,
      "reward_std": 0.03383928909897804,
      "rewards/reward_fn/mean": 2.8316707611083984,
      "rewards/reward_fn/std": 0.033839285373687744,
      "step": 1023
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 404.0,
      "completions/max_terminated_length": 404.0,
      "completions/mean_length": 245.625,
      "completions/mean_terminated_length": 245.625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.10862416463349953,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.03429146436974406,
      "learning_rate": 7.590799999999999e-06,
      "loss": 0.0576,
      "num_tokens": 47635491.0,
      "reward": 3.8389077186584473,
      "reward_std": 0.38074901700019836,
      "rewards/reward_fn/mean": 3.8389077186584473,
      "rewards/reward_fn/std": 0.38074901700019836,
      "step": 1024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 777.0,
      "completions/max_terminated_length": 777.0,
      "completions/mean_length": 473.84375,
      "completions/mean_terminated_length": 473.84375,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.10873024291927443,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.022358035668730736,
      "learning_rate": 7.590399999999999e-06,
      "loss": 0.04,
      "num_tokens": 47704702.0,
      "reward": 2.8870303630828857,
      "reward_std": 0.09213743358850479,
      "rewards/reward_fn/mean": 2.8870303630828857,
      "rewards/reward_fn/std": 0.09213750809431076,
      "step": 1025
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 803.0,
      "completions/max_terminated_length": 803.0,
      "completions/mean_length": 356.9375,
      "completions/mean_terminated_length": 356.9375,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.10883632120504932,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.02047534054145217,
      "learning_rate": 7.589999999999999e-06,
      "loss": 0.1106,
      "num_tokens": 47758972.0,
      "reward": 3.618471145629883,
      "reward_std": 0.714113712310791,
      "rewards/reward_fn/mean": 3.618471145629883,
      "rewards/reward_fn/std": 0.714113712310791,
      "step": 1026
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 376.0,
      "completions/max_terminated_length": 376.0,
      "completions/mean_length": 190.65625,
      "completions/mean_terminated_length": 190.65625,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.10894239949082422,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.15234375,
      "kl": 0.05442382441833615,
      "learning_rate": 7.589599999999999e-06,
      "loss": 0.0022,
      "num_tokens": 47801393.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1027
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 824.0,
      "completions/max_terminated_length": 824.0,
      "completions/mean_length": 286.5,
      "completions/mean_terminated_length": 286.5,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.10904847777659914,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8828125,
      "kl": 0.022991040954366326,
      "learning_rate": 7.589199999999999e-06,
      "loss": 0.0042,
      "num_tokens": 47844385.0,
      "reward": 2.956698179244995,
      "reward_std": 0.3429322838783264,
      "rewards/reward_fn/mean": 2.956698179244995,
      "rewards/reward_fn/std": 0.34293225407600403,
      "step": 1028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 315.0,
      "completions/max_terminated_length": 315.0,
      "completions/mean_length": 121.875,
      "completions/mean_terminated_length": 121.875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.10915455606237404,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.171875,
      "kl": 0.030354263726621866,
      "learning_rate": 7.588799999999999e-06,
      "loss": 0.1608,
      "num_tokens": 47876573.0,
      "reward": 3.9108946323394775,
      "reward_std": 0.2824559509754181,
      "rewards/reward_fn/mean": 3.9108946323394775,
      "rewards/reward_fn/std": 0.2824559211730957,
      "step": 1029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/max_terminated_length": 283.0,
      "completions/mean_length": 178.28125,
      "completions/mean_terminated_length": 178.28125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.10926063434814894,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.265625,
      "kl": 0.02428922988474369,
      "learning_rate": 7.5884e-06,
      "loss": 0.0219,
      "num_tokens": 47910662.0,
      "reward": 3.896930456161499,
      "reward_std": 0.3276534676551819,
      "rewards/reward_fn/mean": 3.896930456161499,
      "rewards/reward_fn/std": 0.3276534676551819,
      "step": 1030
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2019.0,
      "completions/max_terminated_length": 2019.0,
      "completions/mean_length": 508.96875,
      "completions/mean_terminated_length": 508.96875,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.10936671263392383,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2421875,
      "kl": 0.02369822352193296,
      "learning_rate": 7.588e-06,
      "loss": 0.0164,
      "num_tokens": 47948101.0,
      "reward": 3.1501495838165283,
      "reward_std": 0.7063373923301697,
      "rewards/reward_fn/mean": 3.1501495838165283,
      "rewards/reward_fn/std": 0.7063372731208801,
      "step": 1031
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1060.0,
      "completions/mean_length": 404.75,
      "completions/mean_terminated_length": 351.7419128417969,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.10947279091969873,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.025314223021268845,
      "learning_rate": 7.5876e-06,
      "loss": 0.2811,
      "num_tokens": 47982717.0,
      "reward": 3.2338669300079346,
      "reward_std": 0.8930133581161499,
      "rewards/reward_fn/mean": 3.2338669300079346,
      "rewards/reward_fn/std": 0.8930133581161499,
      "step": 1032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 240.5625,
      "completions/mean_terminated_length": 240.5625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.10957886920547363,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.023625839967280626,
      "learning_rate": 7.5872e-06,
      "loss": -0.0313,
      "num_tokens": 48036559.0,
      "reward": 3.2713961601257324,
      "reward_std": 0.5741091370582581,
      "rewards/reward_fn/mean": 3.2713961601257324,
      "rewards/reward_fn/std": 0.5741091966629028,
      "step": 1033
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 842.0,
      "completions/max_terminated_length": 842.0,
      "completions/mean_length": 434.53125,
      "completions/mean_terminated_length": 434.53125,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.10968494749124855,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.021874976810067892,
      "learning_rate": 7.5868e-06,
      "loss": -0.033,
      "num_tokens": 48087968.0,
      "reward": 2.664581298828125,
      "reward_std": 0.03544781729578972,
      "rewards/reward_fn/mean": 2.664581298828125,
      "rewards/reward_fn/std": 0.03544781729578972,
      "step": 1034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 298.0,
      "completions/max_terminated_length": 298.0,
      "completions/mean_length": 165.59375,
      "completions/mean_terminated_length": 165.59375,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.10979102577702345,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.53125,
      "kl": 0.024668074445798993,
      "learning_rate": 7.5864e-06,
      "loss": -0.0904,
      "num_tokens": 48128627.0,
      "reward": 2.9213130474090576,
      "reward_std": 0.2021249383687973,
      "rewards/reward_fn/mean": 2.9213130474090576,
      "rewards/reward_fn/std": 0.2021249383687973,
      "step": 1035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1630.0,
      "completions/max_terminated_length": 1630.0,
      "completions/mean_length": 583.875,
      "completions/mean_terminated_length": 583.875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.10989710406279835,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0625,
      "kl": 0.017253244761377573,
      "learning_rate": 7.586e-06,
      "loss": -0.0018,
      "num_tokens": 48182063.0,
      "reward": 3.2175590991973877,
      "reward_std": 0.9283421635627747,
      "rewards/reward_fn/mean": 3.2175590991973877,
      "rewards/reward_fn/std": 0.9283421635627747,
      "step": 1036
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 764.0,
      "completions/max_terminated_length": 764.0,
      "completions/mean_length": 272.5,
      "completions/mean_terminated_length": 272.5,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.11000318234857324,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0908203125,
      "kl": 0.022420917404815555,
      "learning_rate": 7.5856e-06,
      "loss": 0.0009,
      "num_tokens": 48225567.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 625.0,
      "completions/max_terminated_length": 625.0,
      "completions/mean_length": 394.40625,
      "completions/mean_terminated_length": 394.40625,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.11010926063434814,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.01980700553394854,
      "learning_rate": 7.5852e-06,
      "loss": 0.0774,
      "num_tokens": 48293036.0,
      "reward": 2.6475255489349365,
      "reward_std": 0.2643485963344574,
      "rewards/reward_fn/mean": 2.6475255489349365,
      "rewards/reward_fn/std": 0.2643485963344574,
      "step": 1038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 615.0,
      "completions/max_terminated_length": 615.0,
      "completions/mean_length": 287.40625,
      "completions/mean_terminated_length": 287.40625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.11021533892012306,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.026065111625939608,
      "learning_rate": 7.5848e-06,
      "loss": 0.0832,
      "num_tokens": 48346649.0,
      "reward": 3.965364456176758,
      "reward_std": 0.19592823088169098,
      "rewards/reward_fn/mean": 3.965364456176758,
      "rewards/reward_fn/std": 0.19592821598052979,
      "step": 1039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 216.0,
      "completions/max_terminated_length": 216.0,
      "completions/mean_length": 151.875,
      "completions/mean_terminated_length": 151.875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.11032141720589796,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12109375,
      "kl": 0.021192287211306393,
      "learning_rate": 7.584399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 48383221.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1040
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 257.0,
      "completions/max_terminated_length": 257.0,
      "completions/mean_length": 174.34375,
      "completions/mean_terminated_length": 174.34375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.11042749549167286,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.021020429907366633,
      "learning_rate": 7.583999999999999e-06,
      "loss": 0.0779,
      "num_tokens": 48431456.0,
      "reward": 3.859943151473999,
      "reward_std": 0.3045395612716675,
      "rewards/reward_fn/mean": 3.859943151473999,
      "rewards/reward_fn/std": 0.30453959107398987,
      "step": 1041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 655.0,
      "completions/max_terminated_length": 655.0,
      "completions/mean_length": 286.65625,
      "completions/mean_terminated_length": 286.65625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.11053357377744776,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.029660561122000217,
      "learning_rate": 7.5836e-06,
      "loss": 0.1015,
      "num_tokens": 48497877.0,
      "reward": 3.7863168716430664,
      "reward_std": 0.6171298027038574,
      "rewards/reward_fn/mean": 3.7863168716430664,
      "rewards/reward_fn/std": 0.6171298027038574,
      "step": 1042
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 294.0,
      "completions/max_terminated_length": 294.0,
      "completions/mean_length": 205.34375,
      "completions/mean_terminated_length": 205.34375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.11063965206322265,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.033476054668426514,
      "learning_rate": 7.5832e-06,
      "loss": -0.0209,
      "num_tokens": 48536768.0,
      "reward": 3.891145706176758,
      "reward_std": 0.3448222577571869,
      "rewards/reward_fn/mean": 3.891145706176758,
      "rewards/reward_fn/std": 0.3448222279548645,
      "step": 1043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1634.0,
      "completions/max_terminated_length": 1634.0,
      "completions/mean_length": 546.5625,
      "completions/mean_terminated_length": 546.5625,
      "completions/min_length": 331.0,
      "completions/min_terminated_length": 331.0,
      "epoch": 0.11074573034899755,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.109375,
      "kl": 0.019996803253889084,
      "learning_rate": 7.5828e-06,
      "loss": -0.0001,
      "num_tokens": 48590354.0,
      "reward": 2.7087881565093994,
      "reward_std": 0.3276941478252411,
      "rewards/reward_fn/mean": 2.7087881565093994,
      "rewards/reward_fn/std": 0.3276940882205963,
      "step": 1044
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1202.0,
      "completions/max_terminated_length": 1202.0,
      "completions/mean_length": 487.53125,
      "completions/mean_terminated_length": 487.53125,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.11085180863477247,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.057373046875,
      "kl": 0.02068508369848132,
      "learning_rate": 7.5824e-06,
      "loss": 0.0008,
      "num_tokens": 48642499.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 877.0,
      "completions/max_terminated_length": 877.0,
      "completions/mean_length": 200.09375,
      "completions/mean_terminated_length": 200.09375,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.11095788692054737,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.043467214331030846,
      "learning_rate": 7.5819999999999996e-06,
      "loss": -0.021,
      "num_tokens": 48691526.0,
      "reward": 3.014760971069336,
      "reward_std": 0.32387152314186096,
      "rewards/reward_fn/mean": 3.014760971069336,
      "rewards/reward_fn/std": 0.32387155294418335,
      "step": 1046
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 173.0,
      "completions/max_terminated_length": 173.0,
      "completions/mean_length": 147.09375,
      "completions/mean_terminated_length": 147.09375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.11106396520632227,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.015362325706519186,
      "learning_rate": 7.5815999999999995e-06,
      "loss": 0.0156,
      "num_tokens": 48732105.0,
      "reward": 3.898536205291748,
      "reward_std": 0.4298121929168701,
      "rewards/reward_fn/mean": 3.898536205291748,
      "rewards/reward_fn/std": 0.42981216311454773,
      "step": 1047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 256.1875,
      "completions/mean_terminated_length": 256.1875,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.11117004349209716,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.02533377055078745,
      "learning_rate": 7.5811999999999995e-06,
      "loss": 0.0145,
      "num_tokens": 48787151.0,
      "reward": 1.7609915733337402,
      "reward_std": 0.20412206649780273,
      "rewards/reward_fn/mean": 1.7609915733337402,
      "rewards/reward_fn/std": 0.20412209630012512,
      "step": 1048
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 508.0,
      "completions/max_terminated_length": 508.0,
      "completions/mean_length": 237.09375,
      "completions/mean_terminated_length": 237.09375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.11127612177787206,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.02054914110340178,
      "learning_rate": 7.5807999999999995e-06,
      "loss": 0.0838,
      "num_tokens": 48841618.0,
      "reward": 3.9238462448120117,
      "reward_std": 0.2997784912586212,
      "rewards/reward_fn/mean": 3.9238462448120117,
      "rewards/reward_fn/std": 0.29977843165397644,
      "step": 1049
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1064.0,
      "completions/max_terminated_length": 1064.0,
      "completions/mean_length": 245.75,
      "completions/mean_terminated_length": 245.75,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.11138220006364698,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.021705527789890766,
      "learning_rate": 7.5803999999999995e-06,
      "loss": 0.0682,
      "num_tokens": 48871338.0,
      "reward": 3.700695037841797,
      "reward_std": 0.5276238918304443,
      "rewards/reward_fn/mean": 3.700695037841797,
      "rewards/reward_fn/std": 0.5276238918304443,
      "step": 1050
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1289.0,
      "completions/max_terminated_length": 1289.0,
      "completions/mean_length": 485.65625,
      "completions/mean_terminated_length": 485.65625,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.11148827834942188,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.018874148838222027,
      "learning_rate": 7.5799999999999994e-06,
      "loss": 0.0752,
      "num_tokens": 48906847.0,
      "reward": 3.036792278289795,
      "reward_std": 0.6571252346038818,
      "rewards/reward_fn/mean": 3.036792278289795,
      "rewards/reward_fn/std": 0.6571252942085266,
      "step": 1051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 855.0,
      "completions/mean_length": 537.78125,
      "completions/mean_terminated_length": 489.06451416015625,
      "completions/min_length": 235.0,
      "completions/min_terminated_length": 235.0,
      "epoch": 0.11159435663519678,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2578125,
      "kl": 0.02108449419029057,
      "learning_rate": 7.579599999999999e-06,
      "loss": 0.2119,
      "num_tokens": 48944184.0,
      "reward": 2.643126964569092,
      "reward_std": 0.8047422170639038,
      "rewards/reward_fn/mean": 2.643126964569092,
      "rewards/reward_fn/std": 0.8047422170639038,
      "step": 1052
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 157.0,
      "completions/max_terminated_length": 157.0,
      "completions/mean_length": 112.3125,
      "completions/mean_terminated_length": 112.3125,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.11170043492097168,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.15234375,
      "kl": 0.02645600028336048,
      "learning_rate": 7.5792e-06,
      "loss": 0.0011,
      "num_tokens": 48984898.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 730.0,
      "completions/max_terminated_length": 730.0,
      "completions/mean_length": 215.65625,
      "completions/mean_terminated_length": 215.65625,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.11180651320674657,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.020799231133423746,
      "learning_rate": 7.5788e-06,
      "loss": 0.0008,
      "num_tokens": 49017527.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1054
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 434.0,
      "completions/max_terminated_length": 434.0,
      "completions/mean_length": 148.71875,
      "completions/mean_terminated_length": 148.71875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.11191259149252149,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.59375,
      "kl": 0.02697490993887186,
      "learning_rate": 7.5784e-06,
      "loss": 0.0291,
      "num_tokens": 49061166.0,
      "reward": 3.6497604846954346,
      "reward_std": 0.5690338611602783,
      "rewards/reward_fn/mean": 3.6497604846954346,
      "rewards/reward_fn/std": 0.5690338611602783,
      "step": 1055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1170.0,
      "completions/max_terminated_length": 1170.0,
      "completions/mean_length": 248.40625,
      "completions/mean_terminated_length": 248.40625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.11201866977829639,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.028018145821988583,
      "learning_rate": 7.578e-06,
      "loss": 0.187,
      "num_tokens": 49101179.0,
      "reward": 3.8402042388916016,
      "reward_std": 0.4300036132335663,
      "rewards/reward_fn/mean": 3.8402042388916016,
      "rewards/reward_fn/std": 0.4300036132335663,
      "step": 1056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 231.0,
      "completions/max_terminated_length": 231.0,
      "completions/mean_length": 121.96875,
      "completions/mean_terminated_length": 121.96875,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.11212474806407129,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.0,
      "kl": 0.02238781377673149,
      "learning_rate": 7.5776e-06,
      "loss": 0.1305,
      "num_tokens": 49142554.0,
      "reward": 3.9166479110717773,
      "reward_std": 0.32798945903778076,
      "rewards/reward_fn/mean": 3.9166479110717773,
      "rewards/reward_fn/std": 0.32798945903778076,
      "step": 1057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 466.0,
      "completions/max_terminated_length": 466.0,
      "completions/mean_length": 107.09375,
      "completions/mean_terminated_length": 107.09375,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.11223082634984619,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2294921875,
      "kl": 0.029718552948907018,
      "learning_rate": 7.5772e-06,
      "loss": 0.0012,
      "num_tokens": 49190333.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1058
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 600.0,
      "completions/max_terminated_length": 600.0,
      "completions/mean_length": 378.3125,
      "completions/mean_terminated_length": 378.3125,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.11233690463562108,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.020035079680383205,
      "learning_rate": 7.5768e-06,
      "loss": -0.0189,
      "num_tokens": 49247655.0,
      "reward": 3.7000904083251953,
      "reward_std": 0.5648115277290344,
      "rewards/reward_fn/mean": 3.7000904083251953,
      "rewards/reward_fn/std": 0.5648115277290344,
      "step": 1059
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 112.0,
      "completions/max_terminated_length": 112.0,
      "completions/mean_length": 84.5,
      "completions/mean_terminated_length": 84.5,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.11244298292139598,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1669921875,
      "kl": 0.01883522653952241,
      "learning_rate": 7.576399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 49292759.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1060
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 926.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 416.625,
      "completions/mean_terminated_length": 416.625,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.1125490612071709,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.0226012347266078,
      "learning_rate": 7.575999999999999e-06,
      "loss": 0.0211,
      "num_tokens": 49321707.0,
      "reward": 3.0304574966430664,
      "reward_std": 0.6895338892936707,
      "rewards/reward_fn/mean": 3.0304574966430664,
      "rewards/reward_fn/std": 0.6895338296890259,
      "step": 1061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 137.0,
      "completions/max_terminated_length": 137.0,
      "completions/mean_length": 97.875,
      "completions/mean_terminated_length": 97.875,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.1126551394929458,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.171875,
      "kl": 0.02689792774617672,
      "learning_rate": 7.575599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 49369447.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1449.0,
      "completions/max_terminated_length": 1449.0,
      "completions/mean_length": 288.6875,
      "completions/mean_terminated_length": 288.6875,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.1127612177787207,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10107421875,
      "kl": 0.026896960800513625,
      "learning_rate": 7.575199999999999e-06,
      "loss": 0.0011,
      "num_tokens": 49407837.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 333.0,
      "completions/max_terminated_length": 333.0,
      "completions/mean_length": 242.8125,
      "completions/mean_terminated_length": 242.8125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.1128672960644956,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.03066409262828529,
      "learning_rate": 7.574799999999999e-06,
      "loss": 0.0108,
      "num_tokens": 49437655.0,
      "reward": 3.775486469268799,
      "reward_std": 0.6500386595726013,
      "rewards/reward_fn/mean": 3.775486469268799,
      "rewards/reward_fn/std": 0.6500386595726013,
      "step": 1064
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 721.0,
      "completions/max_terminated_length": 721.0,
      "completions/mean_length": 416.5,
      "completions/mean_terminated_length": 416.5,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.1129733743502705,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.021771566243842244,
      "learning_rate": 7.5744e-06,
      "loss": -0.0615,
      "num_tokens": 49483047.0,
      "reward": 3.53684139251709,
      "reward_std": 0.9053143858909607,
      "rewards/reward_fn/mean": 3.53684139251709,
      "rewards/reward_fn/std": 0.9053143858909607,
      "step": 1065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 211.0,
      "completions/max_terminated_length": 211.0,
      "completions/mean_length": 160.03125,
      "completions/mean_terminated_length": 160.03125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.11307945263604541,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.109375,
      "kl": 0.020757366786710918,
      "learning_rate": 7.574e-06,
      "loss": 0.0008,
      "num_tokens": 49539272.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 308.0,
      "completions/max_terminated_length": 308.0,
      "completions/mean_length": 171.625,
      "completions/mean_terminated_length": 171.625,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.11318553092182031,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.111328125,
      "kl": 0.02480534859932959,
      "learning_rate": 7.5736e-06,
      "loss": 0.001,
      "num_tokens": 49575612.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1067
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 635.0,
      "completions/max_terminated_length": 635.0,
      "completions/mean_length": 343.0,
      "completions/mean_terminated_length": 343.0,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.1132916092075952,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.019847781863063574,
      "learning_rate": 7.5732e-06,
      "loss": 0.0209,
      "num_tokens": 49620540.0,
      "reward": 2.8053698539733887,
      "reward_std": 0.044293008744716644,
      "rewards/reward_fn/mean": 2.8053698539733887,
      "rewards/reward_fn/std": 0.04429301992058754,
      "step": 1068
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 846.0,
      "completions/max_terminated_length": 846.0,
      "completions/mean_length": 408.25,
      "completions/mean_terminated_length": 408.25,
      "completions/min_length": 46.0,
      "completions/min_terminated_length": 46.0,
      "epoch": 0.1133976874933701,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.022560104727745056,
      "learning_rate": 7.5728e-06,
      "loss": -0.0794,
      "num_tokens": 49671780.0,
      "reward": 2.5189239978790283,
      "reward_std": 0.7050349712371826,
      "rewards/reward_fn/mean": 2.5189239978790283,
      "rewards/reward_fn/std": 0.7050350308418274,
      "step": 1069
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 962.0,
      "completions/max_terminated_length": 962.0,
      "completions/mean_length": 395.28125,
      "completions/mean_terminated_length": 395.28125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.113503765779145,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.024412208003923297,
      "learning_rate": 7.5724e-06,
      "loss": 0.1008,
      "num_tokens": 49722989.0,
      "reward": 3.4259486198425293,
      "reward_std": 0.41865074634552,
      "rewards/reward_fn/mean": 3.4259486198425293,
      "rewards/reward_fn/std": 0.41865074634552,
      "step": 1070
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 358.0,
      "completions/max_terminated_length": 358.0,
      "completions/mean_length": 241.15625,
      "completions/mean_terminated_length": 241.15625,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.1136098440649199,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.019247191143222153,
      "learning_rate": 7.572e-06,
      "loss": 0.0774,
      "num_tokens": 49777074.0,
      "reward": 3.9278671741485596,
      "reward_std": 0.4080452620983124,
      "rewards/reward_fn/mean": 3.9278671741485596,
      "rewards/reward_fn/std": 0.4080452620983124,
      "step": 1071
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 804.0,
      "completions/max_terminated_length": 804.0,
      "completions/mean_length": 486.34375,
      "completions/mean_terminated_length": 486.34375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.11371592235069482,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.026156109059229493,
      "learning_rate": 7.5716e-06,
      "loss": -0.0044,
      "num_tokens": 49830685.0,
      "reward": 2.5489959716796875,
      "reward_std": 0.32066285610198975,
      "rewards/reward_fn/mean": 2.5489959716796875,
      "rewards/reward_fn/std": 0.32066285610198975,
      "step": 1072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 329.53125,
      "completions/mean_terminated_length": 329.53125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.11382200063646972,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.023007875541225076,
      "learning_rate": 7.5712e-06,
      "loss": 0.0351,
      "num_tokens": 49877518.0,
      "reward": 3.3481032848358154,
      "reward_std": 0.6226815581321716,
      "rewards/reward_fn/mean": 3.3481032848358154,
      "rewards/reward_fn/std": 0.6226814985275269,
      "step": 1073
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 396.0,
      "completions/max_terminated_length": 396.0,
      "completions/mean_length": 274.34375,
      "completions/mean_terminated_length": 274.34375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.11392807892224462,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0771484375,
      "kl": 0.020330962724983692,
      "learning_rate": 7.5708e-06,
      "loss": 0.0008,
      "num_tokens": 49918969.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 217.8125,
      "completions/mean_terminated_length": 217.8125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.11403415720801952,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06982421875,
      "kl": 0.01607495010830462,
      "learning_rate": 7.5703999999999995e-06,
      "loss": 0.0006,
      "num_tokens": 49970675.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 285.0,
      "completions/max_terminated_length": 285.0,
      "completions/mean_length": 83.125,
      "completions/mean_terminated_length": 83.125,
      "completions/min_length": 58.0,
      "completions/min_terminated_length": 58.0,
      "epoch": 0.11414023549379441,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.018819114891812205,
      "learning_rate": 7.5699999999999995e-06,
      "loss": 0.0008,
      "num_tokens": 50019447.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 360.0,
      "completions/max_terminated_length": 360.0,
      "completions/mean_length": 213.09375,
      "completions/mean_terminated_length": 213.09375,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.11424631377956933,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.024625253630802035,
      "learning_rate": 7.5696e-06,
      "loss": -0.1125,
      "num_tokens": 50067546.0,
      "reward": 3.350964307785034,
      "reward_std": 1.0544812679290771,
      "rewards/reward_fn/mean": 3.350964307785034,
      "rewards/reward_fn/std": 1.0544813871383667,
      "step": 1077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1743.0,
      "completions/max_terminated_length": 1743.0,
      "completions/mean_length": 319.34375,
      "completions/mean_terminated_length": 319.34375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.11435239206534423,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.020671964855864644,
      "learning_rate": 7.5692e-06,
      "loss": 0.2282,
      "num_tokens": 50111141.0,
      "reward": 3.702298402786255,
      "reward_std": 0.8400141596794128,
      "rewards/reward_fn/mean": 3.702298402786255,
      "rewards/reward_fn/std": 0.8400141596794128,
      "step": 1078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.0,
      "completions/max_terminated_length": 668.0,
      "completions/mean_length": 318.1875,
      "completions/mean_terminated_length": 318.1875,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.11445847035111913,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.01740014727693051,
      "learning_rate": 7.5688e-06,
      "loss": 0.0787,
      "num_tokens": 50157419.0,
      "reward": 3.0187315940856934,
      "reward_std": 0.6965243816375732,
      "rewards/reward_fn/mean": 3.0187315940856934,
      "rewards/reward_fn/std": 0.6965243816375732,
      "step": 1079
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 791.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 284.3125,
      "completions/mean_terminated_length": 284.3125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.11456454863689403,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.024546197149902582,
      "learning_rate": 7.568399999999999e-06,
      "loss": -0.0078,
      "num_tokens": 50187157.0,
      "reward": 3.7409169673919678,
      "reward_std": 0.4564998149871826,
      "rewards/reward_fn/mean": 3.7409169673919678,
      "rewards/reward_fn/std": 0.45649975538253784,
      "step": 1080
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.0,
      "completions/max_terminated_length": 717.0,
      "completions/mean_length": 212.3125,
      "completions/mean_terminated_length": 212.3125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.11467062692266893,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.02775608957745135,
      "learning_rate": 7.567999999999999e-06,
      "loss": 0.0725,
      "num_tokens": 50225087.0,
      "reward": 3.6997857093811035,
      "reward_std": 0.4594448208808899,
      "rewards/reward_fn/mean": 3.6997857093811035,
      "rewards/reward_fn/std": 0.4594447910785675,
      "step": 1081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1101.0,
      "completions/max_terminated_length": 1101.0,
      "completions/mean_length": 295.6875,
      "completions/mean_terminated_length": 295.6875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.11477670520844384,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.026229602517560124,
      "learning_rate": 7.567599999999999e-06,
      "loss": 0.0526,
      "num_tokens": 50275957.0,
      "reward": 3.969325542449951,
      "reward_std": 0.17352108657360077,
      "rewards/reward_fn/mean": 3.969325542449951,
      "rewards/reward_fn/std": 0.17352110147476196,
      "step": 1082
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 362.0,
      "completions/max_terminated_length": 362.0,
      "completions/mean_length": 244.90625,
      "completions/mean_terminated_length": 244.90625,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.11488278349421874,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.020248351618647575,
      "learning_rate": 7.567199999999999e-06,
      "loss": 0.0566,
      "num_tokens": 50320498.0,
      "reward": 2.9547595977783203,
      "reward_std": 0.5952463746070862,
      "rewards/reward_fn/mean": 2.9547595977783203,
      "rewards/reward_fn/std": 0.5952463746070862,
      "step": 1083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 344.0,
      "completions/max_terminated_length": 344.0,
      "completions/mean_length": 227.5,
      "completions/mean_terminated_length": 227.5,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.11498886177999364,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.022126831114292145,
      "learning_rate": 7.566799999999999e-06,
      "loss": 0.0513,
      "num_tokens": 50361634.0,
      "reward": 3.7756552696228027,
      "reward_std": 0.6386120915412903,
      "rewards/reward_fn/mean": 3.7756552696228027,
      "rewards/reward_fn/std": 0.6386121511459351,
      "step": 1084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 401.0,
      "completions/max_terminated_length": 401.0,
      "completions/mean_length": 222.34375,
      "completions/mean_terminated_length": 222.34375,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.11509494006576854,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.080078125,
      "kl": 0.019203853677026927,
      "learning_rate": 7.566399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 50396141.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 99.0,
      "completions/max_terminated_length": 99.0,
      "completions/mean_length": 71.0,
      "completions/mean_terminated_length": 71.0,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.11520101835154344,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.140625,
      "kl": 0.023645572364330292,
      "learning_rate": 7.565999999999999e-06,
      "loss": 0.005,
      "num_tokens": 50420653.0,
      "reward": 3.9301629066467285,
      "reward_std": 0.3950580954551697,
      "rewards/reward_fn/mean": 3.9301629066467285,
      "rewards/reward_fn/std": 0.3950580954551697,
      "step": 1086
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 125.0,
      "completions/max_terminated_length": 125.0,
      "completions/mean_length": 92.21875,
      "completions/mean_terminated_length": 92.21875,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.11530709663731833,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2177734375,
      "kl": 0.021084198029711843,
      "learning_rate": 7.565599999999999e-06,
      "loss": 0.0008,
      "num_tokens": 50465332.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1061.0,
      "completions/max_terminated_length": 1061.0,
      "completions/mean_length": 313.78125,
      "completions/mean_terminated_length": 313.78125,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.11541317492309325,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0849609375,
      "kl": 0.02206204435788095,
      "learning_rate": 7.565199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 50512781.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.0,
      "completions/max_terminated_length": 551.0,
      "completions/mean_length": 179.5,
      "completions/mean_terminated_length": 179.5,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.11551925320886815,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.083984375,
      "kl": 0.01822281803470105,
      "learning_rate": 7.5648e-06,
      "loss": 0.0007,
      "num_tokens": 50551677.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1089
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 120.0,
      "completions/max_terminated_length": 120.0,
      "completions/mean_length": 83.59375,
      "completions/mean_terminated_length": 83.59375,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.11562533149464305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.8125,
      "kl": 0.027714208932593465,
      "learning_rate": 7.5644e-06,
      "loss": -0.0259,
      "num_tokens": 50628176.0,
      "reward": 3.9305734634399414,
      "reward_std": 0.39273524284362793,
      "rewards/reward_fn/mean": 3.9305734634399414,
      "rewards/reward_fn/std": 0.39273524284362793,
      "step": 1090
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 686.0,
      "completions/max_terminated_length": 686.0,
      "completions/mean_length": 315.15625,
      "completions/mean_terminated_length": 315.15625,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.11573140978041795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.02233049925416708,
      "learning_rate": 7.564e-06,
      "loss": 0.0933,
      "num_tokens": 50683957.0,
      "reward": 3.8804166316986084,
      "reward_std": 0.3777785003185272,
      "rewards/reward_fn/mean": 3.8804166316986084,
      "rewards/reward_fn/std": 0.3777785003185272,
      "step": 1091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 714.0,
      "completions/max_terminated_length": 714.0,
      "completions/mean_length": 371.125,
      "completions/mean_terminated_length": 371.125,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.11583748806619285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.029797785449773073,
      "learning_rate": 7.5636e-06,
      "loss": 0.0461,
      "num_tokens": 50751865.0,
      "reward": 2.858231544494629,
      "reward_std": 1.1363381147384644,
      "rewards/reward_fn/mean": 2.858231544494629,
      "rewards/reward_fn/std": 1.1363381147384644,
      "step": 1092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 184.0,
      "completions/max_terminated_length": 184.0,
      "completions/mean_length": 131.09375,
      "completions/mean_terminated_length": 131.09375,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.11594356635196776,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10888671875,
      "kl": 0.021672799484804273,
      "learning_rate": 7.5632e-06,
      "loss": 0.0009,
      "num_tokens": 50799932.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 853.0,
      "completions/max_terminated_length": 853.0,
      "completions/mean_length": 330.0625,
      "completions/mean_terminated_length": 330.0625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.11604964463774266,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06591796875,
      "kl": 0.017305174726061523,
      "learning_rate": 7.5628e-06,
      "loss": 0.0007,
      "num_tokens": 50857982.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1091.0,
      "completions/max_terminated_length": 1091.0,
      "completions/mean_length": 243.03125,
      "completions/mean_terminated_length": 243.03125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.11615572292351756,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.02653159131295979,
      "learning_rate": 7.5624e-06,
      "loss": -0.0145,
      "num_tokens": 50914719.0,
      "reward": 3.928218126296997,
      "reward_std": 0.40605998039245605,
      "rewards/reward_fn/mean": 3.928218126296997,
      "rewards/reward_fn/std": 0.40606001019477844,
      "step": 1095
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.0,
      "completions/max_terminated_length": 278.0,
      "completions/mean_length": 158.625,
      "completions/mean_terminated_length": 158.625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.11626180120929246,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10595703125,
      "kl": 0.02485039341263473,
      "learning_rate": 7.562e-06,
      "loss": 0.001,
      "num_tokens": 50947411.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1744.0,
      "completions/max_terminated_length": 1744.0,
      "completions/mean_length": 693.3125,
      "completions/mean_terminated_length": 693.3125,
      "completions/min_length": 380.0,
      "completions/min_terminated_length": 380.0,
      "epoch": 0.11636787949506736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.02324887551367283,
      "learning_rate": 7.5616e-06,
      "loss": 0.0876,
      "num_tokens": 51001437.0,
      "reward": 2.568819522857666,
      "reward_std": 0.38974249362945557,
      "rewards/reward_fn/mean": 2.568819522857666,
      "rewards/reward_fn/std": 0.3897424340248108,
      "step": 1097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1142.0,
      "completions/max_terminated_length": 1142.0,
      "completions/mean_length": 305.78125,
      "completions/mean_terminated_length": 305.78125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.11647395778084225,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.018533728667534888,
      "learning_rate": 7.5612e-06,
      "loss": 0.0793,
      "num_tokens": 51048822.0,
      "reward": 3.68546724319458,
      "reward_std": 0.5669353008270264,
      "rewards/reward_fn/mean": 3.68546724319458,
      "rewards/reward_fn/std": 0.5669353008270264,
      "step": 1098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 430.0,
      "completions/max_terminated_length": 430.0,
      "completions/mean_length": 78.71875,
      "completions/mean_terminated_length": 78.71875,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.11658003606661717,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1455078125,
      "kl": 0.02107345312833786,
      "learning_rate": 7.5608e-06,
      "loss": 0.0008,
      "num_tokens": 51085869.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1099
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 404.0,
      "completions/max_terminated_length": 404.0,
      "completions/mean_length": 238.3125,
      "completions/mean_terminated_length": 238.3125,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.11668611435239207,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.021306362934410572,
      "learning_rate": 7.5604e-06,
      "loss": 0.0548,
      "num_tokens": 51137207.0,
      "reward": 2.826180934906006,
      "reward_std": 0.03045596368610859,
      "rewards/reward_fn/mean": 2.826180934906006,
      "rewards/reward_fn/std": 0.03045591339468956,
      "step": 1100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 412.0,
      "completions/max_terminated_length": 412.0,
      "completions/mean_length": 244.25,
      "completions/mean_terminated_length": 244.25,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.11679219263816697,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.022923755925148726,
      "learning_rate": 7.56e-06,
      "loss": 0.0168,
      "num_tokens": 51193855.0,
      "reward": 3.835073947906494,
      "reward_std": 0.48954635858535767,
      "rewards/reward_fn/mean": 3.835073947906494,
      "rewards/reward_fn/std": 0.48954638838768005,
      "step": 1101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 276.0,
      "completions/max_terminated_length": 276.0,
      "completions/mean_length": 208.34375,
      "completions/mean_terminated_length": 208.34375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.11689827092394187,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08154296875,
      "kl": 0.016427406924776733,
      "learning_rate": 7.5596e-06,
      "loss": 0.0007,
      "num_tokens": 51233450.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 522.0,
      "completions/max_terminated_length": 522.0,
      "completions/mean_length": 275.15625,
      "completions/mean_terminated_length": 275.15625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.11700434920971677,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02642908156849444,
      "learning_rate": 7.5591999999999996e-06,
      "loss": -0.0509,
      "num_tokens": 51272687.0,
      "reward": 2.866469144821167,
      "reward_std": 0.3955315351486206,
      "rewards/reward_fn/mean": 2.866469144821167,
      "rewards/reward_fn/std": 0.395531564950943,
      "step": 1103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1498.0,
      "completions/mean_length": 786.0,
      "completions/mean_terminated_length": 745.290283203125,
      "completions/min_length": 339.0,
      "completions/min_terminated_length": 339.0,
      "epoch": 0.11711042749549168,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.02294124150648713,
      "learning_rate": 7.5587999999999995e-06,
      "loss": 0.1011,
      "num_tokens": 51341903.0,
      "reward": 2.7701563835144043,
      "reward_std": 0.355268269777298,
      "rewards/reward_fn/mean": 2.7701563835144043,
      "rewards/reward_fn/std": 0.3552682399749756,
      "step": 1104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 377.0,
      "completions/max_terminated_length": 377.0,
      "completions/mean_length": 213.4375,
      "completions/mean_terminated_length": 213.4375,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.11721650578126658,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06787109375,
      "kl": 0.017608007532544434,
      "learning_rate": 7.5583999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 51382781.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 600.0,
      "completions/max_terminated_length": 600.0,
      "completions/mean_length": 365.03125,
      "completions/mean_terminated_length": 365.03125,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.11732258406704148,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.021670927526429296,
      "learning_rate": 7.5579999999999995e-06,
      "loss": 0.0421,
      "num_tokens": 51425758.0,
      "reward": 2.7978286743164062,
      "reward_std": 0.512295663356781,
      "rewards/reward_fn/mean": 2.7978286743164062,
      "rewards/reward_fn/std": 0.512295663356781,
      "step": 1106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1947.0,
      "completions/max_terminated_length": 1947.0,
      "completions/mean_length": 535.5625,
      "completions/mean_terminated_length": 535.5625,
      "completions/min_length": 288.0,
      "completions/min_terminated_length": 288.0,
      "epoch": 0.11742866235281638,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.01689821679610759,
      "learning_rate": 7.5575999999999994e-06,
      "loss": -0.0038,
      "num_tokens": 51493776.0,
      "reward": 2.7099485397338867,
      "reward_std": 0.6777162551879883,
      "rewards/reward_fn/mean": 2.7099485397338867,
      "rewards/reward_fn/std": 0.6777163147926331,
      "step": 1107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 946.0,
      "completions/max_terminated_length": 946.0,
      "completions/mean_length": 197.0,
      "completions/mean_terminated_length": 197.0,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.11753474063859128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.02550308988429606,
      "learning_rate": 7.557199999999999e-06,
      "loss": 0.1913,
      "num_tokens": 51556496.0,
      "reward": 3.723670482635498,
      "reward_std": 0.4863794147968292,
      "rewards/reward_fn/mean": 3.723670482635498,
      "rewards/reward_fn/std": 0.4863794147968292,
      "step": 1108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1831.0,
      "completions/max_terminated_length": 1831.0,
      "completions/mean_length": 429.0625,
      "completions/mean_terminated_length": 429.0625,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.11764081892436619,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.01923588034696877,
      "learning_rate": 7.556799999999999e-06,
      "loss": 0.0173,
      "num_tokens": 51599986.0,
      "reward": 2.7359695434570312,
      "reward_std": 0.044656820595264435,
      "rewards/reward_fn/mean": 2.7359695434570312,
      "rewards/reward_fn/std": 0.044656842947006226,
      "step": 1109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 545.0,
      "completions/max_terminated_length": 545.0,
      "completions/mean_length": 275.46875,
      "completions/mean_terminated_length": 275.46875,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.11774689721014109,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.018184081302024424,
      "learning_rate": 7.556399999999999e-06,
      "loss": 0.0582,
      "num_tokens": 51651681.0,
      "reward": 3.522010564804077,
      "reward_std": 0.5560933351516724,
      "rewards/reward_fn/mean": 3.522010564804077,
      "rewards/reward_fn/std": 0.5560933351516724,
      "step": 1110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 959.0,
      "completions/max_terminated_length": 959.0,
      "completions/mean_length": 256.96875,
      "completions/mean_terminated_length": 256.96875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.11785297549591599,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.02644204581156373,
      "learning_rate": 7.555999999999999e-06,
      "loss": 0.0319,
      "num_tokens": 51691008.0,
      "reward": 3.9324989318847656,
      "reward_std": 0.26562514901161194,
      "rewards/reward_fn/mean": 3.9324989318847656,
      "rewards/reward_fn/std": 0.26562511920928955,
      "step": 1111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 606.0,
      "completions/max_terminated_length": 606.0,
      "completions/mean_length": 358.5,
      "completions/mean_terminated_length": 358.5,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.11795905378169089,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.020751751959323883,
      "learning_rate": 7.5556e-06,
      "loss": -0.0171,
      "num_tokens": 51747120.0,
      "reward": 2.6532459259033203,
      "reward_std": 0.33404526114463806,
      "rewards/reward_fn/mean": 2.6532459259033203,
      "rewards/reward_fn/std": 0.33404526114463806,
      "step": 1112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1739.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 447.53125,
      "completions/mean_terminated_length": 447.53125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.11806513206746579,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.025134951109066606,
      "learning_rate": 7.5552e-06,
      "loss": 0.1821,
      "num_tokens": 51800769.0,
      "reward": 3.224299192428589,
      "reward_std": 0.5572682619094849,
      "rewards/reward_fn/mean": 3.224299192428589,
      "rewards/reward_fn/std": 0.5572682619094849,
      "step": 1113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1545.0,
      "completions/max_terminated_length": 1545.0,
      "completions/mean_length": 395.875,
      "completions/mean_terminated_length": 395.875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.11817121035324069,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02163501945324242,
      "learning_rate": 7.5548e-06,
      "loss": 0.0656,
      "num_tokens": 51843965.0,
      "reward": 3.863697052001953,
      "reward_std": 0.36755073070526123,
      "rewards/reward_fn/mean": 3.863697052001953,
      "rewards/reward_fn/std": 0.36755073070526123,
      "step": 1114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.0,
      "completions/max_terminated_length": 339.0,
      "completions/mean_length": 136.5625,
      "completions/mean_terminated_length": 136.5625,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.1182772886390156,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.123046875,
      "kl": 0.030038248049095273,
      "learning_rate": 7.5544e-06,
      "loss": 0.0012,
      "num_tokens": 51894063.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1081.0,
      "completions/max_terminated_length": 1081.0,
      "completions/mean_length": 412.90625,
      "completions/mean_terminated_length": 412.90625,
      "completions/min_length": 231.0,
      "completions/min_terminated_length": 231.0,
      "epoch": 0.1183833669247905,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0546875,
      "kl": 0.018813129048794508,
      "learning_rate": 7.554e-06,
      "loss": -0.0249,
      "num_tokens": 51940748.0,
      "reward": 3.8100392818450928,
      "reward_std": 0.5366294384002686,
      "rewards/reward_fn/mean": 3.8100392818450928,
      "rewards/reward_fn/std": 0.5366293787956238,
      "step": 1116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 328.0,
      "completions/mean_length": 297.09375,
      "completions/mean_terminated_length": 240.61289978027344,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.1184894452105654,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.01792726945132017,
      "learning_rate": 7.5536e-06,
      "loss": 0.281,
      "num_tokens": 51983695.0,
      "reward": 3.659058094024658,
      "reward_std": 0.8081573843955994,
      "rewards/reward_fn/mean": 3.659058094024658,
      "rewards/reward_fn/std": 0.8081573843955994,
      "step": 1117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/max_terminated_length": 372.0,
      "completions/mean_length": 244.9375,
      "completions/mean_terminated_length": 244.9375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.1185955234963403,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.02788339671678841,
      "learning_rate": 7.5532e-06,
      "loss": 0.0633,
      "num_tokens": 52025869.0,
      "reward": 2.9600257873535156,
      "reward_std": 0.5432107448577881,
      "rewards/reward_fn/mean": 2.9600257873535156,
      "rewards/reward_fn/std": 0.5432106852531433,
      "step": 1118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 184.0,
      "completions/max_terminated_length": 184.0,
      "completions/mean_length": 109.15625,
      "completions/mean_terminated_length": 109.15625,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.1187016017821152,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.9375,
      "kl": 0.03897233330644667,
      "learning_rate": 7.5528e-06,
      "loss": 0.043,
      "num_tokens": 52061970.0,
      "reward": 3.0810916423797607,
      "reward_std": 0.24325308203697205,
      "rewards/reward_fn/mean": 3.0810916423797607,
      "rewards/reward_fn/std": 0.24325308203697205,
      "step": 1119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 760.0,
      "completions/max_terminated_length": 760.0,
      "completions/mean_length": 374.53125,
      "completions/mean_terminated_length": 374.53125,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.11880768006789011,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.017800742178224027,
      "learning_rate": 7.552399999999999e-06,
      "loss": 0.0929,
      "num_tokens": 52104931.0,
      "reward": 3.1744065284729004,
      "reward_std": 0.5665863156318665,
      "rewards/reward_fn/mean": 3.1744065284729004,
      "rewards/reward_fn/std": 0.5665862560272217,
      "step": 1120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 168.0,
      "completions/max_terminated_length": 168.0,
      "completions/mean_length": 117.1875,
      "completions/mean_terminated_length": 117.1875,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.11891375835366501,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.640625,
      "kl": 0.031384273897856474,
      "learning_rate": 7.551999999999999e-06,
      "loss": 0.0092,
      "num_tokens": 52142857.0,
      "reward": 3.7206034660339355,
      "reward_std": 0.6296123266220093,
      "rewards/reward_fn/mean": 3.7206034660339355,
      "rewards/reward_fn/std": 0.6296123266220093,
      "step": 1121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1076.0,
      "completions/max_terminated_length": 1076.0,
      "completions/mean_length": 336.40625,
      "completions/mean_terminated_length": 336.40625,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.11901983663943991,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.020996463019400835,
      "learning_rate": 7.551599999999999e-06,
      "loss": -0.1134,
      "num_tokens": 52188662.0,
      "reward": 3.5195388793945312,
      "reward_std": 0.6306620836257935,
      "rewards/reward_fn/mean": 3.5195388793945312,
      "rewards/reward_fn/std": 0.6306621432304382,
      "step": 1122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.0,
      "completions/max_terminated_length": 573.0,
      "completions/mean_length": 321.84375,
      "completions/mean_terminated_length": 321.84375,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.11912591492521481,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.01977117615751922,
      "learning_rate": 7.551199999999999e-06,
      "loss": 0.0567,
      "num_tokens": 52233617.0,
      "reward": 3.0178513526916504,
      "reward_std": 0.6891320943832397,
      "rewards/reward_fn/mean": 3.0178513526916504,
      "rewards/reward_fn/std": 0.689132034778595,
      "step": 1123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1633.0,
      "completions/max_terminated_length": 1633.0,
      "completions/mean_length": 547.84375,
      "completions/mean_terminated_length": 547.84375,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.1192319932109897,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.020315645029768348,
      "learning_rate": 7.5508e-06,
      "loss": -0.0442,
      "num_tokens": 52295468.0,
      "reward": 2.052112340927124,
      "reward_std": 0.5385510921478271,
      "rewards/reward_fn/mean": 2.052112340927124,
      "rewards/reward_fn/std": 0.5385510921478271,
      "step": 1124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1653.0,
      "completions/max_terminated_length": 1653.0,
      "completions/mean_length": 408.5625,
      "completions/mean_terminated_length": 408.5625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1193380714967646,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.0202141257468611,
      "learning_rate": 7.5504e-06,
      "loss": 0.0394,
      "num_tokens": 52348126.0,
      "reward": 2.4590096473693848,
      "reward_std": 0.5020030736923218,
      "rewards/reward_fn/mean": 2.4590096473693848,
      "rewards/reward_fn/std": 0.5020030736923218,
      "step": 1125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 145.6875,
      "completions/mean_terminated_length": 145.6875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.11944414978253952,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.03049472742713988,
      "learning_rate": 7.55e-06,
      "loss": 0.0012,
      "num_tokens": 52397780.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.0,
      "completions/max_terminated_length": 555.0,
      "completions/mean_length": 250.96875,
      "completions/mean_terminated_length": 250.96875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.11955022806831442,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.037999976659193635,
      "learning_rate": 7.5496e-06,
      "loss": -0.0338,
      "num_tokens": 52438483.0,
      "reward": 2.8391571044921875,
      "reward_std": 0.20920641720294952,
      "rewards/reward_fn/mean": 2.8391571044921875,
      "rewards/reward_fn/std": 0.20920643210411072,
      "step": 1127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 412.0,
      "completions/max_terminated_length": 412.0,
      "completions/mean_length": 242.125,
      "completions/mean_terminated_length": 242.125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.11965630635408932,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02898483257740736,
      "learning_rate": 7.5492e-06,
      "loss": 0.0341,
      "num_tokens": 52476727.0,
      "reward": 3.4120028018951416,
      "reward_std": 0.562468409538269,
      "rewards/reward_fn/mean": 3.4120028018951416,
      "rewards/reward_fn/std": 0.5624683499336243,
      "step": 1128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.15625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1930.0,
      "completions/mean_length": 1293.34375,
      "completions/mean_terminated_length": 1153.5926513671875,
      "completions/min_length": 746.0,
      "completions/min_terminated_length": 746.0,
      "epoch": 0.11976238463986422,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.98828125,
      "kl": 0.018078222521580756,
      "learning_rate": 7.5488e-06,
      "loss": 0.1773,
      "num_tokens": 52560418.0,
      "reward": 1.8458271026611328,
      "reward_std": 0.9291160106658936,
      "rewards/reward_fn/mean": 1.8458271026611328,
      "rewards/reward_fn/std": 0.9291160702705383,
      "step": 1129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 510.0,
      "completions/max_terminated_length": 510.0,
      "completions/mean_length": 196.375,
      "completions/mean_terminated_length": 196.375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.11986846292563912,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.087890625,
      "kl": 0.021710637491196394,
      "learning_rate": 7.5484e-06,
      "loss": 0.0009,
      "num_tokens": 52611342.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 169.0,
      "completions/max_terminated_length": 169.0,
      "completions/mean_length": 125.28125,
      "completions/mean_terminated_length": 125.28125,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.11997454121141403,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0771484375,
      "kl": 0.012505219259765,
      "learning_rate": 7.5479999999999996e-06,
      "loss": 0.0005,
      "num_tokens": 52658647.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 262.0,
      "completions/max_terminated_length": 262.0,
      "completions/mean_length": 140.71875,
      "completions/mean_terminated_length": 140.71875,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.12008061949718893,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.080078125,
      "kl": 0.018215686664916575,
      "learning_rate": 7.5475999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 52714286.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 764.0,
      "completions/max_terminated_length": 764.0,
      "completions/mean_length": 187.4375,
      "completions/mean_terminated_length": 187.4375,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.12018669778296383,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1103515625,
      "kl": 0.02393046487122774,
      "learning_rate": 7.5471999999999995e-06,
      "loss": 0.001,
      "num_tokens": 52756636.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1577.0,
      "completions/max_terminated_length": 1577.0,
      "completions/mean_length": 313.84375,
      "completions/mean_terminated_length": 313.84375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.12029277606873873,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.026081232354044914,
      "learning_rate": 7.5467999999999995e-06,
      "loss": 0.0927,
      "num_tokens": 52795991.0,
      "reward": 3.3418869972229004,
      "reward_std": 0.6929866671562195,
      "rewards/reward_fn/mean": 3.3418869972229004,
      "rewards/reward_fn/std": 0.6929866671562195,
      "step": 1134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 557.0,
      "completions/max_terminated_length": 557.0,
      "completions/mean_length": 190.78125,
      "completions/mean_terminated_length": 190.78125,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.12039885435451363,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.091796875,
      "kl": 0.021782017778605223,
      "learning_rate": 7.5464e-06,
      "loss": 0.0009,
      "num_tokens": 52848784.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 355.0,
      "completions/max_terminated_length": 355.0,
      "completions/mean_length": 210.65625,
      "completions/mean_terminated_length": 210.65625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.12050493264028854,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.022625808138400316,
      "learning_rate": 7.546e-06,
      "loss": 0.0627,
      "num_tokens": 52891269.0,
      "reward": 3.7008187770843506,
      "reward_std": 0.7357956767082214,
      "rewards/reward_fn/mean": 3.7008187770843506,
      "rewards/reward_fn/std": 0.7357956767082214,
      "step": 1136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 362.0,
      "completions/max_terminated_length": 362.0,
      "completions/mean_length": 94.84375,
      "completions/mean_terminated_length": 94.84375,
      "completions/min_length": 50.0,
      "completions/min_terminated_length": 50.0,
      "epoch": 0.12061101092606344,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.024228210328146815,
      "learning_rate": 7.5456e-06,
      "loss": 0.001,
      "num_tokens": 52945920.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 168.0,
      "completions/max_terminated_length": 168.0,
      "completions/mean_length": 116.78125,
      "completions/mean_terminated_length": 116.78125,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.12071708921183834,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1455078125,
      "kl": 0.027215805603191257,
      "learning_rate": 7.5452e-06,
      "loss": 0.0011,
      "num_tokens": 52977177.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1196.0,
      "completions/max_terminated_length": 1196.0,
      "completions/mean_length": 333.34375,
      "completions/mean_terminated_length": 333.34375,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.12082316749761324,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.021321170032024384,
      "learning_rate": 7.5448e-06,
      "loss": 0.0052,
      "num_tokens": 53023300.0,
      "reward": 3.9064579010009766,
      "reward_std": 0.2969244122505188,
      "rewards/reward_fn/mean": 3.9064579010009766,
      "rewards/reward_fn/std": 0.2969244122505188,
      "step": 1139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 109.0,
      "completions/max_terminated_length": 109.0,
      "completions/mean_length": 79.90625,
      "completions/mean_terminated_length": 79.90625,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.12092924578338814,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.953125,
      "kl": 0.018354161293245852,
      "learning_rate": 7.5444e-06,
      "loss": -0.0223,
      "num_tokens": 53060129.0,
      "reward": 3.9402408599853516,
      "reward_std": 0.23523320257663727,
      "rewards/reward_fn/mean": 3.9402408599853516,
      "rewards/reward_fn/std": 0.23523321747779846,
      "step": 1140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 899.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 429.6875,
      "completions/mean_terminated_length": 429.6875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.12103532406916304,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.02179452800191939,
      "learning_rate": 7.543999999999999e-06,
      "loss": 0.01,
      "num_tokens": 53106231.0,
      "reward": 2.8876233100891113,
      "reward_std": 0.218718022108078,
      "rewards/reward_fn/mean": 2.8876233100891113,
      "rewards/reward_fn/std": 0.21871797740459442,
      "step": 1141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1471.0,
      "completions/max_terminated_length": 1471.0,
      "completions/mean_length": 166.875,
      "completions/mean_terminated_length": 166.875,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.12114140235493795,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.142578125,
      "kl": 0.03363496996462345,
      "learning_rate": 7.543599999999999e-06,
      "loss": 0.0013,
      "num_tokens": 53162131.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 568.0,
      "completions/max_terminated_length": 568.0,
      "completions/mean_length": 206.1875,
      "completions/mean_terminated_length": 206.1875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.12124748064071285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8828125,
      "kl": 0.017744799610227346,
      "learning_rate": 7.543199999999999e-06,
      "loss": 0.0345,
      "num_tokens": 53198905.0,
      "reward": 2.7245864868164062,
      "reward_std": 0.032482411712408066,
      "rewards/reward_fn/mean": 2.7245864868164062,
      "rewards/reward_fn/std": 0.032482437789440155,
      "step": 1143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 286.0,
      "completions/max_terminated_length": 286.0,
      "completions/mean_length": 142.875,
      "completions/mean_terminated_length": 142.875,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.12135355892648775,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.30859375,
      "kl": 0.036823015194386244,
      "learning_rate": 7.542799999999999e-06,
      "loss": 0.0015,
      "num_tokens": 53243669.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 714.0,
      "completions/max_terminated_length": 714.0,
      "completions/mean_length": 206.75,
      "completions/mean_terminated_length": 206.75,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.12145963721226265,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.023123034741729498,
      "learning_rate": 7.542399999999999e-06,
      "loss": -0.0627,
      "num_tokens": 53288429.0,
      "reward": 2.7684268951416016,
      "reward_std": 0.05548159033060074,
      "rewards/reward_fn/mean": 2.7684268951416016,
      "rewards/reward_fn/std": 0.055481597781181335,
      "step": 1145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 957.0,
      "completions/max_terminated_length": 957.0,
      "completions/mean_length": 479.15625,
      "completions/mean_terminated_length": 479.15625,
      "completions/min_length": 285.0,
      "completions/min_terminated_length": 285.0,
      "epoch": 0.12156571549803755,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.017751626786775887,
      "learning_rate": 7.541999999999999e-06,
      "loss": -0.0229,
      "num_tokens": 53358578.0,
      "reward": 2.996565580368042,
      "reward_std": 0.6444182991981506,
      "rewards/reward_fn/mean": 2.996565580368042,
      "rewards/reward_fn/std": 0.6444182395935059,
      "step": 1146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.0,
      "completions/max_terminated_length": 343.0,
      "completions/mean_length": 200.71875,
      "completions/mean_terminated_length": 200.71875,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.12167179378381246,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.029425512766465545,
      "learning_rate": 7.5416e-06,
      "loss": 0.1157,
      "num_tokens": 53400937.0,
      "reward": 3.5051753520965576,
      "reward_std": 0.6135579943656921,
      "rewards/reward_fn/mean": 3.5051753520965576,
      "rewards/reward_fn/std": 0.6135579347610474,
      "step": 1147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 555.0,
      "completions/max_terminated_length": 555.0,
      "completions/mean_length": 305.125,
      "completions/mean_terminated_length": 305.125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.12177787206958736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.020469692768529058,
      "learning_rate": 7.5412e-06,
      "loss": 0.0535,
      "num_tokens": 53450349.0,
      "reward": 2.800945997238159,
      "reward_std": 0.287587434053421,
      "rewards/reward_fn/mean": 2.800945997238159,
      "rewards/reward_fn/std": 0.28758740425109863,
      "step": 1148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 302.0,
      "completions/max_terminated_length": 302.0,
      "completions/mean_length": 209.21875,
      "completions/mean_terminated_length": 209.21875,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.12188395035536226,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.022445352748036385,
      "learning_rate": 7.5408e-06,
      "loss": -0.0242,
      "num_tokens": 53515540.0,
      "reward": 3.882132053375244,
      "reward_std": 0.372415155172348,
      "rewards/reward_fn/mean": 3.882132053375244,
      "rewards/reward_fn/std": 0.372415155172348,
      "step": 1149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 926.0,
      "completions/max_terminated_length": 926.0,
      "completions/mean_length": 227.34375,
      "completions/mean_terminated_length": 227.34375,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.12199002864113716,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.020551395835354924,
      "learning_rate": 7.5404e-06,
      "loss": 0.0163,
      "num_tokens": 53560575.0,
      "reward": 2.9072699546813965,
      "reward_std": 0.2896516025066376,
      "rewards/reward_fn/mean": 2.9072699546813965,
      "rewards/reward_fn/std": 0.2896515727043152,
      "step": 1150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 657.0,
      "completions/max_terminated_length": 657.0,
      "completions/mean_length": 262.375,
      "completions/mean_terminated_length": 262.375,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.12209610692691206,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.024549536872655153,
      "learning_rate": 7.54e-06,
      "loss": 0.0296,
      "num_tokens": 53605867.0,
      "reward": 2.8168137073516846,
      "reward_std": 0.31276002526283264,
      "rewards/reward_fn/mean": 2.8168137073516846,
      "rewards/reward_fn/std": 0.31275999546051025,
      "step": 1151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1899.0,
      "completions/max_terminated_length": 1899.0,
      "completions/mean_length": 856.65625,
      "completions/mean_terminated_length": 856.65625,
      "completions/min_length": 469.0,
      "completions/min_terminated_length": 469.0,
      "epoch": 0.12220218521268696,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.98046875,
      "kl": 0.01613958622328937,
      "learning_rate": 7.5396e-06,
      "loss": 0.1343,
      "num_tokens": 53658240.0,
      "reward": 2.469219207763672,
      "reward_std": 0.45067059993743896,
      "rewards/reward_fn/mean": 2.469219207763672,
      "rewards/reward_fn/std": 0.4506705403327942,
      "step": 1152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 519.0,
      "completions/max_terminated_length": 519.0,
      "completions/mean_length": 313.40625,
      "completions/mean_terminated_length": 313.40625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.12230826349846187,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.026833078358322382,
      "learning_rate": 7.5392e-06,
      "loss": 0.0304,
      "num_tokens": 53720845.0,
      "reward": 2.7918012142181396,
      "reward_std": 0.5359998941421509,
      "rewards/reward_fn/mean": 2.7918012142181396,
      "rewards/reward_fn/std": 0.5359998941421509,
      "step": 1153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 577.0,
      "completions/max_terminated_length": 577.0,
      "completions/mean_length": 152.15625,
      "completions/mean_terminated_length": 152.15625,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.12241434178423677,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.421875,
      "kl": 0.0193988133687526,
      "learning_rate": 7.5388e-06,
      "loss": 0.0837,
      "num_tokens": 53770290.0,
      "reward": 2.6622109413146973,
      "reward_std": 0.07657734304666519,
      "rewards/reward_fn/mean": 2.6622109413146973,
      "rewards/reward_fn/std": 0.0765773355960846,
      "step": 1154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 910.0,
      "completions/max_terminated_length": 910.0,
      "completions/mean_length": 345.46875,
      "completions/mean_terminated_length": 345.46875,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.12252042007001167,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.01845894439611584,
      "learning_rate": 7.5384e-06,
      "loss": 0.0443,
      "num_tokens": 53810017.0,
      "reward": 2.8654346466064453,
      "reward_std": 0.06292664259672165,
      "rewards/reward_fn/mean": 2.8654346466064453,
      "rewards/reward_fn/std": 0.06292665004730225,
      "step": 1155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 456.0,
      "completions/max_terminated_length": 456.0,
      "completions/mean_length": 109.0625,
      "completions/mean_terminated_length": 109.0625,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.12262649835578657,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1357421875,
      "kl": 0.02120021218433976,
      "learning_rate": 7.538e-06,
      "loss": 0.0008,
      "num_tokens": 53857475.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 271.0,
      "completions/max_terminated_length": 271.0,
      "completions/mean_length": 180.1875,
      "completions/mean_terminated_length": 180.1875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.12273257664156147,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.021761987125501037,
      "learning_rate": 7.5376e-06,
      "loss": 0.0012,
      "num_tokens": 53895881.0,
      "reward": 3.3576347827911377,
      "reward_std": 0.5774080157279968,
      "rewards/reward_fn/mean": 3.3576347827911377,
      "rewards/reward_fn/std": 0.5774080157279968,
      "step": 1157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 371.28125,
      "completions/mean_terminated_length": 371.28125,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.12283865492733638,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.02653820696286857,
      "learning_rate": 7.5372e-06,
      "loss": 0.0207,
      "num_tokens": 53918706.0,
      "reward": 3.2473506927490234,
      "reward_std": 0.6305427551269531,
      "rewards/reward_fn/mean": 3.2473506927490234,
      "rewards/reward_fn/std": 0.6305428147315979,
      "step": 1158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 207.0,
      "completions/max_terminated_length": 207.0,
      "completions/mean_length": 132.34375,
      "completions/mean_terminated_length": 132.34375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.12294473321311128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.02793702925555408,
      "learning_rate": 7.5368e-06,
      "loss": 0.0161,
      "num_tokens": 53953661.0,
      "reward": 3.8980746269226074,
      "reward_std": 0.3230654299259186,
      "rewards/reward_fn/mean": 3.8980746269226074,
      "rewards/reward_fn/std": 0.3230654001235962,
      "step": 1159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1010.0,
      "completions/max_terminated_length": 1010.0,
      "completions/mean_length": 207.53125,
      "completions/mean_terminated_length": 207.53125,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.12305081149888618,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.296875,
      "kl": 0.029348223470151424,
      "learning_rate": 7.5364e-06,
      "loss": 0.0201,
      "num_tokens": 53978894.0,
      "reward": 3.4990692138671875,
      "reward_std": 0.6988479495048523,
      "rewards/reward_fn/mean": 3.4990692138671875,
      "rewards/reward_fn/std": 0.6988478899002075,
      "step": 1160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 660.0,
      "completions/max_terminated_length": 660.0,
      "completions/mean_length": 216.6875,
      "completions/mean_terminated_length": 216.6875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.12315688978466108,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.03555730218067765,
      "learning_rate": 7.5359999999999995e-06,
      "loss": 0.0271,
      "num_tokens": 54005508.0,
      "reward": 3.8622612953186035,
      "reward_std": 0.37032949924468994,
      "rewards/reward_fn/mean": 3.8622612953186035,
      "rewards/reward_fn/std": 0.37032952904701233,
      "step": 1161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1203.0,
      "completions/max_terminated_length": 1203.0,
      "completions/mean_length": 353.6875,
      "completions/mean_terminated_length": 353.6875,
      "completions/min_length": 272.0,
      "completions/min_terminated_length": 272.0,
      "epoch": 0.12326296807043598,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.018009544699452817,
      "learning_rate": 7.5355999999999995e-06,
      "loss": -0.0023,
      "num_tokens": 54058490.0,
      "reward": 3.888385772705078,
      "reward_std": 0.3552592396736145,
      "rewards/reward_fn/mean": 3.888385772705078,
      "rewards/reward_fn/std": 0.3552592098712921,
      "step": 1162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 614.0,
      "completions/max_terminated_length": 614.0,
      "completions/mean_length": 222.125,
      "completions/mean_terminated_length": 222.125,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.12336904635621089,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.02037247340194881,
      "learning_rate": 7.5351999999999994e-06,
      "loss": 0.0008,
      "num_tokens": 54102334.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 307.5625,
      "completions/mean_terminated_length": 307.5625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.12347512464198579,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.026630163891240954,
      "learning_rate": 7.534799999999999e-06,
      "loss": 0.0552,
      "num_tokens": 54132944.0,
      "reward": 3.7399346828460693,
      "reward_std": 0.5008683800697327,
      "rewards/reward_fn/mean": 3.7399346828460693,
      "rewards/reward_fn/std": 0.5008684396743774,
      "step": 1164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1234.0,
      "completions/max_terminated_length": 1234.0,
      "completions/mean_length": 327.96875,
      "completions/mean_terminated_length": 327.96875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.12358120292776069,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.024272862123325467,
      "learning_rate": 7.534399999999999e-06,
      "loss": 0.2175,
      "num_tokens": 54182607.0,
      "reward": 3.42256236076355,
      "reward_std": 1.0162280797958374,
      "rewards/reward_fn/mean": 3.42256236076355,
      "rewards/reward_fn/std": 1.0162280797958374,
      "step": 1165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 594.0,
      "completions/max_terminated_length": 594.0,
      "completions/mean_length": 255.90625,
      "completions/mean_terminated_length": 255.90625,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.12368728121353559,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.02412836579605937,
      "learning_rate": 7.533999999999999e-06,
      "loss": 0.1033,
      "num_tokens": 54237196.0,
      "reward": 3.846345901489258,
      "reward_std": 0.4130762219429016,
      "rewards/reward_fn/mean": 3.846345901489258,
      "rewards/reward_fn/std": 0.4130762219429016,
      "step": 1166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1370.0,
      "completions/max_terminated_length": 1370.0,
      "completions/mean_length": 366.46875,
      "completions/mean_terminated_length": 366.46875,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.12379335949931049,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.024113824125379324,
      "learning_rate": 7.533599999999999e-06,
      "loss": 0.003,
      "num_tokens": 54280251.0,
      "reward": 3.4150004386901855,
      "reward_std": 0.6626617312431335,
      "rewards/reward_fn/mean": 3.4150004386901855,
      "rewards/reward_fn/std": 0.6626616716384888,
      "step": 1167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 380.0,
      "completions/max_terminated_length": 380.0,
      "completions/mean_length": 200.25,
      "completions/mean_terminated_length": 200.25,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.12389943778508539,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.421875,
      "kl": 0.025690929731354117,
      "learning_rate": 7.533199999999999e-06,
      "loss": 0.0769,
      "num_tokens": 54321059.0,
      "reward": 2.788593053817749,
      "reward_std": 0.048831358551979065,
      "rewards/reward_fn/mean": 2.788593053817749,
      "rewards/reward_fn/std": 0.048831358551979065,
      "step": 1168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1791.0,
      "completions/max_terminated_length": 1791.0,
      "completions/mean_length": 496.5625,
      "completions/mean_terminated_length": 496.5625,
      "completions/min_length": 274.0,
      "completions/min_terminated_length": 274.0,
      "epoch": 0.1240055160708603,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.017352971248328686,
      "learning_rate": 7.532799999999999e-06,
      "loss": -0.0641,
      "num_tokens": 54375925.0,
      "reward": 3.188598871231079,
      "reward_std": 0.6397762894630432,
      "rewards/reward_fn/mean": 3.188598871231079,
      "rewards/reward_fn/std": 0.6397762298583984,
      "step": 1169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 244.0,
      "completions/max_terminated_length": 244.0,
      "completions/mean_length": 142.9375,
      "completions/mean_terminated_length": 142.9375,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.1241115943566352,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2451171875,
      "kl": 0.06317757535725832,
      "learning_rate": 7.532399999999999e-06,
      "loss": 0.0025,
      "num_tokens": 54416211.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 186.0,
      "completions/max_terminated_length": 186.0,
      "completions/mean_length": 146.0625,
      "completions/mean_terminated_length": 146.0625,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.1242176726424101,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.138671875,
      "kl": 0.02488727425225079,
      "learning_rate": 7.532e-06,
      "loss": 0.001,
      "num_tokens": 54455445.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 634.0,
      "completions/max_terminated_length": 634.0,
      "completions/mean_length": 187.5625,
      "completions/mean_terminated_length": 187.5625,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.124323750928185,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.026105482364073396,
      "learning_rate": 7.5316e-06,
      "loss": 0.0265,
      "num_tokens": 54492679.0,
      "reward": 3.9259839057922363,
      "reward_std": 0.291323721408844,
      "rewards/reward_fn/mean": 3.9259839057922363,
      "rewards/reward_fn/std": 0.291323721408844,
      "step": 1172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 306.0,
      "completions/max_terminated_length": 306.0,
      "completions/mean_length": 231.875,
      "completions/mean_terminated_length": 231.875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1244298292139599,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.015331451082602143,
      "learning_rate": 7.5312e-06,
      "loss": 0.0222,
      "num_tokens": 54553795.0,
      "reward": 3.9769577980041504,
      "reward_std": 0.13034707307815552,
      "rewards/reward_fn/mean": 3.9769577980041504,
      "rewards/reward_fn/std": 0.1303471028804779,
      "step": 1173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 263.0,
      "completions/max_terminated_length": 263.0,
      "completions/mean_length": 100.8125,
      "completions/mean_terminated_length": 100.8125,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.12453590749973481,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.193359375,
      "kl": 0.03184149111621082,
      "learning_rate": 7.5308e-06,
      "loss": 0.0013,
      "num_tokens": 54591645.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1491.0,
      "completions/max_terminated_length": 1491.0,
      "completions/mean_length": 347.1875,
      "completions/mean_terminated_length": 347.1875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.12464198578550971,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.027322919107973576,
      "learning_rate": 7.5304e-06,
      "loss": -0.2403,
      "num_tokens": 54634275.0,
      "reward": 2.2521934509277344,
      "reward_std": 0.5425410866737366,
      "rewards/reward_fn/mean": 2.2521934509277344,
      "rewards/reward_fn/std": 0.5425410866737366,
      "step": 1175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 905.0,
      "completions/max_terminated_length": 905.0,
      "completions/mean_length": 264.90625,
      "completions/mean_terminated_length": 264.90625,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.12474806407128461,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.01803676167037338,
      "learning_rate": 7.53e-06,
      "loss": -0.0299,
      "num_tokens": 54664704.0,
      "reward": 3.8208837509155273,
      "reward_std": 0.4239185154438019,
      "rewards/reward_fn/mean": 3.8208837509155273,
      "rewards/reward_fn/std": 0.4239185154438019,
      "step": 1176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1419.0,
      "completions/max_terminated_length": 1419.0,
      "completions/mean_length": 380.90625,
      "completions/mean_terminated_length": 380.90625,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.12485414235705951,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.02894961880519986,
      "learning_rate": 7.5296e-06,
      "loss": -0.0024,
      "num_tokens": 54708189.0,
      "reward": 3.098309278488159,
      "reward_std": 0.35013359785079956,
      "rewards/reward_fn/mean": 3.098309278488159,
      "rewards/reward_fn/std": 0.35013359785079956,
      "step": 1177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/max_terminated_length": 297.0,
      "completions/mean_length": 196.8125,
      "completions/mean_terminated_length": 196.8125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.12496022064283441,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08251953125,
      "kl": 0.020095350686460733,
      "learning_rate": 7.5292e-06,
      "loss": 0.0008,
      "num_tokens": 54760727.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 410.0,
      "completions/max_terminated_length": 410.0,
      "completions/mean_length": 180.09375,
      "completions/mean_terminated_length": 180.09375,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.12506629892860932,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.890625,
      "kl": 0.028536976547911763,
      "learning_rate": 7.5288e-06,
      "loss": 0.1951,
      "num_tokens": 54812314.0,
      "reward": 3.8505232334136963,
      "reward_std": 0.40203312039375305,
      "rewards/reward_fn/mean": 3.8505232334136963,
      "rewards/reward_fn/std": 0.40203315019607544,
      "step": 1179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 572.0,
      "completions/max_terminated_length": 572.0,
      "completions/mean_length": 140.3125,
      "completions/mean_terminated_length": 140.3125,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.1251723772143842,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.028160194400697947,
      "learning_rate": 7.5284e-06,
      "loss": 0.0011,
      "num_tokens": 54844484.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 530.0,
      "completions/max_terminated_length": 530.0,
      "completions/mean_length": 165.625,
      "completions/mean_terminated_length": 165.625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.12527845550015912,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.018880587071180344,
      "learning_rate": 7.527999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 54892440.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 569.0,
      "completions/max_terminated_length": 569.0,
      "completions/mean_length": 108.75,
      "completions/mean_terminated_length": 108.75,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.12538453378593403,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1259765625,
      "kl": 0.030261845095083117,
      "learning_rate": 7.527599999999999e-06,
      "loss": 0.0012,
      "num_tokens": 54919440.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 647.0,
      "completions/max_terminated_length": 647.0,
      "completions/mean_length": 353.9375,
      "completions/mean_terminated_length": 353.9375,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.12549061207170892,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.019826365518383682,
      "learning_rate": 7.5272e-06,
      "loss": 0.0081,
      "num_tokens": 54949006.0,
      "reward": 3.937495231628418,
      "reward_std": 0.24625274538993835,
      "rewards/reward_fn/mean": 3.937495231628418,
      "rewards/reward_fn/std": 0.24625271558761597,
      "step": 1183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 213.0,
      "completions/max_terminated_length": 213.0,
      "completions/mean_length": 138.625,
      "completions/mean_terminated_length": 138.625,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.12559669035748383,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.02072442672215402,
      "learning_rate": 7.5268e-06,
      "loss": 0.0357,
      "num_tokens": 54983426.0,
      "reward": 2.824800968170166,
      "reward_std": 0.023115260526537895,
      "rewards/reward_fn/mean": 2.824800968170166,
      "rewards/reward_fn/std": 0.023115256801247597,
      "step": 1184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1097.0,
      "completions/max_terminated_length": 1097.0,
      "completions/mean_length": 375.9375,
      "completions/mean_terminated_length": 375.9375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.12570276864325872,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2265625,
      "kl": 0.01736769184935838,
      "learning_rate": 7.5264e-06,
      "loss": -0.0127,
      "num_tokens": 55026240.0,
      "reward": 3.8968665599823,
      "reward_std": 0.33643701672554016,
      "rewards/reward_fn/mean": 3.8968665599823,
      "rewards/reward_fn/std": 0.3364369869232178,
      "step": 1185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1198.0,
      "completions/max_terminated_length": 1198.0,
      "completions/mean_length": 286.40625,
      "completions/mean_terminated_length": 286.40625,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.12580884692903363,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.021791806211695075,
      "learning_rate": 7.526e-06,
      "loss": -0.0103,
      "num_tokens": 55069293.0,
      "reward": 3.151297092437744,
      "reward_std": 0.42361894249916077,
      "rewards/reward_fn/mean": 3.151297092437744,
      "rewards/reward_fn/std": 0.4236189126968384,
      "step": 1186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 427.0,
      "completions/max_terminated_length": 427.0,
      "completions/mean_length": 231.46875,
      "completions/mean_terminated_length": 231.46875,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.12591492521480852,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.022306752856820822,
      "learning_rate": 7.5255999999999996e-06,
      "loss": 0.0999,
      "num_tokens": 55109244.0,
      "reward": 2.9199135303497314,
      "reward_std": 0.038811203092336655,
      "rewards/reward_fn/mean": 2.9199135303497314,
      "rewards/reward_fn/std": 0.03881121799349785,
      "step": 1187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1251.0,
      "completions/max_terminated_length": 1251.0,
      "completions/mean_length": 444.8125,
      "completions/mean_terminated_length": 444.8125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.12602100350058343,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.016548768035136163,
      "learning_rate": 7.5251999999999995e-06,
      "loss": -0.0012,
      "num_tokens": 55156630.0,
      "reward": 2.838229179382324,
      "reward_std": 0.38113701343536377,
      "rewards/reward_fn/mean": 2.838229179382324,
      "rewards/reward_fn/std": 0.381136953830719,
      "step": 1188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1006.0,
      "completions/max_terminated_length": 1006.0,
      "completions/mean_length": 224.09375,
      "completions/mean_terminated_length": 224.09375,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.12612708178635834,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09326171875,
      "kl": 0.022972247563302517,
      "learning_rate": 7.5247999999999995e-06,
      "loss": 0.0009,
      "num_tokens": 55201497.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 312.0,
      "completions/max_terminated_length": 312.0,
      "completions/mean_length": 227.125,
      "completions/mean_terminated_length": 227.125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.12623316007213323,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0712890625,
      "kl": 0.016570686595514417,
      "learning_rate": 7.5243999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 55253885.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 611.0,
      "completions/max_terminated_length": 611.0,
      "completions/mean_length": 120.625,
      "completions/mean_terminated_length": 120.625,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.12633923835790814,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0830078125,
      "kl": 0.01669433683855459,
      "learning_rate": 7.5239999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 55299857.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 961.0,
      "completions/max_terminated_length": 961.0,
      "completions/mean_length": 317.1875,
      "completions/mean_terminated_length": 317.1875,
      "completions/min_length": 181.0,
      "completions/min_terminated_length": 181.0,
      "epoch": 0.12644531664368303,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.017451874213293195,
      "learning_rate": 7.523599999999999e-06,
      "loss": 0.042,
      "num_tokens": 55343415.0,
      "reward": 3.317841053009033,
      "reward_std": 0.36798393726348877,
      "rewards/reward_fn/mean": 3.317841053009033,
      "rewards/reward_fn/std": 0.3679839074611664,
      "step": 1192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 822.0,
      "completions/max_terminated_length": 822.0,
      "completions/mean_length": 209.03125,
      "completions/mean_terminated_length": 209.03125,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.12655139492945794,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10546875,
      "kl": 0.02464919281192124,
      "learning_rate": 7.523199999999999e-06,
      "loss": 0.001,
      "num_tokens": 55384440.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 958.0,
      "completions/max_terminated_length": 958.0,
      "completions/mean_length": 233.65625,
      "completions/mean_terminated_length": 233.65625,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.12665747321523285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.018277527298778296,
      "learning_rate": 7.5228e-06,
      "loss": 0.1391,
      "num_tokens": 55425453.0,
      "reward": 2.884368419647217,
      "reward_std": 0.03824806585907936,
      "rewards/reward_fn/mean": 2.884368419647217,
      "rewards/reward_fn/std": 0.038248054683208466,
      "step": 1194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1284.0,
      "completions/max_terminated_length": 1284.0,
      "completions/mean_length": 469.59375,
      "completions/mean_terminated_length": 469.59375,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.12676355150100774,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.022253156173974276,
      "learning_rate": 7.5224e-06,
      "loss": 0.1067,
      "num_tokens": 55476704.0,
      "reward": 2.19340443611145,
      "reward_std": 0.5337251424789429,
      "rewards/reward_fn/mean": 2.19340443611145,
      "rewards/reward_fn/std": 0.5337251424789429,
      "step": 1195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 932.0,
      "completions/max_terminated_length": 932.0,
      "completions/mean_length": 283.71875,
      "completions/mean_terminated_length": 283.71875,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.12686962978678265,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.02405042969621718,
      "learning_rate": 7.522e-06,
      "loss": 0.0576,
      "num_tokens": 55530359.0,
      "reward": 3.064527988433838,
      "reward_std": 0.7311015725135803,
      "rewards/reward_fn/mean": 3.064527988433838,
      "rewards/reward_fn/std": 0.7311015725135803,
      "step": 1196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1483.0,
      "completions/max_terminated_length": 1483.0,
      "completions/mean_length": 494.71875,
      "completions/mean_terminated_length": 494.71875,
      "completions/min_length": 292.0,
      "completions/min_terminated_length": 292.0,
      "epoch": 0.12697570807255754,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.03502373583614826,
      "learning_rate": 7.5216e-06,
      "loss": -0.0091,
      "num_tokens": 55589870.0,
      "reward": 2.738553524017334,
      "reward_std": 0.32435670495033264,
      "rewards/reward_fn/mean": 2.738553524017334,
      "rewards/reward_fn/std": 0.32435664534568787,
      "step": 1197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 977.0,
      "completions/max_terminated_length": 977.0,
      "completions/mean_length": 295.40625,
      "completions/mean_terminated_length": 295.40625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.12708178635833245,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0791015625,
      "kl": 0.021748598664999008,
      "learning_rate": 7.5212e-06,
      "loss": 0.0009,
      "num_tokens": 55637723.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.0,
      "completions/max_terminated_length": 668.0,
      "completions/mean_length": 188.15625,
      "completions/mean_terminated_length": 188.15625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.12718786464410736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.421875,
      "kl": 0.032654849579557776,
      "learning_rate": 7.5208e-06,
      "loss": 0.0252,
      "num_tokens": 55684416.0,
      "reward": 3.786581039428711,
      "reward_std": 0.40999314188957214,
      "rewards/reward_fn/mean": 3.786581039428711,
      "rewards/reward_fn/std": 0.40999317169189453,
      "step": 1199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1946.0,
      "completions/mean_length": 433.5,
      "completions/mean_terminated_length": 381.4193420410156,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.12729394292988225,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.02767302538268268,
      "learning_rate": 7.5204e-06,
      "loss": 0.1638,
      "num_tokens": 55738768.0,
      "reward": 2.4253549575805664,
      "reward_std": 0.6796978712081909,
      "rewards/reward_fn/mean": 2.4253549575805664,
      "rewards/reward_fn/std": 0.6796978712081909,
      "step": 1200
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 259.0,
      "completions/max_terminated_length": 259.0,
      "completions/mean_length": 178.625,
      "completions/mean_terminated_length": 178.625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.12740002121565716,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.023716250201687217,
      "learning_rate": 7.519999999999999e-06,
      "loss": 0.03,
      "num_tokens": 55773892.0,
      "reward": 3.820127487182617,
      "reward_std": 0.5937113165855408,
      "rewards/reward_fn/mean": 3.820127487182617,
      "rewards/reward_fn/std": 0.5937113761901855,
      "step": 1201
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 264.0,
      "completions/max_terminated_length": 264.0,
      "completions/mean_length": 196.0,
      "completions/mean_terminated_length": 196.0,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.12750609950143205,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.59375,
      "kl": 0.026854999363422394,
      "learning_rate": 7.519599999999999e-06,
      "loss": 0.0397,
      "num_tokens": 55812132.0,
      "reward": 2.892002582550049,
      "reward_std": 0.21918649971485138,
      "rewards/reward_fn/mean": 2.892002582550049,
      "rewards/reward_fn/std": 0.21918649971485138,
      "step": 1202
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 210.0,
      "completions/max_terminated_length": 210.0,
      "completions/mean_length": 115.59375,
      "completions/mean_terminated_length": 115.59375,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.12761217778720696,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.34375,
      "kl": 0.028977030655369163,
      "learning_rate": 7.519199999999999e-06,
      "loss": 0.0267,
      "num_tokens": 55845655.0,
      "reward": 3.7437262535095215,
      "reward_std": 0.24018844962120056,
      "rewards/reward_fn/mean": 3.7437262535095215,
      "rewards/reward_fn/std": 0.24018843472003937,
      "step": 1203
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1056.0,
      "completions/max_terminated_length": 1056.0,
      "completions/mean_length": 576.625,
      "completions/mean_terminated_length": 576.625,
      "completions/min_length": 322.0,
      "completions/min_terminated_length": 322.0,
      "epoch": 0.12771825607298187,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0859375,
      "kl": 0.021841128589585423,
      "learning_rate": 7.518799999999999e-06,
      "loss": -0.0479,
      "num_tokens": 55903275.0,
      "reward": 2.7085070610046387,
      "reward_std": 0.27952468395233154,
      "rewards/reward_fn/mean": 2.7085070610046387,
      "rewards/reward_fn/std": 0.2795247435569763,
      "step": 1204
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 250.96875,
      "completions/mean_terminated_length": 250.96875,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.12782433435875676,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.02591366902925074,
      "learning_rate": 7.518399999999999e-06,
      "loss": -0.0142,
      "num_tokens": 55954634.0,
      "reward": 3.8671493530273438,
      "reward_std": 0.4651517868041992,
      "rewards/reward_fn/mean": 3.8671493530273438,
      "rewards/reward_fn/std": 0.46515172719955444,
      "step": 1205
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 998.0,
      "completions/max_terminated_length": 998.0,
      "completions/mean_length": 159.65625,
      "completions/mean_terminated_length": 159.65625,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.12793041264453167,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.031389163341373205,
      "learning_rate": 7.518e-06,
      "loss": -0.0059,
      "num_tokens": 55992159.0,
      "reward": 3.941786527633667,
      "reward_std": 0.22907233238220215,
      "rewards/reward_fn/mean": 3.941786527633667,
      "rewards/reward_fn/std": 0.22907236218452454,
      "step": 1206
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1829.0,
      "completions/max_terminated_length": 1829.0,
      "completions/mean_length": 441.4375,
      "completions/mean_terminated_length": 441.4375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.12803649093030656,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.021549456054344773,
      "learning_rate": 7.5176e-06,
      "loss": -0.0619,
      "num_tokens": 56038477.0,
      "reward": 1.9434212446212769,
      "reward_std": 0.4184891879558563,
      "rewards/reward_fn/mean": 1.9434212446212769,
      "rewards/reward_fn/std": 0.41848915815353394,
      "step": 1207
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 357.0,
      "completions/max_terminated_length": 357.0,
      "completions/mean_length": 252.65625,
      "completions/mean_terminated_length": 252.65625,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.12814256921608147,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09521484375,
      "kl": 0.022802669554948807,
      "learning_rate": 7.5172e-06,
      "loss": 0.0009,
      "num_tokens": 56080226.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1208
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 219.0,
      "completions/max_terminated_length": 219.0,
      "completions/mean_length": 135.28125,
      "completions/mean_terminated_length": 135.28125,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.12824864750185638,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.46875,
      "kl": 0.029397084843367338,
      "learning_rate": 7.5168e-06,
      "loss": 0.0055,
      "num_tokens": 56099915.0,
      "reward": 3.7214303016662598,
      "reward_std": 0.748846709728241,
      "rewards/reward_fn/mean": 3.7214303016662598,
      "rewards/reward_fn/std": 0.748846709728241,
      "step": 1209
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 843.0,
      "completions/max_terminated_length": 843.0,
      "completions/mean_length": 223.21875,
      "completions/mean_terminated_length": 223.21875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.12835472578763127,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.083984375,
      "kl": 0.019289852352812886,
      "learning_rate": 7.5164e-06,
      "loss": 0.0008,
      "num_tokens": 56141554.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1210
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1602.0,
      "completions/max_terminated_length": 1602.0,
      "completions/mean_length": 383.5,
      "completions/mean_terminated_length": 383.5,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.12846080407340618,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.021108913468196988,
      "learning_rate": 7.516e-06,
      "loss": 0.1666,
      "num_tokens": 56186946.0,
      "reward": 2.6080212593078613,
      "reward_std": 0.37626245617866516,
      "rewards/reward_fn/mean": 2.6080212593078613,
      "rewards/reward_fn/std": 0.37626245617866516,
      "step": 1211
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1582.0,
      "completions/max_terminated_length": 1582.0,
      "completions/mean_length": 310.46875,
      "completions/mean_terminated_length": 310.46875,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.12856688235918107,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.031106388196349144,
      "learning_rate": 7.5156e-06,
      "loss": 0.0356,
      "num_tokens": 56225809.0,
      "reward": 3.812455654144287,
      "reward_std": 0.5331630110740662,
      "rewards/reward_fn/mean": 3.812455654144287,
      "rewards/reward_fn/std": 0.5331630110740662,
      "step": 1212
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1278.0,
      "completions/max_terminated_length": 1278.0,
      "completions/mean_length": 234.3125,
      "completions/mean_terminated_length": 234.3125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.12867296064495598,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08837890625,
      "kl": 0.02681015362031758,
      "learning_rate": 7.5152e-06,
      "loss": 0.0011,
      "num_tokens": 56271995.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1213
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 733.0,
      "completions/max_terminated_length": 733.0,
      "completions/mean_length": 182.875,
      "completions/mean_terminated_length": 182.875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.12877903893073087,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.02213688869960606,
      "learning_rate": 7.5148e-06,
      "loss": -0.0091,
      "num_tokens": 56311767.0,
      "reward": 3.972648859024048,
      "reward_std": 0.15472157299518585,
      "rewards/reward_fn/mean": 3.972648859024048,
      "rewards/reward_fn/std": 0.15472158789634705,
      "step": 1214
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 478.0,
      "completions/max_terminated_length": 478.0,
      "completions/mean_length": 173.0,
      "completions/mean_terminated_length": 173.0,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.12888511721650578,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.103515625,
      "kl": 0.021893349941819906,
      "learning_rate": 7.5144e-06,
      "loss": 0.0009,
      "num_tokens": 56351543.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1215
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 886.0,
      "completions/max_terminated_length": 886.0,
      "completions/mean_length": 373.15625,
      "completions/mean_terminated_length": 373.15625,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.1289911955022807,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.018810822628438473,
      "learning_rate": 7.5139999999999995e-06,
      "loss": 0.023,
      "num_tokens": 56409276.0,
      "reward": 2.859402656555176,
      "reward_std": 0.30087754130363464,
      "rewards/reward_fn/mean": 2.859402656555176,
      "rewards/reward_fn/std": 0.30087754130363464,
      "step": 1216
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1885.0,
      "completions/mean_length": 824.4375,
      "completions/mean_terminated_length": 784.9677124023438,
      "completions/min_length": 437.0,
      "completions/min_terminated_length": 437.0,
      "epoch": 0.12909727378805558,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.109375,
      "kl": 0.019085350446403027,
      "learning_rate": 7.5135999999999995e-06,
      "loss": 0.0753,
      "num_tokens": 56473194.0,
      "reward": 2.612720012664795,
      "reward_std": 0.8761619925498962,
      "rewards/reward_fn/mean": 2.612720012664795,
      "rewards/reward_fn/std": 0.8761619329452515,
      "step": 1217
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1181.0,
      "completions/max_terminated_length": 1181.0,
      "completions/mean_length": 309.84375,
      "completions/mean_terminated_length": 309.84375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.1292033520738305,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.025362204294651747,
      "learning_rate": 7.5132e-06,
      "loss": 0.1876,
      "num_tokens": 56515589.0,
      "reward": 3.943398952484131,
      "reward_std": 0.22278046607971191,
      "rewards/reward_fn/mean": 3.943398952484131,
      "rewards/reward_fn/std": 0.22278045117855072,
      "step": 1218
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1469.0,
      "completions/max_terminated_length": 1469.0,
      "completions/mean_length": 458.5625,
      "completions/mean_terminated_length": 458.5625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.12930943035960538,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.019134088302962482,
      "learning_rate": 7.5128e-06,
      "loss": 0.0589,
      "num_tokens": 56561207.0,
      "reward": 2.810291051864624,
      "reward_std": 0.20179764926433563,
      "rewards/reward_fn/mean": 2.810291051864624,
      "rewards/reward_fn/std": 0.20179766416549683,
      "step": 1219
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 173.0,
      "completions/max_terminated_length": 173.0,
      "completions/mean_length": 123.375,
      "completions/mean_terminated_length": 123.375,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.1294155086453803,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.031952549470588565,
      "learning_rate": 7.5124e-06,
      "loss": 0.0337,
      "num_tokens": 56600451.0,
      "reward": 2.794665813446045,
      "reward_std": 0.021768808364868164,
      "rewards/reward_fn/mean": 2.794665813446045,
      "rewards/reward_fn/std": 0.02176877297461033,
      "step": 1220
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 541.0,
      "completions/max_terminated_length": 541.0,
      "completions/mean_length": 154.96875,
      "completions/mean_terminated_length": 154.96875,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.1295215869311552,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10498046875,
      "kl": 0.02546194172464311,
      "learning_rate": 7.511999999999999e-06,
      "loss": 0.001,
      "num_tokens": 56625634.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1221
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 224.4375,
      "completions/mean_terminated_length": 224.4375,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1296276652169301,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1015625,
      "kl": 0.02249453659169376,
      "learning_rate": 7.511599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 56664080.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1222
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 337.0,
      "completions/max_terminated_length": 337.0,
      "completions/mean_length": 250.90625,
      "completions/mean_terminated_length": 250.90625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.129733743502705,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.0323591826017946,
      "learning_rate": 7.511199999999999e-06,
      "loss": -0.0297,
      "num_tokens": 56708525.0,
      "reward": 2.691908359527588,
      "reward_std": 0.03684841841459274,
      "rewards/reward_fn/mean": 2.691908359527588,
      "rewards/reward_fn/std": 0.03684840723872185,
      "step": 1223
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1036.0,
      "completions/max_terminated_length": 1036.0,
      "completions/mean_length": 304.40625,
      "completions/mean_terminated_length": 304.40625,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.1298398217884799,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.02477300027385354,
      "learning_rate": 7.510799999999999e-06,
      "loss": 0.0578,
      "num_tokens": 56751418.0,
      "reward": 3.2451024055480957,
      "reward_std": 0.5951552391052246,
      "rewards/reward_fn/mean": 3.2451024055480957,
      "rewards/reward_fn/std": 0.5951551795005798,
      "step": 1224
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 490.0,
      "completions/max_terminated_length": 490.0,
      "completions/mean_length": 221.0,
      "completions/mean_terminated_length": 221.0,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.1299459000742548,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.02321016346104443,
      "learning_rate": 7.510399999999999e-06,
      "loss": 0.0499,
      "num_tokens": 56774074.0,
      "reward": 3.972011089324951,
      "reward_std": 0.1583283692598343,
      "rewards/reward_fn/mean": 3.972011089324951,
      "rewards/reward_fn/std": 0.1583283543586731,
      "step": 1225
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 990.0,
      "completions/max_terminated_length": 990.0,
      "completions/mean_length": 232.59375,
      "completions/mean_terminated_length": 232.59375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.1300519783600297,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.027153413044288754,
      "learning_rate": 7.509999999999999e-06,
      "loss": 0.0753,
      "num_tokens": 56813293.0,
      "reward": 2.9659242630004883,
      "reward_std": 0.0341903492808342,
      "rewards/reward_fn/mean": 2.9659242630004883,
      "rewards/reward_fn/std": 0.0341903492808342,
      "step": 1226
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1277.0,
      "completions/max_terminated_length": 1277.0,
      "completions/mean_length": 396.53125,
      "completions/mean_terminated_length": 396.53125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.1301580566458046,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.022763823391869664,
      "learning_rate": 7.509599999999999e-06,
      "loss": 0.0602,
      "num_tokens": 56865662.0,
      "reward": 3.668447494506836,
      "reward_std": 0.6870428919792175,
      "rewards/reward_fn/mean": 3.668447494506836,
      "rewards/reward_fn/std": 0.6870428323745728,
      "step": 1227
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 259.125,
      "completions/mean_terminated_length": 259.125,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.1302641349315795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.02840983378700912,
      "learning_rate": 7.509199999999999e-06,
      "loss": 0.001,
      "num_tokens": 56907266.0,
      "reward": 3.0267953872680664,
      "reward_std": 0.18145422637462616,
      "rewards/reward_fn/mean": 3.0267953872680664,
      "rewards/reward_fn/std": 0.18145416676998138,
      "step": 1228
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1084.0,
      "completions/max_terminated_length": 1084.0,
      "completions/mean_length": 509.75,
      "completions/mean_terminated_length": 509.75,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.1303702132173544,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.98046875,
      "kl": 0.021488810423761606,
      "learning_rate": 7.508799999999999e-06,
      "loss": -0.0026,
      "num_tokens": 56957146.0,
      "reward": 2.784040927886963,
      "reward_std": 0.219995379447937,
      "rewards/reward_fn/mean": 2.784040927886963,
      "rewards/reward_fn/std": 0.21999536454677582,
      "step": 1229
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1945.0,
      "completions/max_terminated_length": 1945.0,
      "completions/mean_length": 609.0,
      "completions/mean_terminated_length": 609.0,
      "completions/min_length": 332.0,
      "completions/min_terminated_length": 332.0,
      "epoch": 0.1304762915031293,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2265625,
      "kl": 0.022416489897295833,
      "learning_rate": 7.5084e-06,
      "loss": 0.1618,
      "num_tokens": 57012602.0,
      "reward": 3.59625244140625,
      "reward_std": 0.8699040412902832,
      "rewards/reward_fn/mean": 3.59625244140625,
      "rewards/reward_fn/std": 0.8699040412902832,
      "step": 1230
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 488.0,
      "completions/max_terminated_length": 488.0,
      "completions/mean_length": 319.96875,
      "completions/mean_terminated_length": 319.96875,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.13058236978890422,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.025042463559657335,
      "learning_rate": 7.508e-06,
      "loss": 0.003,
      "num_tokens": 57064185.0,
      "reward": 3.126904010772705,
      "reward_std": 0.5139070749282837,
      "rewards/reward_fn/mean": 3.126904010772705,
      "rewards/reward_fn/std": 0.5139070749282837,
      "step": 1231
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 774.0,
      "completions/max_terminated_length": 774.0,
      "completions/mean_length": 170.34375,
      "completions/mean_terminated_length": 170.34375,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.1306884480746791,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.024505676236003637,
      "learning_rate": 7.5076e-06,
      "loss": 0.07,
      "num_tokens": 57102692.0,
      "reward": 3.0724833011627197,
      "reward_std": 0.03876578435301781,
      "rewards/reward_fn/mean": 3.0724833011627197,
      "rewards/reward_fn/std": 0.03876576945185661,
      "step": 1232
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 553.0,
      "completions/max_terminated_length": 553.0,
      "completions/mean_length": 105.03125,
      "completions/mean_terminated_length": 105.03125,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.13079452636045402,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.126953125,
      "kl": 0.01858626154717058,
      "learning_rate": 7.5072e-06,
      "loss": 0.0007,
      "num_tokens": 57171781.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1233
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 381.0,
      "completions/max_terminated_length": 381.0,
      "completions/mean_length": 90.375,
      "completions/mean_terminated_length": 90.375,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.1309006046462289,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1396484375,
      "kl": 0.027592405676841736,
      "learning_rate": 7.5068e-06,
      "loss": 0.0011,
      "num_tokens": 57202545.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1234
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1151.0,
      "completions/max_terminated_length": 1151.0,
      "completions/mean_length": 732.09375,
      "completions/mean_terminated_length": 732.09375,
      "completions/min_length": 424.0,
      "completions/min_terminated_length": 424.0,
      "epoch": 0.13100668293200382,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.984375,
      "kl": 0.019199739210307598,
      "learning_rate": 7.5064e-06,
      "loss": 0.0475,
      "num_tokens": 57265332.0,
      "reward": 2.7055556774139404,
      "reward_std": 0.27973470091819763,
      "rewards/reward_fn/mean": 2.7055556774139404,
      "rewards/reward_fn/std": 0.27973467111587524,
      "step": 1235
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 537.0,
      "completions/max_terminated_length": 537.0,
      "completions/mean_length": 364.5,
      "completions/mean_terminated_length": 364.5,
      "completions/min_length": 265.0,
      "completions/min_terminated_length": 265.0,
      "epoch": 0.13111276121777873,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.028548541711643338,
      "learning_rate": 7.506e-06,
      "loss": -0.02,
      "num_tokens": 57320836.0,
      "reward": 2.947634696960449,
      "reward_std": 0.29028210043907166,
      "rewards/reward_fn/mean": 2.947634696960449,
      "rewards/reward_fn/std": 0.29028213024139404,
      "step": 1236
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 697.0,
      "completions/max_terminated_length": 697.0,
      "completions/mean_length": 192.84375,
      "completions/mean_terminated_length": 192.84375,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.13121883950355362,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1279296875,
      "kl": 0.029802830889821053,
      "learning_rate": 7.5056e-06,
      "loss": 0.0012,
      "num_tokens": 57362975.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1237
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1456.0,
      "completions/max_terminated_length": 1456.0,
      "completions/mean_length": 424.59375,
      "completions/mean_terminated_length": 424.59375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.13132491778932853,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.021809349535033107,
      "learning_rate": 7.5052e-06,
      "loss": -0.0274,
      "num_tokens": 57420690.0,
      "reward": 3.653506278991699,
      "reward_std": 0.635819137096405,
      "rewards/reward_fn/mean": 3.653506278991699,
      "rewards/reward_fn/std": 0.6358190774917603,
      "step": 1238
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 490.0,
      "completions/max_terminated_length": 490.0,
      "completions/mean_length": 248.40625,
      "completions/mean_terminated_length": 248.40625,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.13143099607510342,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.026568999979645014,
      "learning_rate": 7.5048e-06,
      "loss": 0.054,
      "num_tokens": 57458239.0,
      "reward": 2.9668123722076416,
      "reward_std": 0.20671309530735016,
      "rewards/reward_fn/mean": 2.9668123722076416,
      "rewards/reward_fn/std": 0.20671308040618896,
      "step": 1239
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 980.0,
      "completions/max_terminated_length": 980.0,
      "completions/mean_length": 183.4375,
      "completions/mean_terminated_length": 183.4375,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.13153707436087833,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.02611563727259636,
      "learning_rate": 7.5044e-06,
      "loss": 0.1308,
      "num_tokens": 57515629.0,
      "reward": 3.3227896690368652,
      "reward_std": 0.5340291857719421,
      "rewards/reward_fn/mean": 3.3227896690368652,
      "rewards/reward_fn/std": 0.5340291857719421,
      "step": 1240
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 578.0,
      "completions/max_terminated_length": 578.0,
      "completions/mean_length": 172.84375,
      "completions/mean_terminated_length": 172.84375,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.13164315264665322,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.02926379698328674,
      "learning_rate": 7.503999999999999e-06,
      "loss": 0.0133,
      "num_tokens": 57562088.0,
      "reward": 3.874748706817627,
      "reward_std": 0.452591210603714,
      "rewards/reward_fn/mean": 3.874748706817627,
      "rewards/reward_fn/std": 0.452591210603714,
      "step": 1241
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 901.0,
      "completions/max_terminated_length": 901.0,
      "completions/mean_length": 212.15625,
      "completions/mean_terminated_length": 212.15625,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.13174923093242813,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.6875,
      "kl": 0.03235385986045003,
      "learning_rate": 7.5036e-06,
      "loss": 0.0707,
      "num_tokens": 57610029.0,
      "reward": 3.885643720626831,
      "reward_std": 0.3627666234970093,
      "rewards/reward_fn/mean": 3.885643720626831,
      "rewards/reward_fn/std": 0.3627666234970093,
      "step": 1242
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1720.0,
      "completions/mean_length": 711.53125,
      "completions/mean_terminated_length": 668.4193115234375,
      "completions/min_length": 284.0,
      "completions/min_terminated_length": 284.0,
      "epoch": 0.13185530921820304,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.019830133765935898,
      "learning_rate": 7.5032e-06,
      "loss": 0.2383,
      "num_tokens": 57672158.0,
      "reward": 2.4883432388305664,
      "reward_std": 0.572623610496521,
      "rewards/reward_fn/mean": 2.4883432388305664,
      "rewards/reward_fn/std": 0.5726235508918762,
      "step": 1243
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1099.0,
      "completions/max_terminated_length": 1099.0,
      "completions/mean_length": 352.71875,
      "completions/mean_terminated_length": 352.71875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.13196138750397793,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.02547502121888101,
      "learning_rate": 7.5027999999999996e-06,
      "loss": 0.0176,
      "num_tokens": 57717909.0,
      "reward": 2.8250460624694824,
      "reward_std": 0.2939043641090393,
      "rewards/reward_fn/mean": 2.8250460624694824,
      "rewards/reward_fn/std": 0.2939044237136841,
      "step": 1244
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 691.0,
      "completions/max_terminated_length": 691.0,
      "completions/mean_length": 167.5625,
      "completions/mean_terminated_length": 167.5625,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.13206746578975284,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.25,
      "kl": 0.04957319051027298,
      "learning_rate": 7.5023999999999995e-06,
      "loss": 0.1431,
      "num_tokens": 57772551.0,
      "reward": 3.9671456813812256,
      "reward_std": 0.1858520656824112,
      "rewards/reward_fn/mean": 3.9671456813812256,
      "rewards/reward_fn/std": 0.1858520358800888,
      "step": 1245
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1102.0,
      "completions/max_terminated_length": 1102.0,
      "completions/mean_length": 408.5625,
      "completions/mean_terminated_length": 408.5625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.13217354407552773,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.028883446706458926,
      "learning_rate": 7.5019999999999995e-06,
      "loss": 0.0568,
      "num_tokens": 57820825.0,
      "reward": 2.7001430988311768,
      "reward_std": 0.3382115960121155,
      "rewards/reward_fn/mean": 2.7001430988311768,
      "rewards/reward_fn/std": 0.33821165561676025,
      "step": 1246
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1814.0,
      "completions/max_terminated_length": 1814.0,
      "completions/mean_length": 494.78125,
      "completions/mean_terminated_length": 494.78125,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.13227962236130264,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.018464128370396793,
      "learning_rate": 7.5015999999999995e-06,
      "loss": -0.1013,
      "num_tokens": 57858418.0,
      "reward": 3.8081459999084473,
      "reward_std": 0.5380722284317017,
      "rewards/reward_fn/mean": 3.8081459999084473,
      "rewards/reward_fn/std": 0.5380722284317017,
      "step": 1247
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 102.0,
      "completions/max_terminated_length": 102.0,
      "completions/mean_length": 79.84375,
      "completions/mean_terminated_length": 79.84375,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.13238570064707755,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1943359375,
      "kl": 0.02420707419514656,
      "learning_rate": 7.5011999999999994e-06,
      "loss": 0.001,
      "num_tokens": 57898733.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1248
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1284.0,
      "completions/max_terminated_length": 1284.0,
      "completions/mean_length": 336.15625,
      "completions/mean_terminated_length": 336.15625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.13249177893285244,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.02854512631893158,
      "learning_rate": 7.500799999999999e-06,
      "loss": -0.0838,
      "num_tokens": 57938002.0,
      "reward": 2.6425585746765137,
      "reward_std": 0.25894415378570557,
      "rewards/reward_fn/mean": 2.6425585746765137,
      "rewards/reward_fn/std": 0.25894415378570557,
      "step": 1249
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 444.0,
      "completions/max_terminated_length": 444.0,
      "completions/mean_length": 294.5,
      "completions/mean_terminated_length": 294.5,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.13259785721862735,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.02842319617047906,
      "learning_rate": 7.500399999999999e-06,
      "loss": 0.063,
      "num_tokens": 57993954.0,
      "reward": 3.9350175857543945,
      "reward_std": 0.2557204067707062,
      "rewards/reward_fn/mean": 3.9350175857543945,
      "rewards/reward_fn/std": 0.2557204067707062,
      "step": 1250
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 171.0,
      "completions/max_terminated_length": 171.0,
      "completions/mean_length": 103.03125,
      "completions/mean_terminated_length": 103.03125,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.13270393550440224,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.046875,
      "kl": 0.02735895407386124,
      "learning_rate": 7.499999999999999e-06,
      "loss": 0.0611,
      "num_tokens": 58034563.0,
      "reward": 3.108828544616699,
      "reward_std": 0.05664081871509552,
      "rewards/reward_fn/mean": 3.108828544616699,
      "rewards/reward_fn/std": 0.056640833616256714,
      "step": 1251
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 227.5625,
      "completions/mean_terminated_length": 227.5625,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.13281001379017715,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.027604984818026423,
      "learning_rate": 7.499599999999999e-06,
      "loss": 0.1806,
      "num_tokens": 58079445.0,
      "reward": 3.8578529357910156,
      "reward_std": 0.475358247756958,
      "rewards/reward_fn/mean": 3.8578529357910156,
      "rewards/reward_fn/std": 0.4753582775592804,
      "step": 1252
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 782.0,
      "completions/max_terminated_length": 782.0,
      "completions/mean_length": 311.09375,
      "completions/mean_terminated_length": 311.09375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.13291609207595206,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.01987571455538273,
      "learning_rate": 7.4992e-06,
      "loss": 0.0234,
      "num_tokens": 58131000.0,
      "reward": 3.4816336631774902,
      "reward_std": 0.716206431388855,
      "rewards/reward_fn/mean": 3.4816336631774902,
      "rewards/reward_fn/std": 0.716206431388855,
      "step": 1253
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1183.0,
      "completions/max_terminated_length": 1183.0,
      "completions/mean_length": 362.34375,
      "completions/mean_terminated_length": 362.34375,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.13302217036172695,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.027468676446005702,
      "learning_rate": 7.4988e-06,
      "loss": 0.014,
      "num_tokens": 58186275.0,
      "reward": 3.3233084678649902,
      "reward_std": 0.533751368522644,
      "rewards/reward_fn/mean": 3.3233084678649902,
      "rewards/reward_fn/std": 0.533751368522644,
      "step": 1254
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 579.0,
      "completions/max_terminated_length": 579.0,
      "completions/mean_length": 285.59375,
      "completions/mean_terminated_length": 285.59375,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.13312824864750186,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.02612379170022905,
      "learning_rate": 7.4984e-06,
      "loss": -0.0235,
      "num_tokens": 58236950.0,
      "reward": 3.6018028259277344,
      "reward_std": 0.6388559341430664,
      "rewards/reward_fn/mean": 3.6018028259277344,
      "rewards/reward_fn/std": 0.6388558745384216,
      "step": 1255
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 781.0,
      "completions/max_terminated_length": 781.0,
      "completions/mean_length": 199.28125,
      "completions/mean_terminated_length": 199.28125,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.13323432693327675,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.027978347148746252,
      "learning_rate": 7.498e-06,
      "loss": 0.0033,
      "num_tokens": 58273119.0,
      "reward": 2.9400501251220703,
      "reward_std": 0.0498286671936512,
      "rewards/reward_fn/mean": 2.9400501251220703,
      "rewards/reward_fn/std": 0.04982864111661911,
      "step": 1256
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 289.0,
      "completions/max_terminated_length": 289.0,
      "completions/mean_length": 166.90625,
      "completions/mean_terminated_length": 166.90625,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.13334040521905166,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.027146222535520792,
      "learning_rate": 7.4976e-06,
      "loss": -0.0098,
      "num_tokens": 58309596.0,
      "reward": 2.928208112716675,
      "reward_std": 0.5002910494804382,
      "rewards/reward_fn/mean": 2.928208112716675,
      "rewards/reward_fn/std": 0.5002910494804382,
      "step": 1257
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 877.0,
      "completions/max_terminated_length": 877.0,
      "completions/mean_length": 172.46875,
      "completions/mean_terminated_length": 172.46875,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.13344648350482657,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.026685474440455437,
      "learning_rate": 7.4972e-06,
      "loss": 0.1586,
      "num_tokens": 58352171.0,
      "reward": 3.931187629699707,
      "reward_std": 0.3892618715763092,
      "rewards/reward_fn/mean": 3.931187629699707,
      "rewards/reward_fn/std": 0.3892618715763092,
      "step": 1258
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 839.0,
      "completions/max_terminated_length": 839.0,
      "completions/mean_length": 243.625,
      "completions/mean_terminated_length": 243.625,
      "completions/min_length": 59.0,
      "completions/min_terminated_length": 59.0,
      "epoch": 0.13355256179060146,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.8671875,
      "kl": 0.0268127650488168,
      "learning_rate": 7.4968e-06,
      "loss": -0.1437,
      "num_tokens": 58390175.0,
      "reward": 3.875,
      "reward_std": 0.7071067690849304,
      "rewards/reward_fn/mean": 3.875,
      "rewards/reward_fn/std": 0.7071067690849304,
      "step": 1259
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 780.0,
      "completions/max_terminated_length": 780.0,
      "completions/mean_length": 240.625,
      "completions/mean_terminated_length": 240.625,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.13365864007637637,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.03086657985113561,
      "learning_rate": 7.4964e-06,
      "loss": 0.0395,
      "num_tokens": 58439379.0,
      "reward": 3.4151363372802734,
      "reward_std": 0.5244680643081665,
      "rewards/reward_fn/mean": 3.4151363372802734,
      "rewards/reward_fn/std": 0.5244680643081665,
      "step": 1260
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1492.0,
      "completions/max_terminated_length": 1492.0,
      "completions/mean_length": 280.65625,
      "completions/mean_terminated_length": 280.65625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.13376471836215126,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.0308777317404747,
      "learning_rate": 7.496e-06,
      "loss": 0.0012,
      "num_tokens": 58485320.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1261
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 363.0,
      "completions/max_terminated_length": 363.0,
      "completions/mean_length": 236.625,
      "completions/mean_terminated_length": 236.625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.13387079664792617,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.026496544247493148,
      "learning_rate": 7.495599999999999e-06,
      "loss": 0.0164,
      "num_tokens": 58542108.0,
      "reward": 3.928636074066162,
      "reward_std": 0.403695672750473,
      "rewards/reward_fn/mean": 3.928636074066162,
      "rewards/reward_fn/std": 0.403695672750473,
      "step": 1262
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 370.0,
      "completions/max_terminated_length": 370.0,
      "completions/mean_length": 192.34375,
      "completions/mean_terminated_length": 192.34375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.13397687493370108,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.02878828765824437,
      "learning_rate": 7.495199999999999e-06,
      "loss": 0.0331,
      "num_tokens": 58591783.0,
      "reward": 3.8793630599975586,
      "reward_std": 0.3811015188694,
      "rewards/reward_fn/mean": 3.8793630599975586,
      "rewards/reward_fn/std": 0.3811015486717224,
      "step": 1263
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 901.0,
      "completions/max_terminated_length": 901.0,
      "completions/mean_length": 282.125,
      "completions/mean_terminated_length": 282.125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.13408295321947597,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1142578125,
      "kl": 0.024802331812679768,
      "learning_rate": 7.494799999999999e-06,
      "loss": 0.001,
      "num_tokens": 58633995.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1264
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 510.0,
      "completions/max_terminated_length": 510.0,
      "completions/mean_length": 201.53125,
      "completions/mean_terminated_length": 201.53125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.13418903150525088,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.03025827999226749,
      "learning_rate": 7.4944e-06,
      "loss": 0.0333,
      "num_tokens": 58664124.0,
      "reward": 3.811546564102173,
      "reward_std": 0.534115731716156,
      "rewards/reward_fn/mean": 3.811546564102173,
      "rewards/reward_fn/std": 0.534115731716156,
      "step": 1265
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 829.0,
      "completions/max_terminated_length": 829.0,
      "completions/mean_length": 377.78125,
      "completions/mean_terminated_length": 377.78125,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.13429510979102577,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.03353354521095753,
      "learning_rate": 7.494e-06,
      "loss": 0.0983,
      "num_tokens": 58715669.0,
      "reward": 2.4701292514801025,
      "reward_std": 0.6296804547309875,
      "rewards/reward_fn/mean": 2.4701292514801025,
      "rewards/reward_fn/std": 0.6296803951263428,
      "step": 1266
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.0,
      "completions/max_terminated_length": 498.0,
      "completions/mean_length": 308.3125,
      "completions/mean_terminated_length": 308.3125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.13440118807680068,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.026489258743822575,
      "learning_rate": 7.4936e-06,
      "loss": 0.0136,
      "num_tokens": 58760319.0,
      "reward": 3.2096259593963623,
      "reward_std": 0.4842040240764618,
      "rewards/reward_fn/mean": 3.2096259593963623,
      "rewards/reward_fn/std": 0.4842039942741394,
      "step": 1267
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 483.0,
      "completions/max_terminated_length": 483.0,
      "completions/mean_length": 148.53125,
      "completions/mean_terminated_length": 148.53125,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.13450726636257557,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.02966041606850922,
      "learning_rate": 7.4932e-06,
      "loss": 0.0012,
      "num_tokens": 58790704.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1268
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 465.0,
      "completions/max_terminated_length": 465.0,
      "completions/mean_length": 283.28125,
      "completions/mean_terminated_length": 283.28125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.13461334464835048,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.030821983935311437,
      "learning_rate": 7.4928e-06,
      "loss": -0.0253,
      "num_tokens": 58820473.0,
      "reward": 3.7869110107421875,
      "reward_std": 0.49617645144462585,
      "rewards/reward_fn/mean": 3.7869110107421875,
      "rewards/reward_fn/std": 0.49617645144462585,
      "step": 1269
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 522.0,
      "completions/max_terminated_length": 522.0,
      "completions/mean_length": 303.4375,
      "completions/mean_terminated_length": 303.4375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.1347194229341254,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.01821422518696636,
      "learning_rate": 7.4924e-06,
      "loss": 0.0152,
      "num_tokens": 58866439.0,
      "reward": 2.632956027984619,
      "reward_std": 0.3445678651332855,
      "rewards/reward_fn/mean": 2.632956027984619,
      "rewards/reward_fn/std": 0.3445678651332855,
      "step": 1270
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 722.0,
      "completions/max_terminated_length": 722.0,
      "completions/mean_length": 402.5625,
      "completions/mean_terminated_length": 402.5625,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.13482550121990028,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.02504706336185336,
      "learning_rate": 7.492e-06,
      "loss": -0.0248,
      "num_tokens": 58941273.0,
      "reward": 3.4776172637939453,
      "reward_std": 0.641873836517334,
      "rewards/reward_fn/mean": 3.4776172637939453,
      "rewards/reward_fn/std": 0.641873836517334,
      "step": 1271
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 207.0,
      "completions/max_terminated_length": 207.0,
      "completions/mean_length": 144.8125,
      "completions/mean_terminated_length": 144.8125,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.1349315795056752,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.02622751286253333,
      "learning_rate": 7.4915999999999996e-06,
      "loss": 0.001,
      "num_tokens": 58969779.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1272
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 700.0,
      "completions/max_terminated_length": 700.0,
      "completions/mean_length": 367.40625,
      "completions/mean_terminated_length": 367.40625,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.13503765779145008,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.024884506594389677,
      "learning_rate": 7.4911999999999995e-06,
      "loss": -0.0294,
      "num_tokens": 59026048.0,
      "reward": 2.75225830078125,
      "reward_std": 0.27699360251426697,
      "rewards/reward_fn/mean": 2.75225830078125,
      "rewards/reward_fn/std": 0.27699360251426697,
      "step": 1273
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 535.0,
      "completions/max_terminated_length": 535.0,
      "completions/mean_length": 177.15625,
      "completions/mean_terminated_length": 177.15625,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.135143736077225,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.02919724863022566,
      "learning_rate": 7.4907999999999995e-06,
      "loss": 0.0012,
      "num_tokens": 59062149.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1274
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 841.0,
      "completions/max_terminated_length": 841.0,
      "completions/mean_length": 512.53125,
      "completions/mean_terminated_length": 512.53125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.1352498143629999,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.15625,
      "kl": 0.017439111368730664,
      "learning_rate": 7.4903999999999995e-06,
      "loss": -0.0313,
      "num_tokens": 59114102.0,
      "reward": 2.5705909729003906,
      "reward_std": 0.33944466710090637,
      "rewards/reward_fn/mean": 2.5705909729003906,
      "rewards/reward_fn/std": 0.33944469690322876,
      "step": 1275
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1666.0,
      "completions/max_terminated_length": 1666.0,
      "completions/mean_length": 330.25,
      "completions/mean_terminated_length": 330.25,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.1353558926487748,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.025731251807883382,
      "learning_rate": 7.49e-06,
      "loss": 0.0415,
      "num_tokens": 59176222.0,
      "reward": 3.0980734825134277,
      "reward_std": 0.9913315176963806,
      "rewards/reward_fn/mean": 3.0980734825134277,
      "rewards/reward_fn/std": 0.9913315176963806,
      "step": 1276
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 543.0,
      "completions/max_terminated_length": 543.0,
      "completions/mean_length": 137.84375,
      "completions/mean_terminated_length": 137.84375,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.1354619709345497,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1357421875,
      "kl": 0.025162109872326255,
      "learning_rate": 7.4896e-06,
      "loss": 0.001,
      "num_tokens": 59223577.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1277
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 904.0,
      "completions/max_terminated_length": 904.0,
      "completions/mean_length": 290.25,
      "completions/mean_terminated_length": 290.25,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1355680492203246,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8828125,
      "kl": 0.024209644412621856,
      "learning_rate": 7.4892e-06,
      "loss": 0.0241,
      "num_tokens": 59251009.0,
      "reward": 2.991244077682495,
      "reward_std": 0.04524612799286842,
      "rewards/reward_fn/mean": 2.991244077682495,
      "rewards/reward_fn/std": 0.04524614289402962,
      "step": 1278
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 416.0,
      "completions/max_terminated_length": 416.0,
      "completions/mean_length": 273.5,
      "completions/mean_terminated_length": 273.5,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.1356741275060995,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.023455350194126368,
      "learning_rate": 7.4888e-06,
      "loss": 0.0716,
      "num_tokens": 59296689.0,
      "reward": 3.328552722930908,
      "reward_std": 0.5668790936470032,
      "rewards/reward_fn/mean": 3.328552722930908,
      "rewards/reward_fn/std": 0.5668790936470032,
      "step": 1279
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.0,
      "completions/max_terminated_length": 292.0,
      "completions/mean_length": 204.96875,
      "completions/mean_terminated_length": 204.96875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.13578020579187441,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.024695158703252673,
      "learning_rate": 7.4884e-06,
      "loss": 0.0307,
      "num_tokens": 59339440.0,
      "reward": 3.457145929336548,
      "reward_std": 0.5878257751464844,
      "rewards/reward_fn/mean": 3.457145929336548,
      "rewards/reward_fn/std": 0.5878257155418396,
      "step": 1280
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 787.0,
      "completions/max_terminated_length": 787.0,
      "completions/mean_length": 205.71875,
      "completions/mean_terminated_length": 205.71875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.1358862840776493,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.025261733680963516,
      "learning_rate": 7.488e-06,
      "loss": -0.0178,
      "num_tokens": 59368871.0,
      "reward": 2.85054349899292,
      "reward_std": 0.06259602308273315,
      "rewards/reward_fn/mean": 2.85054349899292,
      "rewards/reward_fn/std": 0.06259601563215256,
      "step": 1281
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 526.0,
      "completions/max_terminated_length": 526.0,
      "completions/mean_length": 172.75,
      "completions/mean_terminated_length": 172.75,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.1359923623634242,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.21875,
      "kl": 0.02319705649279058,
      "learning_rate": 7.487599999999999e-06,
      "loss": 0.038,
      "num_tokens": 59405055.0,
      "reward": 3.5303797721862793,
      "reward_std": 0.5783197283744812,
      "rewards/reward_fn/mean": 3.5303797721862793,
      "rewards/reward_fn/std": 0.5783197283744812,
      "step": 1282
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 912.0,
      "completions/max_terminated_length": 912.0,
      "completions/mean_length": 354.125,
      "completions/mean_terminated_length": 354.125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.1360984406491991,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.03816063771955669,
      "learning_rate": 7.487199999999999e-06,
      "loss": 0.0339,
      "num_tokens": 59451427.0,
      "reward": 2.811558723449707,
      "reward_std": 1.0576351881027222,
      "rewards/reward_fn/mean": 2.811558723449707,
      "rewards/reward_fn/std": 1.0576351881027222,
      "step": 1283
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 355.0,
      "completions/max_terminated_length": 355.0,
      "completions/mean_length": 219.96875,
      "completions/mean_terminated_length": 219.96875,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.136204518934974,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5,
      "kl": 0.018938904628157616,
      "learning_rate": 7.486799999999999e-06,
      "loss": 0.0891,
      "num_tokens": 59491266.0,
      "reward": 3.9295401573181152,
      "reward_std": 0.3985815644264221,
      "rewards/reward_fn/mean": 3.9295401573181152,
      "rewards/reward_fn/std": 0.39858150482177734,
      "step": 1284
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 522.0,
      "completions/max_terminated_length": 522.0,
      "completions/mean_length": 205.3125,
      "completions/mean_terminated_length": 205.3125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.13631059722074892,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.90625,
      "kl": 0.025979549856856465,
      "learning_rate": 7.486399999999999e-06,
      "loss": 0.1455,
      "num_tokens": 59569580.0,
      "reward": 3.9671754837036133,
      "reward_std": 0.1856841892004013,
      "rewards/reward_fn/mean": 3.9671754837036133,
      "rewards/reward_fn/std": 0.1856841742992401,
      "step": 1285
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 437.0,
      "completions/max_terminated_length": 437.0,
      "completions/mean_length": 118.34375,
      "completions/mean_terminated_length": 118.34375,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.1364166755065238,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.123046875,
      "kl": 0.025476978393271565,
      "learning_rate": 7.485999999999999e-06,
      "loss": 0.001,
      "num_tokens": 59606135.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1286
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1040.0,
      "completions/max_terminated_length": 1040.0,
      "completions/mean_length": 259.28125,
      "completions/mean_terminated_length": 259.28125,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.13652275379229872,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.028418211033567786,
      "learning_rate": 7.485599999999999e-06,
      "loss": 0.1128,
      "num_tokens": 59657664.0,
      "reward": 3.1655662059783936,
      "reward_std": 0.32365211844444275,
      "rewards/reward_fn/mean": 3.1655662059783936,
      "rewards/reward_fn/std": 0.32365208864212036,
      "step": 1287
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.0,
      "completions/max_terminated_length": 498.0,
      "completions/mean_length": 261.03125,
      "completions/mean_terminated_length": 261.03125,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.1366288320780736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.027075995225459337,
      "learning_rate": 7.4852e-06,
      "loss": 0.0743,
      "num_tokens": 59699745.0,
      "reward": 3.0787363052368164,
      "reward_std": 0.5415990948677063,
      "rewards/reward_fn/mean": 3.0787363052368164,
      "rewards/reward_fn/std": 0.5415990948677063,
      "step": 1288
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 844.0,
      "completions/max_terminated_length": 844.0,
      "completions/mean_length": 228.78125,
      "completions/mean_terminated_length": 228.78125,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.13673491036384852,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.0208129589445889,
      "learning_rate": 7.4848e-06,
      "loss": 0.0565,
      "num_tokens": 59754874.0,
      "reward": 2.737701177597046,
      "reward_std": 0.17712976038455963,
      "rewards/reward_fn/mean": 2.737701177597046,
      "rewards/reward_fn/std": 0.17712976038455963,
      "step": 1289
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 939.0,
      "completions/max_terminated_length": 939.0,
      "completions/mean_length": 359.625,
      "completions/mean_terminated_length": 359.625,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.13684098864962344,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.060791015625,
      "kl": 0.019323077285662293,
      "learning_rate": 7.4844e-06,
      "loss": 0.0008,
      "num_tokens": 59804078.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1290
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 891.0,
      "completions/max_terminated_length": 891.0,
      "completions/mean_length": 244.53125,
      "completions/mean_terminated_length": 244.53125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.13694706693539832,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.296875,
      "kl": 0.02193894237279892,
      "learning_rate": 7.484e-06,
      "loss": -0.012,
      "num_tokens": 59849343.0,
      "reward": 3.662727117538452,
      "reward_std": 0.8044856190681458,
      "rewards/reward_fn/mean": 3.662727117538452,
      "rewards/reward_fn/std": 0.804485559463501,
      "step": 1291
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 137.0,
      "completions/max_terminated_length": 137.0,
      "completions/mean_length": 101.15625,
      "completions/mean_terminated_length": 101.15625,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.13705314522117323,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.921875,
      "kl": 0.024025865364819765,
      "learning_rate": 7.4836e-06,
      "loss": 0.083,
      "num_tokens": 59890820.0,
      "reward": 3.874630928039551,
      "reward_std": 0.3960571885108948,
      "rewards/reward_fn/mean": 3.874630928039551,
      "rewards/reward_fn/std": 0.3960571885108948,
      "step": 1292
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 614.0,
      "completions/max_terminated_length": 614.0,
      "completions/mean_length": 192.78125,
      "completions/mean_terminated_length": 192.78125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.13715922350694812,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1064453125,
      "kl": 0.022730932221747935,
      "learning_rate": 7.4832e-06,
      "loss": 0.0009,
      "num_tokens": 59930685.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1293
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.0,
      "completions/max_terminated_length": 336.0,
      "completions/mean_length": 175.3125,
      "completions/mean_terminated_length": 175.3125,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.13726530179272303,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10595703125,
      "kl": 0.024798734579235315,
      "learning_rate": 7.4828e-06,
      "loss": 0.001,
      "num_tokens": 59966855.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1294
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.0,
      "completions/max_terminated_length": 668.0,
      "completions/mean_length": 208.1875,
      "completions/mean_terminated_length": 208.1875,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.13737138007849792,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.022808075416833162,
      "learning_rate": 7.4824e-06,
      "loss": 0.0435,
      "num_tokens": 60016717.0,
      "reward": 1.9026248455047607,
      "reward_std": 0.4392467141151428,
      "rewards/reward_fn/mean": 1.9026248455047607,
      "rewards/reward_fn/std": 0.43924665451049805,
      "step": 1295
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1085.0,
      "completions/max_terminated_length": 1085.0,
      "completions/mean_length": 309.0625,
      "completions/mean_terminated_length": 309.0625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.13747745836427283,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.023748031351715326,
      "learning_rate": 7.482e-06,
      "loss": 0.0011,
      "num_tokens": 60077295.0,
      "reward": 3.4045333862304688,
      "reward_std": 0.6057592630386353,
      "rewards/reward_fn/mean": 3.4045333862304688,
      "rewards/reward_fn/std": 0.60575932264328,
      "step": 1296
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1140.0,
      "completions/max_terminated_length": 1140.0,
      "completions/mean_length": 183.625,
      "completions/mean_terminated_length": 183.625,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.13758353665004774,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.90625,
      "kl": 0.03300858614966273,
      "learning_rate": 7.4816e-06,
      "loss": 0.0822,
      "num_tokens": 60100131.0,
      "reward": 2.8976831436157227,
      "reward_std": 0.07260072231292725,
      "rewards/reward_fn/mean": 2.8976831436157227,
      "rewards/reward_fn/std": 0.07260074466466904,
      "step": 1297
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1612.0,
      "completions/max_terminated_length": 1612.0,
      "completions/mean_length": 478.875,
      "completions/mean_terminated_length": 478.875,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.13768961493582263,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.02038547326810658,
      "learning_rate": 7.4812e-06,
      "loss": 0.0507,
      "num_tokens": 60155679.0,
      "reward": 2.7392239570617676,
      "reward_std": 0.3335033655166626,
      "rewards/reward_fn/mean": 2.7392239570617676,
      "rewards/reward_fn/std": 0.3335033059120178,
      "step": 1298
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 779.0,
      "completions/max_terminated_length": 779.0,
      "completions/mean_length": 351.28125,
      "completions/mean_terminated_length": 351.28125,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.13779569322159754,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.017921574064530432,
      "learning_rate": 7.4808e-06,
      "loss": -0.0526,
      "num_tokens": 60211464.0,
      "reward": 2.7742135524749756,
      "reward_std": 0.037488196045160294,
      "rewards/reward_fn/mean": 2.7742135524749756,
      "rewards/reward_fn/std": 0.037488240748643875,
      "step": 1299
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 566.0,
      "completions/max_terminated_length": 566.0,
      "completions/mean_length": 391.25,
      "completions/mean_terminated_length": 391.25,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.13790177150737243,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.022719235508702695,
      "learning_rate": 7.4804e-06,
      "loss": 0.0432,
      "num_tokens": 60258448.0,
      "reward": 3.5938987731933594,
      "reward_std": 0.6974779367446899,
      "rewards/reward_fn/mean": 3.5938987731933594,
      "rewards/reward_fn/std": 0.6974778771400452,
      "step": 1300
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 156.0,
      "completions/max_terminated_length": 156.0,
      "completions/mean_length": 94.6875,
      "completions/mean_terminated_length": 94.6875,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.13800784979314734,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1533203125,
      "kl": 0.027633204823359847,
      "learning_rate": 7.48e-06,
      "loss": 0.0011,
      "num_tokens": 60320838.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1301
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 751.0,
      "completions/max_terminated_length": 751.0,
      "completions/mean_length": 201.4375,
      "completions/mean_terminated_length": 201.4375,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.13811392807892225,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1416015625,
      "kl": 0.029265858931466937,
      "learning_rate": 7.4795999999999995e-06,
      "loss": 0.0012,
      "num_tokens": 60363828.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1302
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 169.0,
      "completions/max_terminated_length": 169.0,
      "completions/mean_length": 116.25,
      "completions/mean_terminated_length": 116.25,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.13822000636469714,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1552734375,
      "kl": 0.026726818876340985,
      "learning_rate": 7.4791999999999995e-06,
      "loss": 0.0011,
      "num_tokens": 60398460.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1303
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 476.0,
      "completions/max_terminated_length": 476.0,
      "completions/mean_length": 111.375,
      "completions/mean_terminated_length": 111.375,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.13832608465047205,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12353515625,
      "kl": 0.02441283850930631,
      "learning_rate": 7.4787999999999994e-06,
      "loss": 0.001,
      "num_tokens": 60439816.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1304
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 590.0,
      "completions/max_terminated_length": 590.0,
      "completions/mean_length": 100.9375,
      "completions/mean_terminated_length": 100.9375,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.13843216293624694,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.515625,
      "kl": 0.03212942089885473,
      "learning_rate": 7.478399999999999e-06,
      "loss": -0.0653,
      "num_tokens": 60477830.0,
      "reward": 2.844021797180176,
      "reward_std": 0.21652944386005402,
      "rewards/reward_fn/mean": 2.844021797180176,
      "rewards/reward_fn/std": 0.21652939915657043,
      "step": 1305
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 703.0,
      "completions/max_terminated_length": 703.0,
      "completions/mean_length": 373.34375,
      "completions/mean_terminated_length": 373.34375,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.13853824122202185,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.02917315112426877,
      "learning_rate": 7.477999999999999e-06,
      "loss": -0.0192,
      "num_tokens": 60510897.0,
      "reward": 3.6083593368530273,
      "reward_std": 0.5928052067756653,
      "rewards/reward_fn/mean": 3.6083593368530273,
      "rewards/reward_fn/std": 0.5928052067756653,
      "step": 1306
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1326.0,
      "completions/mean_length": 453.25,
      "completions/mean_terminated_length": 401.8064270019531,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.13864431950779676,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.02317165257409215,
      "learning_rate": 7.477599999999999e-06,
      "loss": 0.1673,
      "num_tokens": 60555865.0,
      "reward": 2.9343154430389404,
      "reward_std": 0.6307179927825928,
      "rewards/reward_fn/mean": 2.9343154430389404,
      "rewards/reward_fn/std": 0.6307179927825928,
      "step": 1307
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1059.0,
      "completions/max_terminated_length": 1059.0,
      "completions/mean_length": 324.1875,
      "completions/mean_terminated_length": 324.1875,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.13875039779357165,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.027127522975206375,
      "learning_rate": 7.477199999999999e-06,
      "loss": 0.0713,
      "num_tokens": 60586719.0,
      "reward": 2.7872352600097656,
      "reward_std": 0.6089009642601013,
      "rewards/reward_fn/mean": 2.7872352600097656,
      "rewards/reward_fn/std": 0.6089009642601013,
      "step": 1308
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1908.0,
      "completions/max_terminated_length": 1908.0,
      "completions/mean_length": 667.625,
      "completions/mean_terminated_length": 667.625,
      "completions/min_length": 350.0,
      "completions/min_terminated_length": 350.0,
      "epoch": 0.13885647607934656,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.01850100071169436,
      "learning_rate": 7.476799999999999e-06,
      "loss": 0.0534,
      "num_tokens": 60646515.0,
      "reward": 2.3431787490844727,
      "reward_std": 0.45147812366485596,
      "rewards/reward_fn/mean": 2.3431787490844727,
      "rewards/reward_fn/std": 0.45147812366485596,
      "step": 1309
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 706.0,
      "completions/max_terminated_length": 706.0,
      "completions/mean_length": 328.8125,
      "completions/mean_terminated_length": 328.8125,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.13896255436512145,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.020504693733528256,
      "learning_rate": 7.476399999999999e-06,
      "loss": 0.0613,
      "num_tokens": 60691949.0,
      "reward": 1.6473358869552612,
      "reward_std": 0.04363499581813812,
      "rewards/reward_fn/mean": 1.6473358869552612,
      "rewards/reward_fn/std": 0.04363495483994484,
      "step": 1310
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 317.0,
      "completions/max_terminated_length": 317.0,
      "completions/mean_length": 226.5,
      "completions/mean_terminated_length": 226.5,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.13906863265089636,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.02825233223848045,
      "learning_rate": 7.475999999999999e-06,
      "loss": -0.0526,
      "num_tokens": 60732285.0,
      "reward": 2.9058597087860107,
      "reward_std": 0.06823138147592545,
      "rewards/reward_fn/mean": 2.9058597087860107,
      "rewards/reward_fn/std": 0.06823134422302246,
      "step": 1311
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 572.0,
      "completions/max_terminated_length": 572.0,
      "completions/mean_length": 247.03125,
      "completions/mean_terminated_length": 247.03125,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.13917471093667128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.021199521608650684,
      "learning_rate": 7.4756e-06,
      "loss": 0.1534,
      "num_tokens": 60771326.0,
      "reward": 2.8149824142456055,
      "reward_std": 0.04035944491624832,
      "rewards/reward_fn/mean": 2.8149824142456055,
      "rewards/reward_fn/std": 0.04035947099328041,
      "step": 1312
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 280.0,
      "completions/max_terminated_length": 280.0,
      "completions/mean_length": 220.71875,
      "completions/mean_terminated_length": 220.71875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.13928078922244616,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.020940072368830442,
      "learning_rate": 7.4752e-06,
      "loss": 0.0157,
      "num_tokens": 60827989.0,
      "reward": 2.911080837249756,
      "reward_std": 0.20522548258304596,
      "rewards/reward_fn/mean": 2.911080837249756,
      "rewards/reward_fn/std": 0.20522546768188477,
      "step": 1313
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 330.0,
      "completions/max_terminated_length": 330.0,
      "completions/mean_length": 196.90625,
      "completions/mean_terminated_length": 196.90625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.13938686750822107,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.030910142930224538,
      "learning_rate": 7.4748e-06,
      "loss": -0.0081,
      "num_tokens": 60851026.0,
      "reward": 3.170276403427124,
      "reward_std": 0.3668881952762604,
      "rewards/reward_fn/mean": 3.170276403427124,
      "rewards/reward_fn/std": 0.3668881952762604,
      "step": 1314
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 408.0,
      "completions/max_terminated_length": 408.0,
      "completions/mean_length": 275.0,
      "completions/mean_terminated_length": 275.0,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.13949294579399596,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.025190659100189805,
      "learning_rate": 7.4744e-06,
      "loss": 0.0444,
      "num_tokens": 60897106.0,
      "reward": 2.8724751472473145,
      "reward_std": 0.056788910180330276,
      "rewards/reward_fn/mean": 2.8724751472473145,
      "rewards/reward_fn/std": 0.05678891763091087,
      "step": 1315
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 426.65625,
      "completions/mean_terminated_length": 374.3548278808594,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.13959902407977087,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02236508228816092,
      "learning_rate": 7.474e-06,
      "loss": 0.1468,
      "num_tokens": 60950503.0,
      "reward": 2.9462509155273438,
      "reward_std": 0.50715571641922,
      "rewards/reward_fn/mean": 2.9462509155273438,
      "rewards/reward_fn/std": 0.5071556568145752,
      "step": 1316
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 646.0,
      "completions/max_terminated_length": 646.0,
      "completions/mean_length": 139.5625,
      "completions/mean_terminated_length": 139.5625,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.13970510236554579,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.14453125,
      "kl": 0.03153642802499235,
      "learning_rate": 7.4736e-06,
      "loss": 0.0013,
      "num_tokens": 60990713.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1317
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.0,
      "completions/max_terminated_length": 309.0,
      "completions/mean_length": 201.34375,
      "completions/mean_terminated_length": 201.34375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.13981118065132067,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.029545513913035393,
      "learning_rate": 7.4732e-06,
      "loss": 0.0299,
      "num_tokens": 61044836.0,
      "reward": 2.9463093280792236,
      "reward_std": 0.05201994255185127,
      "rewards/reward_fn/mean": 2.9463093280792236,
      "rewards/reward_fn/std": 0.052019957453012466,
      "step": 1318
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 687.0,
      "completions/max_terminated_length": 687.0,
      "completions/mean_length": 283.15625,
      "completions/mean_terminated_length": 283.15625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.13991725893709558,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.024044741643592715,
      "learning_rate": 7.4728e-06,
      "loss": -0.0858,
      "num_tokens": 61075273.0,
      "reward": 2.9099972248077393,
      "reward_std": 0.876579761505127,
      "rewards/reward_fn/mean": 2.9099972248077393,
      "rewards/reward_fn/std": 0.8765797019004822,
      "step": 1319
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 581.0,
      "completions/max_terminated_length": 581.0,
      "completions/mean_length": 148.71875,
      "completions/mean_terminated_length": 148.71875,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.14002333722287047,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.015515311155468225,
      "learning_rate": 7.4724e-06,
      "loss": 0.0582,
      "num_tokens": 61122720.0,
      "reward": 2.7426884174346924,
      "reward_std": 0.03458679839968681,
      "rewards/reward_fn/mean": 2.7426884174346924,
      "rewards/reward_fn/std": 0.034586794674396515,
      "step": 1320
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 520.0,
      "completions/max_terminated_length": 520.0,
      "completions/mean_length": 128.75,
      "completions/mean_terminated_length": 128.75,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.14012941550864538,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.02550445985980332,
      "learning_rate": 7.472e-06,
      "loss": 0.001,
      "num_tokens": 61180632.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1321
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 670.0,
      "completions/max_terminated_length": 670.0,
      "completions/mean_length": 274.625,
      "completions/mean_terminated_length": 274.625,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.14023549379442027,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.031397337559610605,
      "learning_rate": 7.471599999999999e-06,
      "loss": 0.0942,
      "num_tokens": 61231660.0,
      "reward": 3.165767192840576,
      "reward_std": 0.5331368446350098,
      "rewards/reward_fn/mean": 3.165767192840576,
      "rewards/reward_fn/std": 0.533136785030365,
      "step": 1322
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1335.0,
      "completions/max_terminated_length": 1335.0,
      "completions/mean_length": 357.84375,
      "completions/mean_terminated_length": 357.84375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.14034157208019518,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.02645385661162436,
      "learning_rate": 7.471199999999999e-06,
      "loss": 0.0052,
      "num_tokens": 61274439.0,
      "reward": 3.297321319580078,
      "reward_std": 1.0589929819107056,
      "rewards/reward_fn/mean": 3.297321319580078,
      "rewards/reward_fn/std": 1.0589929819107056,
      "step": 1323
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 526.0,
      "completions/max_terminated_length": 526.0,
      "completions/mean_length": 326.40625,
      "completions/mean_terminated_length": 326.40625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.1404476503659701,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.026967764366418123,
      "learning_rate": 7.4708e-06,
      "loss": -0.0404,
      "num_tokens": 61319092.0,
      "reward": 3.5227808952331543,
      "reward_std": 0.747248113155365,
      "rewards/reward_fn/mean": 3.5227808952331543,
      "rewards/reward_fn/std": 0.747248113155365,
      "step": 1324
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1725.0,
      "completions/max_terminated_length": 1725.0,
      "completions/mean_length": 355.0,
      "completions/mean_terminated_length": 355.0,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.14055372865174498,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.03049283567816019,
      "learning_rate": 7.4704e-06,
      "loss": 0.1093,
      "num_tokens": 61363092.0,
      "reward": 3.722357749938965,
      "reward_std": 0.5337069034576416,
      "rewards/reward_fn/mean": 3.722357749938965,
      "rewards/reward_fn/std": 0.5337069034576416,
      "step": 1325
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 226.0,
      "completions/max_terminated_length": 226.0,
      "completions/mean_length": 112.28125,
      "completions/mean_terminated_length": 112.28125,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.1406598069375199,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.890625,
      "kl": 0.021817383356392384,
      "learning_rate": 7.47e-06,
      "loss": -0.0305,
      "num_tokens": 61409597.0,
      "reward": 3.9790706634521484,
      "reward_std": 0.11839355528354645,
      "rewards/reward_fn/mean": 3.9790706634521484,
      "rewards/reward_fn/std": 0.11839357018470764,
      "step": 1326
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 304.0,
      "completions/max_terminated_length": 304.0,
      "completions/mean_length": 197.15625,
      "completions/mean_terminated_length": 197.15625,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.14076588522329478,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.028691569808870554,
      "learning_rate": 7.4696e-06,
      "loss": 0.0097,
      "num_tokens": 61445026.0,
      "reward": 3.0395777225494385,
      "reward_std": 0.4235535264015198,
      "rewards/reward_fn/mean": 3.0395777225494385,
      "rewards/reward_fn/std": 0.4235535264015198,
      "step": 1327
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 803.0,
      "completions/max_terminated_length": 803.0,
      "completions/mean_length": 205.90625,
      "completions/mean_terminated_length": 205.90625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.1408719635090697,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.024880185024812818,
      "learning_rate": 7.4691999999999996e-06,
      "loss": -0.0302,
      "num_tokens": 61468447.0,
      "reward": 3.9752869606018066,
      "reward_std": 0.1397986114025116,
      "rewards/reward_fn/mean": 3.9752869606018066,
      "rewards/reward_fn/std": 0.1397986114025116,
      "step": 1328
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 790.0,
      "completions/max_terminated_length": 790.0,
      "completions/mean_length": 193.125,
      "completions/mean_terminated_length": 193.125,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.1409780417948446,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.03259215364232659,
      "learning_rate": 7.4687999999999995e-06,
      "loss": 0.0013,
      "num_tokens": 61505507.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1329
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 585.0,
      "completions/max_terminated_length": 585.0,
      "completions/mean_length": 284.15625,
      "completions/mean_terminated_length": 284.15625,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1410841200806195,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.0419064718298614,
      "learning_rate": 7.4683999999999995e-06,
      "loss": -0.0339,
      "num_tokens": 61549448.0,
      "reward": 2.5116405487060547,
      "reward_std": 0.5236536860466003,
      "rewards/reward_fn/mean": 2.5116405487060547,
      "rewards/reward_fn/std": 0.5236537456512451,
      "step": 1330
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 533.0,
      "completions/max_terminated_length": 533.0,
      "completions/mean_length": 153.84375,
      "completions/mean_terminated_length": 153.84375,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.1411901983663944,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.025083963526412845,
      "learning_rate": 7.4679999999999995e-06,
      "loss": -0.0651,
      "num_tokens": 61573539.0,
      "reward": 3.4854817390441895,
      "reward_std": 0.4917638599872589,
      "rewards/reward_fn/mean": 3.4854817390441895,
      "rewards/reward_fn/std": 0.4917638599872589,
      "step": 1331
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 539.0,
      "completions/max_terminated_length": 539.0,
      "completions/mean_length": 112.65625,
      "completions/mean_terminated_length": 112.65625,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.1412962766521693,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1845703125,
      "kl": 0.02348939247895032,
      "learning_rate": 7.4675999999999994e-06,
      "loss": 0.0009,
      "num_tokens": 61641112.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1332
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1583.0,
      "completions/max_terminated_length": 1583.0,
      "completions/mean_length": 600.40625,
      "completions/mean_terminated_length": 600.40625,
      "completions/min_length": 303.0,
      "completions/min_terminated_length": 303.0,
      "epoch": 0.1414023549379442,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.020444039721041918,
      "learning_rate": 7.467199999999999e-06,
      "loss": -0.0601,
      "num_tokens": 61695973.0,
      "reward": 3.559945583343506,
      "reward_std": 0.6751914620399475,
      "rewards/reward_fn/mean": 3.559945583343506,
      "rewards/reward_fn/std": 0.6751914620399475,
      "step": 1333
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1166.0,
      "completions/max_terminated_length": 1166.0,
      "completions/mean_length": 402.90625,
      "completions/mean_terminated_length": 402.90625,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.14150843322371912,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.022967512253671885,
      "learning_rate": 7.466799999999999e-06,
      "loss": 0.0097,
      "num_tokens": 61746978.0,
      "reward": 3.1534409523010254,
      "reward_std": 0.715872049331665,
      "rewards/reward_fn/mean": 3.1534409523010254,
      "rewards/reward_fn/std": 0.7158719897270203,
      "step": 1334
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 422.0,
      "completions/max_terminated_length": 422.0,
      "completions/mean_length": 230.6875,
      "completions/mean_terminated_length": 230.6875,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.141614511509494,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.031314355321228504,
      "learning_rate": 7.4664e-06,
      "loss": 0.0287,
      "num_tokens": 61796344.0,
      "reward": 3.0475525856018066,
      "reward_std": 0.18288551270961761,
      "rewards/reward_fn/mean": 3.0475525856018066,
      "rewards/reward_fn/std": 0.18288545310497284,
      "step": 1335
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 589.0,
      "completions/max_terminated_length": 589.0,
      "completions/mean_length": 165.125,
      "completions/mean_terminated_length": 165.125,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.14172058979526891,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0908203125,
      "kl": 0.021358093596063554,
      "learning_rate": 7.466e-06,
      "loss": 0.0009,
      "num_tokens": 61823100.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1336
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1696.0,
      "completions/max_terminated_length": 1696.0,
      "completions/mean_length": 483.21875,
      "completions/mean_terminated_length": 483.21875,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.1418266680810438,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.02461231197230518,
      "learning_rate": 7.4656e-06,
      "loss": -0.0173,
      "num_tokens": 61868451.0,
      "reward": 3.531749725341797,
      "reward_std": 0.7565776705741882,
      "rewards/reward_fn/mean": 3.531749725341797,
      "rewards/reward_fn/std": 0.7565776705741882,
      "step": 1337
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 239.625,
      "completions/mean_terminated_length": 239.625,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.1419327463668187,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.022753535537049174,
      "learning_rate": 7.4652e-06,
      "loss": 0.0128,
      "num_tokens": 61899671.0,
      "reward": 3.928053855895996,
      "reward_std": 0.4069896936416626,
      "rewards/reward_fn/mean": 3.928053855895996,
      "rewards/reward_fn/std": 0.4069896936416626,
      "step": 1338
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1521.0,
      "completions/max_terminated_length": 1521.0,
      "completions/mean_length": 296.0625,
      "completions/mean_terminated_length": 296.0625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.14203882465259363,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.020033373264595866,
      "learning_rate": 7.4648e-06,
      "loss": -0.1692,
      "num_tokens": 61940665.0,
      "reward": 3.5547611713409424,
      "reward_std": 0.5535134077072144,
      "rewards/reward_fn/mean": 3.5547611713409424,
      "rewards/reward_fn/std": 0.5535133481025696,
      "step": 1339
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 599.0,
      "completions/max_terminated_length": 599.0,
      "completions/mean_length": 273.875,
      "completions/mean_terminated_length": 273.875,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1421449029383685,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.019615008728578687,
      "learning_rate": 7.4644e-06,
      "loss": -0.0367,
      "num_tokens": 61986261.0,
      "reward": 3.111820697784424,
      "reward_std": 0.4804832935333252,
      "rewards/reward_fn/mean": 3.111820697784424,
      "rewards/reward_fn/std": 0.4804832339286804,
      "step": 1340
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 573.0,
      "completions/max_terminated_length": 573.0,
      "completions/mean_length": 203.0,
      "completions/mean_terminated_length": 203.0,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.14225098122414342,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1103515625,
      "kl": 0.020947684068232775,
      "learning_rate": 7.464e-06,
      "loss": 0.0008,
      "num_tokens": 62027157.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1341
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 686.0,
      "completions/max_terminated_length": 686.0,
      "completions/mean_length": 392.96875,
      "completions/mean_terminated_length": 392.96875,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.1423570595099183,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.021076830103993416,
      "learning_rate": 7.463599999999999e-06,
      "loss": 0.0762,
      "num_tokens": 62076052.0,
      "reward": 2.854060173034668,
      "reward_std": 0.03796735033392906,
      "rewards/reward_fn/mean": 2.854060173034668,
      "rewards/reward_fn/std": 0.03796736150979996,
      "step": 1342
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1348.0,
      "completions/max_terminated_length": 1348.0,
      "completions/mean_length": 373.6875,
      "completions/mean_terminated_length": 373.6875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.14246313779569322,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.01754242356400937,
      "learning_rate": 7.463199999999999e-06,
      "loss": 0.1616,
      "num_tokens": 62128586.0,
      "reward": 2.9887051582336426,
      "reward_std": 0.04001903906464577,
      "rewards/reward_fn/mean": 2.9887051582336426,
      "rewards/reward_fn/std": 0.04001903906464577,
      "step": 1343
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 348.9375,
      "completions/mean_terminated_length": 348.9375,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.14256921608146814,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.022171859396621585,
      "learning_rate": 7.462799999999999e-06,
      "loss": -0.0195,
      "num_tokens": 62174152.0,
      "reward": 3.848252296447754,
      "reward_std": 0.40802672505378723,
      "rewards/reward_fn/mean": 3.848252296447754,
      "rewards/reward_fn/std": 0.40802669525146484,
      "step": 1344
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 894.0,
      "completions/max_terminated_length": 894.0,
      "completions/mean_length": 297.03125,
      "completions/mean_terminated_length": 297.03125,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.14267529436724302,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.02330731856636703,
      "learning_rate": 7.462399999999999e-06,
      "loss": 0.1368,
      "num_tokens": 62215305.0,
      "reward": 3.5138566493988037,
      "reward_std": 0.5279030203819275,
      "rewards/reward_fn/mean": 3.5138566493988037,
      "rewards/reward_fn/std": 0.5279030203819275,
      "step": 1345
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 373.0,
      "completions/max_terminated_length": 373.0,
      "completions/mean_length": 197.75,
      "completions/mean_terminated_length": 197.75,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.14278137265301794,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.024088377133011818,
      "learning_rate": 7.461999999999999e-06,
      "loss": 0.1033,
      "num_tokens": 62256449.0,
      "reward": 2.7401795387268066,
      "reward_std": 0.04600340500473976,
      "rewards/reward_fn/mean": 2.7401795387268066,
      "rewards/reward_fn/std": 0.04600339010357857,
      "step": 1346
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 634.0,
      "completions/max_terminated_length": 634.0,
      "completions/mean_length": 241.09375,
      "completions/mean_terminated_length": 241.09375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.14288745093879282,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.025438385782763362,
      "learning_rate": 7.4616e-06,
      "loss": 0.0087,
      "num_tokens": 62301764.0,
      "reward": 2.7687675952911377,
      "reward_std": 0.29931241273880005,
      "rewards/reward_fn/mean": 2.7687675952911377,
      "rewards/reward_fn/std": 0.29931241273880005,
      "step": 1347
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1402.0,
      "completions/mean_length": 411.78125,
      "completions/mean_terminated_length": 359.0,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.14299352922456773,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.02156771393492818,
      "learning_rate": 7.4612e-06,
      "loss": 0.297,
      "num_tokens": 62350557.0,
      "reward": 2.8675591945648193,
      "reward_std": 0.6260008215904236,
      "rewards/reward_fn/mean": 2.8675591945648193,
      "rewards/reward_fn/std": 0.626000702381134,
      "step": 1348
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 456.625,
      "completions/mean_terminated_length": 456.625,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.14309960751034262,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.025939938612282276,
      "learning_rate": 7.4608e-06,
      "loss": 0.0314,
      "num_tokens": 62397009.0,
      "reward": 2.5841550827026367,
      "reward_std": 0.6542167067527771,
      "rewards/reward_fn/mean": 2.5841550827026367,
      "rewards/reward_fn/std": 0.6542167067527771,
      "step": 1349
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 607.0,
      "completions/max_terminated_length": 607.0,
      "completions/mean_length": 198.34375,
      "completions/mean_terminated_length": 198.34375,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.14320568579611753,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.030676579335704446,
      "learning_rate": 7.4604e-06,
      "loss": 0.0779,
      "num_tokens": 62434076.0,
      "reward": 3.877383232116699,
      "reward_std": 0.29128482937812805,
      "rewards/reward_fn/mean": 3.877383232116699,
      "rewards/reward_fn/std": 0.29128485918045044,
      "step": 1350
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 235.0,
      "completions/max_terminated_length": 235.0,
      "completions/mean_length": 121.3125,
      "completions/mean_terminated_length": 121.3125,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.14331176408189245,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.9375,
      "kl": 0.02987167122773826,
      "learning_rate": 7.46e-06,
      "loss": 0.0955,
      "num_tokens": 62480742.0,
      "reward": 3.9019250869750977,
      "reward_std": 0.3102291226387024,
      "rewards/reward_fn/mean": 3.9019250869750977,
      "rewards/reward_fn/std": 0.3102291226387024,
      "step": 1351
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 954.0,
      "completions/max_terminated_length": 954.0,
      "completions/mean_length": 254.5,
      "completions/mean_terminated_length": 254.5,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.14341784236766733,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.019354867981746793,
      "learning_rate": 7.4596e-06,
      "loss": -0.0729,
      "num_tokens": 62527126.0,
      "reward": 3.7116589546203613,
      "reward_std": 0.7752918601036072,
      "rewards/reward_fn/mean": 3.7116589546203613,
      "rewards/reward_fn/std": 0.7752918004989624,
      "step": 1352
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.0,
      "completions/max_terminated_length": 270.0,
      "completions/mean_length": 185.0625,
      "completions/mean_terminated_length": 185.0625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.14352392065344224,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.228515625,
      "kl": 0.027313646278344095,
      "learning_rate": 7.4592e-06,
      "loss": 0.0011,
      "num_tokens": 62587512.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1353
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 355.0,
      "completions/max_terminated_length": 355.0,
      "completions/mean_length": 241.75,
      "completions/mean_terminated_length": 241.75,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.14362999893921713,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.03514736890792847,
      "learning_rate": 7.4588e-06,
      "loss": 0.0202,
      "num_tokens": 62632432.0,
      "reward": 3.8626348972320557,
      "reward_std": 0.5405560731887817,
      "rewards/reward_fn/mean": 3.8626348972320557,
      "rewards/reward_fn/std": 0.5405560731887817,
      "step": 1354
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 556.0,
      "completions/max_terminated_length": 556.0,
      "completions/mean_length": 239.65625,
      "completions/mean_terminated_length": 239.65625,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.14373607722499204,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.02487537218257785,
      "learning_rate": 7.4584e-06,
      "loss": 0.1213,
      "num_tokens": 62670565.0,
      "reward": 2.8300230503082275,
      "reward_std": 0.05813976749777794,
      "rewards/reward_fn/mean": 2.8300230503082275,
      "rewards/reward_fn/std": 0.05813978984951973,
      "step": 1355
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1358.0,
      "completions/mean_length": 670.15625,
      "completions/mean_terminated_length": 625.7096557617188,
      "completions/min_length": 339.0,
      "completions/min_terminated_length": 339.0,
      "epoch": 0.14384215551076696,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.03125,
      "kl": 0.01770936872344464,
      "learning_rate": 7.4579999999999996e-06,
      "loss": 0.0846,
      "num_tokens": 62727050.0,
      "reward": 2.2211742401123047,
      "reward_std": 0.5450964570045471,
      "rewards/reward_fn/mean": 2.2211742401123047,
      "rewards/reward_fn/std": 0.5450963973999023,
      "step": 1356
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 801.0,
      "completions/max_terminated_length": 801.0,
      "completions/mean_length": 405.46875,
      "completions/mean_terminated_length": 405.46875,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.14394823379654184,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.023628632072359324,
      "learning_rate": 7.4575999999999995e-06,
      "loss": -0.0418,
      "num_tokens": 62782905.0,
      "reward": 2.8233463764190674,
      "reward_std": 0.1016487330198288,
      "rewards/reward_fn/mean": 2.8233463764190674,
      "rewards/reward_fn/std": 0.10164876282215118,
      "step": 1357
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1025.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 351.5625,
      "completions/mean_terminated_length": 351.5625,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.14405431208231675,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.018899488961324096,
      "learning_rate": 7.4571999999999995e-06,
      "loss": 0.022,
      "num_tokens": 62821035.0,
      "reward": 3.8341493606567383,
      "reward_std": 0.48483148217201233,
      "rewards/reward_fn/mean": 3.8341493606567383,
      "rewards/reward_fn/std": 0.48483148217201233,
      "step": 1358
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1431.0,
      "completions/max_terminated_length": 1431.0,
      "completions/mean_length": 360.09375,
      "completions/mean_terminated_length": 360.09375,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.14416039036809164,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.023247625678777695,
      "learning_rate": 7.4568e-06,
      "loss": -0.0009,
      "num_tokens": 62881390.0,
      "reward": 3.9614830017089844,
      "reward_std": 0.21788454055786133,
      "rewards/reward_fn/mean": 3.9614830017089844,
      "rewards/reward_fn/std": 0.2178845852613449,
      "step": 1359
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1867.0,
      "completions/max_terminated_length": 1867.0,
      "completions/mean_length": 254.59375,
      "completions/mean_terminated_length": 254.59375,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.14426646865386655,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.02458102209493518,
      "learning_rate": 7.4564e-06,
      "loss": -0.1313,
      "num_tokens": 62935649.0,
      "reward": 2.5300705432891846,
      "reward_std": 0.38768091797828674,
      "rewards/reward_fn/mean": 2.5300705432891846,
      "rewards/reward_fn/std": 0.38768091797828674,
      "step": 1360
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 596.0,
      "completions/max_terminated_length": 596.0,
      "completions/mean_length": 181.6875,
      "completions/mean_terminated_length": 181.6875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.14437254693964147,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08447265625,
      "kl": 0.018385571893304586,
      "learning_rate": 7.456e-06,
      "loss": 0.0007,
      "num_tokens": 62963543.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1361
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1670.0,
      "completions/max_terminated_length": 1670.0,
      "completions/mean_length": 371.875,
      "completions/mean_terminated_length": 371.875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.14447862522541635,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.022040294017642736,
      "learning_rate": 7.455599999999999e-06,
      "loss": 0.0123,
      "num_tokens": 63015603.0,
      "reward": 2.984866142272949,
      "reward_std": 0.4643891155719757,
      "rewards/reward_fn/mean": 2.984866142272949,
      "rewards/reward_fn/std": 0.4643890857696533,
      "step": 1362
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.0,
      "completions/max_terminated_length": 347.0,
      "completions/mean_length": 218.3125,
      "completions/mean_terminated_length": 218.3125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.14458470351119126,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.02735855709761381,
      "learning_rate": 7.455199999999999e-06,
      "loss": 0.0325,
      "num_tokens": 63057917.0,
      "reward": 3.982016086578369,
      "reward_std": 0.1017315685749054,
      "rewards/reward_fn/mean": 3.982016086578369,
      "rewards/reward_fn/std": 0.1017315685749054,
      "step": 1363
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1252.0,
      "completions/max_terminated_length": 1252.0,
      "completions/mean_length": 300.25,
      "completions/mean_terminated_length": 300.25,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.14469078179696615,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.027118426747620106,
      "learning_rate": 7.454799999999999e-06,
      "loss": 0.0445,
      "num_tokens": 63103237.0,
      "reward": 2.8830158710479736,
      "reward_std": 0.4302554130554199,
      "rewards/reward_fn/mean": 2.8830158710479736,
      "rewards/reward_fn/std": 0.4302554130554199,
      "step": 1364
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1625.0,
      "completions/mean_length": 698.09375,
      "completions/mean_terminated_length": 608.1000366210938,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.14479686008274106,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.02318622707389295,
      "learning_rate": 7.454399999999999e-06,
      "loss": 0.2151,
      "num_tokens": 63185608.0,
      "reward": 2.6326918601989746,
      "reward_std": 0.7804985046386719,
      "rewards/reward_fn/mean": 2.6326918601989746,
      "rewards/reward_fn/std": 0.7804984450340271,
      "step": 1365
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 690.0,
      "completions/max_terminated_length": 690.0,
      "completions/mean_length": 341.96875,
      "completions/mean_terminated_length": 341.96875,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.14490293836851598,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.02670998009853065,
      "learning_rate": 7.453999999999999e-06,
      "loss": -0.0004,
      "num_tokens": 63233831.0,
      "reward": 2.599997043609619,
      "reward_std": 0.41961222887039185,
      "rewards/reward_fn/mean": 2.599997043609619,
      "rewards/reward_fn/std": 0.41961225867271423,
      "step": 1366
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1778.0,
      "completions/max_terminated_length": 1778.0,
      "completions/mean_length": 575.65625,
      "completions/mean_terminated_length": 575.65625,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.14500901665429086,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.02400823961943388,
      "learning_rate": 7.453599999999999e-06,
      "loss": -0.0017,
      "num_tokens": 63285564.0,
      "reward": 2.339834451675415,
      "reward_std": 0.6554206013679504,
      "rewards/reward_fn/mean": 2.339834451675415,
      "rewards/reward_fn/std": 0.6554206013679504,
      "step": 1367
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 202.46875,
      "completions/mean_terminated_length": 202.46875,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.14511509494006578,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.025389327201992273,
      "learning_rate": 7.453199999999999e-06,
      "loss": 0.0224,
      "num_tokens": 63332843.0,
      "reward": 3.357534408569336,
      "reward_std": 0.9463339447975159,
      "rewards/reward_fn/mean": 3.357534408569336,
      "rewards/reward_fn/std": 0.9463339447975159,
      "step": 1368
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 375.0,
      "completions/max_terminated_length": 375.0,
      "completions/mean_length": 259.5625,
      "completions/mean_terminated_length": 259.5625,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.14522117322584066,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.029223348945379257,
      "learning_rate": 7.452799999999999e-06,
      "loss": 0.071,
      "num_tokens": 63381533.0,
      "reward": 3.966054916381836,
      "reward_std": 0.19202205538749695,
      "rewards/reward_fn/mean": 3.966054916381836,
      "rewards/reward_fn/std": 0.19202204048633575,
      "step": 1369
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 567.0,
      "completions/max_terminated_length": 567.0,
      "completions/mean_length": 361.6875,
      "completions/mean_terminated_length": 361.6875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.14532725151161557,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.027676680823788047,
      "learning_rate": 7.452399999999999e-06,
      "loss": 0.0042,
      "num_tokens": 63430131.0,
      "reward": 3.385025978088379,
      "reward_std": 0.6906515955924988,
      "rewards/reward_fn/mean": 3.385025978088379,
      "rewards/reward_fn/std": 0.690651535987854,
      "step": 1370
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1436.0,
      "completions/max_terminated_length": 1436.0,
      "completions/mean_length": 266.1875,
      "completions/mean_terminated_length": 266.1875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.1454333297973905,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0390625,
      "kl": 0.031021540984511375,
      "learning_rate": 7.452e-06,
      "loss": -0.0983,
      "num_tokens": 63458841.0,
      "reward": 3.9695372581481934,
      "reward_std": 0.17232412099838257,
      "rewards/reward_fn/mean": 3.9695372581481934,
      "rewards/reward_fn/std": 0.17232413589954376,
      "step": 1371
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 255.28125,
      "completions/mean_terminated_length": 255.28125,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.14553940808316537,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.025465503567829728,
      "learning_rate": 7.4516e-06,
      "loss": -0.0179,
      "num_tokens": 63502786.0,
      "reward": 2.7831175327301025,
      "reward_std": 0.0531310960650444,
      "rewards/reward_fn/mean": 2.7831175327301025,
      "rewards/reward_fn/std": 0.0531311109662056,
      "step": 1372
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1434.0,
      "completions/max_terminated_length": 1434.0,
      "completions/mean_length": 353.78125,
      "completions/mean_terminated_length": 353.78125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.14564548636894029,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.020204479689709842,
      "learning_rate": 7.4512e-06,
      "loss": -0.1409,
      "num_tokens": 63544891.0,
      "reward": 2.8671717643737793,
      "reward_std": 0.0845094546675682,
      "rewards/reward_fn/mean": 2.8671717643737793,
      "rewards/reward_fn/std": 0.08450954407453537,
      "step": 1373
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 267.0,
      "completions/max_terminated_length": 267.0,
      "completions/mean_length": 163.90625,
      "completions/mean_terminated_length": 163.90625,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.14575156465471517,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.028385634068399668,
      "learning_rate": 7.4508e-06,
      "loss": 0.0794,
      "num_tokens": 63568504.0,
      "reward": 3.8483242988586426,
      "reward_std": 0.35819515585899353,
      "rewards/reward_fn/mean": 3.8483242988586426,
      "rewards/reward_fn/std": 0.35819512605667114,
      "step": 1374
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1143.0,
      "completions/max_terminated_length": 1143.0,
      "completions/mean_length": 325.21875,
      "completions/mean_terminated_length": 325.21875,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.14585764294049008,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.025249871658161283,
      "learning_rate": 7.4504e-06,
      "loss": 0.046,
      "num_tokens": 63615071.0,
      "reward": 3.6527295112609863,
      "reward_std": 0.4878491461277008,
      "rewards/reward_fn/mean": 3.6527295112609863,
      "rewards/reward_fn/std": 0.4878491461277008,
      "step": 1375
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1115.0,
      "completions/max_terminated_length": 1115.0,
      "completions/mean_length": 345.09375,
      "completions/mean_terminated_length": 345.09375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.14596372122626497,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.028095704270526767,
      "learning_rate": 7.45e-06,
      "loss": 0.0772,
      "num_tokens": 63656162.0,
      "reward": 3.285367012023926,
      "reward_std": 0.9010963439941406,
      "rewards/reward_fn/mean": 3.285367012023926,
      "rewards/reward_fn/std": 0.9010962843894958,
      "step": 1376
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 425.0,
      "completions/max_terminated_length": 425.0,
      "completions/mean_length": 288.65625,
      "completions/mean_terminated_length": 288.65625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.14606979951203988,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.028274354292079806,
      "learning_rate": 7.4496e-06,
      "loss": -0.0781,
      "num_tokens": 63712439.0,
      "reward": 3.466069459915161,
      "reward_std": 0.9559970498085022,
      "rewards/reward_fn/mean": 3.466069459915161,
      "rewards/reward_fn/std": 0.9559970498085022,
      "step": 1377
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 731.0,
      "completions/max_terminated_length": 731.0,
      "completions/mean_length": 259.84375,
      "completions/mean_terminated_length": 259.84375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.1461758777978148,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.027279690839350224,
      "learning_rate": 7.4492e-06,
      "loss": 0.0394,
      "num_tokens": 63773586.0,
      "reward": 3.8966031074523926,
      "reward_std": 0.43655630946159363,
      "rewards/reward_fn/mean": 3.8966031074523926,
      "rewards/reward_fn/std": 0.436556339263916,
      "step": 1378
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 771.0,
      "completions/max_terminated_length": 771.0,
      "completions/mean_length": 345.25,
      "completions/mean_terminated_length": 345.25,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.14628195608358968,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.027204215060919523,
      "learning_rate": 7.4488e-06,
      "loss": -0.05,
      "num_tokens": 63805786.0,
      "reward": 3.292912721633911,
      "reward_std": 0.6367733478546143,
      "rewards/reward_fn/mean": 3.292912721633911,
      "rewards/reward_fn/std": 0.6367732882499695,
      "step": 1379
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 639.0,
      "completions/max_terminated_length": 639.0,
      "completions/mean_length": 208.3125,
      "completions/mean_terminated_length": 208.3125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.1463880343693646,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.029668390285223722,
      "learning_rate": 7.4484e-06,
      "loss": -0.0387,
      "num_tokens": 63848260.0,
      "reward": 3.8188915252685547,
      "reward_std": 0.5969631671905518,
      "rewards/reward_fn/mean": 3.8188915252685547,
      "rewards/reward_fn/std": 0.5969631671905518,
      "step": 1380
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1634.0,
      "completions/max_terminated_length": 1634.0,
      "completions/mean_length": 286.4375,
      "completions/mean_terminated_length": 286.4375,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.14649411265513948,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.0279810291249305,
      "learning_rate": 7.448e-06,
      "loss": 0.3408,
      "num_tokens": 63904946.0,
      "reward": 3.9252352714538574,
      "reward_std": 0.42293301224708557,
      "rewards/reward_fn/mean": 3.9252352714538574,
      "rewards/reward_fn/std": 0.4229329824447632,
      "step": 1381
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 920.0,
      "completions/max_terminated_length": 920.0,
      "completions/mean_length": 269.875,
      "completions/mean_terminated_length": 269.875,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.1466001909409144,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.296875,
      "kl": 0.02967662224546075,
      "learning_rate": 7.4476000000000005e-06,
      "loss": -0.0416,
      "num_tokens": 63944174.0,
      "reward": 2.6933159828186035,
      "reward_std": 0.2893867492675781,
      "rewards/reward_fn/mean": 2.6933159828186035,
      "rewards/reward_fn/std": 0.2893867492675781,
      "step": 1382
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1121.0,
      "completions/max_terminated_length": 1121.0,
      "completions/mean_length": 368.09375,
      "completions/mean_terminated_length": 368.09375,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.1467062692266893,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.0331441021990031,
      "learning_rate": 7.4472e-06,
      "loss": 0.06,
      "num_tokens": 63986289.0,
      "reward": 2.744060516357422,
      "reward_std": 0.042238347232341766,
      "rewards/reward_fn/mean": 2.744060516357422,
      "rewards/reward_fn/std": 0.042238280177116394,
      "step": 1383
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 612.0,
      "completions/max_terminated_length": 612.0,
      "completions/mean_length": 203.78125,
      "completions/mean_terminated_length": 203.78125,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.1468123475124642,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.44140625,
      "kl": 0.03312438074499369,
      "learning_rate": 7.4468e-06,
      "loss": 0.0013,
      "num_tokens": 64038122.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1384
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 848.0,
      "completions/max_terminated_length": 848.0,
      "completions/mean_length": 193.25,
      "completions/mean_terminated_length": 193.25,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.1469184257982391,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.03683407441712916,
      "learning_rate": 7.4463999999999996e-06,
      "loss": 0.1946,
      "num_tokens": 64075122.0,
      "reward": 2.924485206604004,
      "reward_std": 0.07657773792743683,
      "rewards/reward_fn/mean": 2.924485206604004,
      "rewards/reward_fn/std": 0.07657775282859802,
      "step": 1385
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1439.0,
      "completions/max_terminated_length": 1439.0,
      "completions/mean_length": 390.125,
      "completions/mean_terminated_length": 390.125,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.147024504084014,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.03401468298397958,
      "learning_rate": 7.4459999999999995e-06,
      "loss": 0.0587,
      "num_tokens": 64122710.0,
      "reward": 3.0861051082611084,
      "reward_std": 0.702394425868988,
      "rewards/reward_fn/mean": 3.0861051082611084,
      "rewards/reward_fn/std": 0.702394425868988,
      "step": 1386
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1095.0,
      "completions/max_terminated_length": 1095.0,
      "completions/mean_length": 278.09375,
      "completions/mean_terminated_length": 278.09375,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.1471305823697889,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.028455683263018727,
      "learning_rate": 7.4455999999999995e-06,
      "loss": 0.0261,
      "num_tokens": 64169593.0,
      "reward": 3.964691162109375,
      "reward_std": 0.19973696768283844,
      "rewards/reward_fn/mean": 3.964691162109375,
      "rewards/reward_fn/std": 0.19973698258399963,
      "step": 1387
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 568.0,
      "completions/max_terminated_length": 568.0,
      "completions/mean_length": 174.03125,
      "completions/mean_terminated_length": 174.03125,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.14723666065556382,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.03542444505728781,
      "learning_rate": 7.4451999999999995e-06,
      "loss": -0.0303,
      "num_tokens": 64193594.0,
      "reward": 3.883316993713379,
      "reward_std": 0.314423143863678,
      "rewards/reward_fn/mean": 3.883316993713379,
      "rewards/reward_fn/std": 0.314423143863678,
      "step": 1388
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 500.0,
      "completions/max_terminated_length": 500.0,
      "completions/mean_length": 183.5,
      "completions/mean_terminated_length": 183.5,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.1473427389413387,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1083984375,
      "kl": 0.022355019696988165,
      "learning_rate": 7.4447999999999994e-06,
      "loss": 0.0009,
      "num_tokens": 64246154.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1389
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 636.0,
      "completions/max_terminated_length": 636.0,
      "completions/mean_length": 207.96875,
      "completions/mean_terminated_length": 207.96875,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.14744881722711362,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.03179771360009909,
      "learning_rate": 7.444399999999999e-06,
      "loss": 0.0461,
      "num_tokens": 64288105.0,
      "reward": 3.929905891418457,
      "reward_std": 0.3965129852294922,
      "rewards/reward_fn/mean": 3.929905891418457,
      "rewards/reward_fn/std": 0.3965129852294922,
      "step": 1390
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 606.0,
      "completions/max_terminated_length": 606.0,
      "completions/mean_length": 160.03125,
      "completions/mean_terminated_length": 160.03125,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.1475548955128885,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.111328125,
      "kl": 0.03064539493061602,
      "learning_rate": 7.443999999999999e-06,
      "loss": 0.0012,
      "num_tokens": 64329898.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1391
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 347.625,
      "completions/mean_terminated_length": 347.625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.14766097379866341,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.020091792102903128,
      "learning_rate": 7.443599999999999e-06,
      "loss": 0.0558,
      "num_tokens": 64377246.0,
      "reward": 2.9814658164978027,
      "reward_std": 0.2760011851787567,
      "rewards/reward_fn/mean": 2.9814658164978027,
      "rewards/reward_fn/std": 0.2760012149810791,
      "step": 1392
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 835.0,
      "completions/max_terminated_length": 835.0,
      "completions/mean_length": 332.21875,
      "completions/mean_terminated_length": 332.21875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.14776705208443833,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.026977359084412456,
      "learning_rate": 7.443199999999999e-06,
      "loss": 0.0893,
      "num_tokens": 64425349.0,
      "reward": 3.6816189289093018,
      "reward_std": 0.5174549221992493,
      "rewards/reward_fn/mean": 3.6816189289093018,
      "rewards/reward_fn/std": 0.5174549221992493,
      "step": 1393
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 545.0,
      "completions/max_terminated_length": 545.0,
      "completions/mean_length": 163.125,
      "completions/mean_terminated_length": 163.125,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.1478731303702132,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.03630391927435994,
      "learning_rate": 7.4428e-06,
      "loss": 0.1482,
      "num_tokens": 64472041.0,
      "reward": 2.634312391281128,
      "reward_std": 0.2737848460674286,
      "rewards/reward_fn/mean": 2.634312391281128,
      "rewards/reward_fn/std": 0.273784875869751,
      "step": 1394
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 910.0,
      "completions/max_terminated_length": 910.0,
      "completions/mean_length": 286.0625,
      "completions/mean_terminated_length": 286.0625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.14797920865598813,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.033690345007926226,
      "learning_rate": 7.4424e-06,
      "loss": 0.1175,
      "num_tokens": 64514219.0,
      "reward": 2.9914069175720215,
      "reward_std": 0.0645083636045456,
      "rewards/reward_fn/mean": 2.9914069175720215,
      "rewards/reward_fn/std": 0.064508356153965,
      "step": 1395
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 558.0,
      "completions/max_terminated_length": 558.0,
      "completions/mean_length": 168.9375,
      "completions/mean_terminated_length": 168.9375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.148085286941763,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.02721068379469216,
      "learning_rate": 7.442e-06,
      "loss": -0.0126,
      "num_tokens": 64553929.0,
      "reward": 3.966176986694336,
      "reward_std": 0.19133220613002777,
      "rewards/reward_fn/mean": 3.966176986694336,
      "rewards/reward_fn/std": 0.19133223593235016,
      "step": 1396
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 959.0,
      "completions/max_terminated_length": 959.0,
      "completions/mean_length": 379.78125,
      "completions/mean_terminated_length": 379.78125,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.14819136522753792,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.022854552837088704,
      "learning_rate": 7.4416e-06,
      "loss": 0.105,
      "num_tokens": 64602178.0,
      "reward": 3.60275936126709,
      "reward_std": 0.5985162854194641,
      "rewards/reward_fn/mean": 3.60275936126709,
      "rewards/reward_fn/std": 0.5985162854194641,
      "step": 1397
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 562.0,
      "completions/max_terminated_length": 562.0,
      "completions/mean_length": 244.21875,
      "completions/mean_terminated_length": 244.21875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.14829744351331284,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10986328125,
      "kl": 0.02474433882161975,
      "learning_rate": 7.4412e-06,
      "loss": 0.001,
      "num_tokens": 64664329.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1398
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1701.0,
      "completions/max_terminated_length": 1701.0,
      "completions/mean_length": 387.8125,
      "completions/mean_terminated_length": 387.8125,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.14840352179908772,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.03332933643832803,
      "learning_rate": 7.4408e-06,
      "loss": 0.0906,
      "num_tokens": 64720035.0,
      "reward": 3.689403533935547,
      "reward_std": 0.5056177377700806,
      "rewards/reward_fn/mean": 3.689403533935547,
      "rewards/reward_fn/std": 0.5056177377700806,
      "step": 1399
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 446.0,
      "completions/max_terminated_length": 446.0,
      "completions/mean_length": 173.84375,
      "completions/mean_terminated_length": 173.84375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.14850960008486264,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.0332620891276747,
      "learning_rate": 7.4404e-06,
      "loss": -0.0072,
      "num_tokens": 64769854.0,
      "reward": 3.5542819499969482,
      "reward_std": 0.5167267322540283,
      "rewards/reward_fn/mean": 3.5542819499969482,
      "rewards/reward_fn/std": 0.5167266726493835,
      "step": 1400
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 762.0,
      "completions/max_terminated_length": 762.0,
      "completions/mean_length": 259.8125,
      "completions/mean_terminated_length": 259.8125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.14861567837063752,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.03940536780282855,
      "learning_rate": 7.44e-06,
      "loss": 0.0286,
      "num_tokens": 64810296.0,
      "reward": 3.590843915939331,
      "reward_std": 0.5371227860450745,
      "rewards/reward_fn/mean": 3.590843915939331,
      "rewards/reward_fn/std": 0.5371227860450745,
      "step": 1401
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1203.0,
      "completions/max_terminated_length": 1203.0,
      "completions/mean_length": 370.21875,
      "completions/mean_terminated_length": 370.21875,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.14872175665641243,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.025106285698711872,
      "learning_rate": 7.4396e-06,
      "loss": -0.0491,
      "num_tokens": 64859839.0,
      "reward": 3.833078384399414,
      "reward_std": 0.48529359698295593,
      "rewards/reward_fn/mean": 3.833078384399414,
      "rewards/reward_fn/std": 0.48529356718063354,
      "step": 1402
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 468.8125,
      "completions/mean_terminated_length": 417.8709411621094,
      "completions/min_length": 249.0,
      "completions/min_terminated_length": 249.0,
      "epoch": 0.14882783494218735,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.030068765161558986,
      "learning_rate": 7.439199999999999e-06,
      "loss": 0.2232,
      "num_tokens": 64905561.0,
      "reward": 3.2034428119659424,
      "reward_std": 0.8694138526916504,
      "rewards/reward_fn/mean": 3.2034428119659424,
      "rewards/reward_fn/std": 0.8694137930870056,
      "step": 1403
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 671.0,
      "completions/max_terminated_length": 671.0,
      "completions/mean_length": 229.4375,
      "completions/mean_terminated_length": 229.4375,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.14893391322796223,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.028407067991793156,
      "learning_rate": 7.438799999999999e-06,
      "loss": -0.0417,
      "num_tokens": 64933799.0,
      "reward": 3.6446433067321777,
      "reward_std": 0.7922115325927734,
      "rewards/reward_fn/mean": 3.6446433067321777,
      "rewards/reward_fn/std": 0.7922114729881287,
      "step": 1404
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 278.40625,
      "completions/mean_terminated_length": 278.40625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.14903999151373715,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.027859984431415796,
      "learning_rate": 7.438399999999999e-06,
      "loss": -0.0629,
      "num_tokens": 64963572.0,
      "reward": 3.877469062805176,
      "reward_std": 0.3294479548931122,
      "rewards/reward_fn/mean": 3.877469062805176,
      "rewards/reward_fn/std": 0.3294479250907898,
      "step": 1405
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1464.0,
      "completions/max_terminated_length": 1464.0,
      "completions/mean_length": 463.0625,
      "completions/mean_terminated_length": 463.0625,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.14914606979951203,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.03835621988400817,
      "learning_rate": 7.438e-06,
      "loss": -0.1281,
      "num_tokens": 65035190.0,
      "reward": 2.7208948135375977,
      "reward_std": 0.7465806007385254,
      "rewards/reward_fn/mean": 2.7208948135375977,
      "rewards/reward_fn/std": 0.7465806603431702,
      "step": 1406
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1036.0,
      "completions/max_terminated_length": 1036.0,
      "completions/mean_length": 334.3125,
      "completions/mean_terminated_length": 334.3125,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.14925214808528695,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0732421875,
      "kl": 0.022742543602362275,
      "learning_rate": 7.4376e-06,
      "loss": 0.0009,
      "num_tokens": 65065216.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1407
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 195.125,
      "completions/mean_terminated_length": 195.125,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.14935822637106183,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.119140625,
      "kl": 0.02962300064973533,
      "learning_rate": 7.4372e-06,
      "loss": 0.0012,
      "num_tokens": 65106340.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1408
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.0,
      "completions/max_terminated_length": 350.0,
      "completions/mean_length": 135.65625,
      "completions/mean_terminated_length": 135.65625,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.14946430465683674,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1357421875,
      "kl": 0.031661511631682515,
      "learning_rate": 7.4368e-06,
      "loss": 0.0013,
      "num_tokens": 65160281.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1409
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 934.0,
      "completions/max_terminated_length": 934.0,
      "completions/mean_length": 239.4375,
      "completions/mean_terminated_length": 239.4375,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.14957038294261166,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.033848599530756474,
      "learning_rate": 7.4364e-06,
      "loss": 0.1764,
      "num_tokens": 65201351.0,
      "reward": 3.1107335090637207,
      "reward_std": 0.08597031980752945,
      "rewards/reward_fn/mean": 3.1107335090637207,
      "rewards/reward_fn/std": 0.08597029000520706,
      "step": 1410
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 873.0,
      "completions/max_terminated_length": 873.0,
      "completions/mean_length": 237.09375,
      "completions/mean_terminated_length": 237.09375,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.14967646122838654,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.03387490310706198,
      "learning_rate": 7.436e-06,
      "loss": -0.0979,
      "num_tokens": 65241162.0,
      "reward": 2.9534237384796143,
      "reward_std": 0.7266772985458374,
      "rewards/reward_fn/mean": 2.9534237384796143,
      "rewards/reward_fn/std": 0.7266772389411926,
      "step": 1411
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 487.0,
      "completions/max_terminated_length": 487.0,
      "completions/mean_length": 288.375,
      "completions/mean_terminated_length": 288.375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.14978253951416146,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0849609375,
      "kl": 0.031444058986380696,
      "learning_rate": 7.4356e-06,
      "loss": 0.0013,
      "num_tokens": 65267030.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1412
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 911.0,
      "completions/max_terminated_length": 911.0,
      "completions/mean_length": 256.375,
      "completions/mean_terminated_length": 256.375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.14988861779993634,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10986328125,
      "kl": 0.029305062256753445,
      "learning_rate": 7.4351999999999996e-06,
      "loss": 0.0012,
      "num_tokens": 65316098.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1413
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 134.0,
      "completions/max_terminated_length": 134.0,
      "completions/mean_length": 83.40625,
      "completions/mean_terminated_length": 83.40625,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.14999469608571125,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1455078125,
      "kl": 0.02644193370360881,
      "learning_rate": 7.4347999999999995e-06,
      "loss": 0.0011,
      "num_tokens": 65339471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1414
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1957.0,
      "completions/max_terminated_length": 1957.0,
      "completions/mean_length": 366.46875,
      "completions/mean_terminated_length": 366.46875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.15010077437148617,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.04253972531296313,
      "learning_rate": 7.4343999999999995e-06,
      "loss": -0.2152,
      "num_tokens": 65380158.0,
      "reward": 2.7263221740722656,
      "reward_std": 0.6098658442497253,
      "rewards/reward_fn/mean": 2.7263221740722656,
      "rewards/reward_fn/std": 0.6098658442497253,
      "step": 1415
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1767.0,
      "completions/max_terminated_length": 1767.0,
      "completions/mean_length": 599.03125,
      "completions/mean_terminated_length": 599.03125,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.15020685265726105,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1953125,
      "kl": 0.029143204214051366,
      "learning_rate": 7.4339999999999995e-06,
      "loss": 0.0824,
      "num_tokens": 65433343.0,
      "reward": 3.3289918899536133,
      "reward_std": 0.602114200592041,
      "rewards/reward_fn/mean": 3.3289918899536133,
      "rewards/reward_fn/std": 0.602114200592041,
      "step": 1416
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.0,
      "completions/max_terminated_length": 353.0,
      "completions/mean_length": 218.375,
      "completions/mean_terminated_length": 218.375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.15031293094303597,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.030435963766649365,
      "learning_rate": 7.4336e-06,
      "loss": -0.0891,
      "num_tokens": 65485099.0,
      "reward": 3.7489049434661865,
      "reward_std": 0.6941893696784973,
      "rewards/reward_fn/mean": 3.7489049434661865,
      "rewards/reward_fn/std": 0.6941893696784973,
      "step": 1417
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 277.0,
      "completions/max_terminated_length": 277.0,
      "completions/mean_length": 183.28125,
      "completions/mean_terminated_length": 183.28125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.15041900922881085,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.03691709297709167,
      "learning_rate": 7.4332e-06,
      "loss": 0.0015,
      "num_tokens": 65524468.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1418
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/max_terminated_length": 283.0,
      "completions/mean_length": 109.375,
      "completions/mean_terminated_length": 109.375,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.15052508751458576,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.205078125,
      "kl": 0.039213865995407104,
      "learning_rate": 7.4328e-06,
      "loss": 0.0016,
      "num_tokens": 65552992.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1419
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1900.0,
      "completions/mean_length": 446.96875,
      "completions/mean_terminated_length": 395.32257080078125,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.15063116580036068,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.022784803761169314,
      "learning_rate": 7.4324e-06,
      "loss": 0.3249,
      "num_tokens": 65605791.0,
      "reward": 2.73966646194458,
      "reward_std": 0.5022208094596863,
      "rewards/reward_fn/mean": 2.73966646194458,
      "rewards/reward_fn/std": 0.5022208094596863,
      "step": 1420
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 351.0,
      "completions/max_terminated_length": 351.0,
      "completions/mean_length": 178.9375,
      "completions/mean_terminated_length": 178.9375,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.15073724408613556,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.53125,
      "kl": 0.032336236676201224,
      "learning_rate": 7.432e-06,
      "loss": 0.1029,
      "num_tokens": 65642141.0,
      "reward": 3.7554450035095215,
      "reward_std": 0.3876785337924957,
      "rewards/reward_fn/mean": 3.7554450035095215,
      "rewards/reward_fn/std": 0.38767850399017334,
      "step": 1421
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 652.0,
      "completions/max_terminated_length": 652.0,
      "completions/mean_length": 208.1875,
      "completions/mean_terminated_length": 208.1875,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.15084332237191048,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.035623660776764154,
      "learning_rate": 7.4316e-06,
      "loss": 0.1096,
      "num_tokens": 65681603.0,
      "reward": 2.7092933654785156,
      "reward_std": 0.28102341294288635,
      "rewards/reward_fn/mean": 2.7092933654785156,
      "rewards/reward_fn/std": 0.28102338314056396,
      "step": 1422
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 741.0,
      "completions/max_terminated_length": 741.0,
      "completions/mean_length": 158.34375,
      "completions/mean_terminated_length": 158.34375,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.15094940065768536,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.40625,
      "kl": 0.03153680078685284,
      "learning_rate": 7.431199999999999e-06,
      "loss": -0.0881,
      "num_tokens": 65710254.0,
      "reward": 3.8465654850006104,
      "reward_std": 0.3623442053794861,
      "rewards/reward_fn/mean": 3.8465654850006104,
      "rewards/reward_fn/std": 0.36234423518180847,
      "step": 1423
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1457.0,
      "completions/mean_length": 714.375,
      "completions/mean_terminated_length": 576.413818359375,
      "completions/min_length": 311.0,
      "completions/min_terminated_length": 311.0,
      "epoch": 0.15105547894346028,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.9453125,
      "kl": 0.028179930755868554,
      "learning_rate": 7.430799999999999e-06,
      "loss": 0.0505,
      "num_tokens": 65775770.0,
      "reward": 2.2804367542266846,
      "reward_std": 0.8255341053009033,
      "rewards/reward_fn/mean": 2.2804367542266846,
      "rewards/reward_fn/std": 0.8255340456962585,
      "step": 1424
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 339.0,
      "completions/max_terminated_length": 339.0,
      "completions/mean_length": 91.0625,
      "completions/mean_terminated_length": 91.0625,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.1511615572292352,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1650390625,
      "kl": 0.029801467899233103,
      "learning_rate": 7.430399999999999e-06,
      "loss": 0.0012,
      "num_tokens": 65809468.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1425
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1030.0,
      "completions/max_terminated_length": 1030.0,
      "completions/mean_length": 283.5,
      "completions/mean_terminated_length": 283.5,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.15126763551501007,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.02984489407390356,
      "learning_rate": 7.429999999999999e-06,
      "loss": -0.0261,
      "num_tokens": 65834380.0,
      "reward": 3.668632984161377,
      "reward_std": 0.538867175579071,
      "rewards/reward_fn/mean": 3.668632984161377,
      "rewards/reward_fn/std": 0.5388672351837158,
      "step": 1426
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 656.0,
      "completions/max_terminated_length": 656.0,
      "completions/mean_length": 238.28125,
      "completions/mean_terminated_length": 238.28125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.151373713800785,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.21875,
      "kl": 0.023655685363337398,
      "learning_rate": 7.429599999999999e-06,
      "loss": 0.1598,
      "num_tokens": 65875157.0,
      "reward": 3.9262659549713135,
      "reward_std": 0.41710224747657776,
      "rewards/reward_fn/mean": 3.9262659549713135,
      "rewards/reward_fn/std": 0.41710227727890015,
      "step": 1427
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1091.0,
      "completions/max_terminated_length": 1091.0,
      "completions/mean_length": 348.1875,
      "completions/mean_terminated_length": 348.1875,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.15147979208655987,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.02328518428839743,
      "learning_rate": 7.429199999999999e-06,
      "loss": -0.0487,
      "num_tokens": 65924859.0,
      "reward": 3.6566414833068848,
      "reward_std": 0.5582861304283142,
      "rewards/reward_fn/mean": 3.6566414833068848,
      "rewards/reward_fn/std": 0.5582861304283142,
      "step": 1428
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 963.0,
      "completions/max_terminated_length": 963.0,
      "completions/mean_length": 348.0625,
      "completions/mean_terminated_length": 348.0625,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.15158587037233479,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.022434451850131154,
      "learning_rate": 7.4288e-06,
      "loss": 0.0641,
      "num_tokens": 65965245.0,
      "reward": 2.7481746673583984,
      "reward_std": 0.4162106215953827,
      "rewards/reward_fn/mean": 2.7481746673583984,
      "rewards/reward_fn/std": 0.4162106215953827,
      "step": 1429
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 432.0,
      "completions/max_terminated_length": 432.0,
      "completions/mean_length": 133.71875,
      "completions/mean_terminated_length": 133.71875,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.1516919486581097,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.18359375,
      "kl": 0.04026283789426088,
      "learning_rate": 7.4284e-06,
      "loss": 0.0016,
      "num_tokens": 66012404.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1430
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1083.0,
      "completions/max_terminated_length": 1083.0,
      "completions/mean_length": 337.6875,
      "completions/mean_terminated_length": 337.6875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.15179802694388458,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.026995733845978975,
      "learning_rate": 7.428e-06,
      "loss": 0.0028,
      "num_tokens": 66056682.0,
      "reward": 3.900752544403076,
      "reward_std": 0.3138922154903412,
      "rewards/reward_fn/mean": 3.900752544403076,
      "rewards/reward_fn/std": 0.3138922154903412,
      "step": 1431
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1176.0,
      "completions/max_terminated_length": 1176.0,
      "completions/mean_length": 227.59375,
      "completions/mean_terminated_length": 227.59375,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.1519041052296595,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10302734375,
      "kl": 0.02565616718493402,
      "learning_rate": 7.4276e-06,
      "loss": 0.001,
      "num_tokens": 66096317.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1432
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1328.0,
      "completions/max_terminated_length": 1328.0,
      "completions/mean_length": 389.125,
      "completions/mean_terminated_length": 389.125,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.15201018351543438,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.023474588757380843,
      "learning_rate": 7.4272e-06,
      "loss": 0.1392,
      "num_tokens": 66153665.0,
      "reward": 3.253533363342285,
      "reward_std": 0.5899655818939209,
      "rewards/reward_fn/mean": 3.253533363342285,
      "rewards/reward_fn/std": 0.5899655818939209,
      "step": 1433
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 268.0,
      "completions/max_terminated_length": 268.0,
      "completions/mean_length": 161.28125,
      "completions/mean_terminated_length": 161.28125,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.1521162618012093,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.640625,
      "kl": 0.03629247797653079,
      "learning_rate": 7.4268e-06,
      "loss": 0.0981,
      "num_tokens": 66189610.0,
      "reward": 3.0274600982666016,
      "reward_std": 0.05274336412549019,
      "rewards/reward_fn/mean": 3.0274600982666016,
      "rewards/reward_fn/std": 0.05274338647723198,
      "step": 1434
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1095.0,
      "completions/max_terminated_length": 1095.0,
      "completions/mean_length": 248.15625,
      "completions/mean_terminated_length": 248.15625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.15222234008698418,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.029007033677771688,
      "learning_rate": 7.4264e-06,
      "loss": 0.0845,
      "num_tokens": 66229775.0,
      "reward": 3.6650195121765137,
      "reward_std": 0.5066304802894592,
      "rewards/reward_fn/mean": 3.6650195121765137,
      "rewards/reward_fn/std": 0.5066304802894592,
      "step": 1435
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 773.0,
      "completions/max_terminated_length": 773.0,
      "completions/mean_length": 224.375,
      "completions/mean_terminated_length": 224.375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1523284183727591,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.023438591044396162,
      "learning_rate": 7.426e-06,
      "loss": 0.1349,
      "num_tokens": 66266011.0,
      "reward": 3.8179659843444824,
      "reward_std": 0.3869030177593231,
      "rewards/reward_fn/mean": 3.8179659843444824,
      "rewards/reward_fn/std": 0.3869030177593231,
      "step": 1436
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1129.0,
      "completions/max_terminated_length": 1129.0,
      "completions/mean_length": 294.5,
      "completions/mean_terminated_length": 294.5,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.152434496658534,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.023724337574094534,
      "learning_rate": 7.4256e-06,
      "loss": -0.069,
      "num_tokens": 66319435.0,
      "reward": 3.4863743782043457,
      "reward_std": 0.593258798122406,
      "rewards/reward_fn/mean": 3.4863743782043457,
      "rewards/reward_fn/std": 0.5932587385177612,
      "step": 1437
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1090.0,
      "completions/max_terminated_length": 1090.0,
      "completions/mean_length": 292.6875,
      "completions/mean_terminated_length": 292.6875,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.1525405749443089,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.033242793986573815,
      "learning_rate": 7.4252e-06,
      "loss": 0.0595,
      "num_tokens": 66366145.0,
      "reward": 2.89218807220459,
      "reward_std": 0.46033063530921936,
      "rewards/reward_fn/mean": 2.89218807220459,
      "rewards/reward_fn/std": 0.46033063530921936,
      "step": 1438
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1363.0,
      "completions/max_terminated_length": 1363.0,
      "completions/mean_length": 487.8125,
      "completions/mean_terminated_length": 487.8125,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.1526466532300838,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 5.375,
      "kl": 0.02517133066430688,
      "learning_rate": 7.4248e-06,
      "loss": 0.1089,
      "num_tokens": 66419227.0,
      "reward": 2.5610084533691406,
      "reward_std": 0.344752699136734,
      "rewards/reward_fn/mean": 2.5610084533691406,
      "rewards/reward_fn/std": 0.344752699136734,
      "step": 1439
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1321.0,
      "completions/max_terminated_length": 1321.0,
      "completions/mean_length": 266.875,
      "completions/mean_terminated_length": 266.875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.1527527315158587,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.103515625,
      "kl": 0.03170533524826169,
      "learning_rate": 7.4244e-06,
      "loss": 0.0013,
      "num_tokens": 66465399.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1440
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1089.0,
      "completions/max_terminated_length": 1089.0,
      "completions/mean_length": 403.78125,
      "completions/mean_terminated_length": 403.78125,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.1528588098016336,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.03218272537924349,
      "learning_rate": 7.424e-06,
      "loss": 0.0298,
      "num_tokens": 66512848.0,
      "reward": 2.8888301849365234,
      "reward_std": 0.0484078973531723,
      "rewards/reward_fn/mean": 2.8888301849365234,
      "rewards/reward_fn/std": 0.04840795695781708,
      "step": 1441
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1320.0,
      "completions/mean_length": 496.625,
      "completions/mean_terminated_length": 393.20001220703125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.15296488808740852,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.028265361906960607,
      "learning_rate": 7.4236e-06,
      "loss": 0.3739,
      "num_tokens": 66575492.0,
      "reward": 3.108246088027954,
      "reward_std": 1.1263806819915771,
      "rewards/reward_fn/mean": 3.108246088027954,
      "rewards/reward_fn/std": 1.1263806819915771,
      "step": 1442
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 352.0,
      "completions/max_terminated_length": 352.0,
      "completions/mean_length": 208.375,
      "completions/mean_terminated_length": 208.375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.1530709663731834,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.028314963448792696,
      "learning_rate": 7.4231999999999995e-06,
      "loss": -0.1091,
      "num_tokens": 66614960.0,
      "reward": 3.644209146499634,
      "reward_std": 0.5789510011672974,
      "rewards/reward_fn/mean": 3.644209146499634,
      "rewards/reward_fn/std": 0.5789510011672974,
      "step": 1443
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 641.0,
      "completions/max_terminated_length": 641.0,
      "completions/mean_length": 217.5625,
      "completions/mean_terminated_length": 217.5625,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.15317704465895832,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.028587039094418287,
      "learning_rate": 7.4227999999999995e-06,
      "loss": -0.0666,
      "num_tokens": 66650338.0,
      "reward": 3.039794445037842,
      "reward_std": 0.03578682616353035,
      "rewards/reward_fn/mean": 3.039794445037842,
      "rewards/reward_fn/std": 0.035786814987659454,
      "step": 1444
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 618.0,
      "completions/max_terminated_length": 618.0,
      "completions/mean_length": 164.09375,
      "completions/mean_terminated_length": 164.09375,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.1532831229447332,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1484375,
      "kl": 0.03915078402496874,
      "learning_rate": 7.4223999999999994e-06,
      "loss": 0.0016,
      "num_tokens": 66706437.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1445
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 868.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 211.5,
      "completions/mean_terminated_length": 211.5,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.15338920123050812,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.03331913007423282,
      "learning_rate": 7.421999999999999e-06,
      "loss": 0.0013,
      "num_tokens": 66736949.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1446
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 775.0,
      "completions/max_terminated_length": 775.0,
      "completions/mean_length": 387.59375,
      "completions/mean_terminated_length": 387.59375,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.15349527951628303,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.02698996476829052,
      "learning_rate": 7.421599999999999e-06,
      "loss": 0.1122,
      "num_tokens": 66783496.0,
      "reward": 3.010918617248535,
      "reward_std": 0.18900462985038757,
      "rewards/reward_fn/mean": 3.010918617248535,
      "rewards/reward_fn/std": 0.18900460004806519,
      "step": 1447
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 904.0,
      "completions/max_terminated_length": 904.0,
      "completions/mean_length": 294.625,
      "completions/mean_terminated_length": 294.625,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.15360135780205791,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.130859375,
      "kl": 0.03707153582945466,
      "learning_rate": 7.421199999999999e-06,
      "loss": 0.0015,
      "num_tokens": 66830364.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1448
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 940.0,
      "completions/max_terminated_length": 940.0,
      "completions/mean_length": 505.3125,
      "completions/mean_terminated_length": 505.3125,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.15370743608783283,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.027398626087233424,
      "learning_rate": 7.420799999999999e-06,
      "loss": -0.1571,
      "num_tokens": 66878758.0,
      "reward": 2.23410701751709,
      "reward_std": 0.6652016043663025,
      "rewards/reward_fn/mean": 2.23410701751709,
      "rewards/reward_fn/std": 0.6652015447616577,
      "step": 1449
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 699.0,
      "completions/max_terminated_length": 699.0,
      "completions/mean_length": 177.53125,
      "completions/mean_terminated_length": 177.53125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1538135143736077,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09375,
      "kl": 0.024694280233234167,
      "learning_rate": 7.420399999999999e-06,
      "loss": 0.001,
      "num_tokens": 66913015.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1450
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 140.0,
      "completions/max_terminated_length": 140.0,
      "completions/mean_length": 98.28125,
      "completions/mean_terminated_length": 98.28125,
      "completions/min_length": 80.0,
      "completions/min_terminated_length": 80.0,
      "epoch": 0.15391959265938263,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1591796875,
      "kl": 0.03571772645227611,
      "learning_rate": 7.419999999999999e-06,
      "loss": 0.0014,
      "num_tokens": 66934880.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1451
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 600.0,
      "completions/max_terminated_length": 600.0,
      "completions/mean_length": 349.125,
      "completions/mean_terminated_length": 349.125,
      "completions/min_length": 264.0,
      "completions/min_terminated_length": 264.0,
      "epoch": 0.15402567094515754,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07177734375,
      "kl": 0.022626615595072508,
      "learning_rate": 7.419599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 66986308.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1452
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 218.0,
      "completions/max_terminated_length": 218.0,
      "completions/mean_length": 151.875,
      "completions/mean_terminated_length": 151.875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.15413174923093242,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.14453125,
      "kl": 0.03107062610797584,
      "learning_rate": 7.4192e-06,
      "loss": 0.0012,
      "num_tokens": 67026176.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1453
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 461.0,
      "completions/max_terminated_length": 461.0,
      "completions/mean_length": 296.625,
      "completions/mean_terminated_length": 296.625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.15423782751670734,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.03296915185637772,
      "learning_rate": 7.4188e-06,
      "loss": -0.006,
      "num_tokens": 67097236.0,
      "reward": 2.750486373901367,
      "reward_std": 0.2804044187068939,
      "rewards/reward_fn/mean": 2.750486373901367,
      "rewards/reward_fn/std": 0.2804044485092163,
      "step": 1454
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 995.0,
      "completions/max_terminated_length": 995.0,
      "completions/mean_length": 259.5625,
      "completions/mean_terminated_length": 259.5625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.15434390580248222,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.030945046106353402,
      "learning_rate": 7.4184e-06,
      "loss": -0.0079,
      "num_tokens": 67147206.0,
      "reward": 2.977381944656372,
      "reward_std": 0.19623248279094696,
      "rewards/reward_fn/mean": 2.977381944656372,
      "rewards/reward_fn/std": 0.19623248279094696,
      "step": 1455
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 343.0,
      "completions/max_terminated_length": 343.0,
      "completions/mean_length": 77.8125,
      "completions/mean_terminated_length": 77.8125,
      "completions/min_length": 44.0,
      "completions/min_terminated_length": 44.0,
      "epoch": 0.15444998408825714,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.021643459796905518,
      "learning_rate": 7.418e-06,
      "loss": 0.0009,
      "num_tokens": 67174976.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1456
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1047.0,
      "completions/max_terminated_length": 1047.0,
      "completions/mean_length": 401.6875,
      "completions/mean_terminated_length": 401.6875,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.15455606237403205,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1953125,
      "kl": 0.021151326596736908,
      "learning_rate": 7.4176e-06,
      "loss": 0.0389,
      "num_tokens": 67226486.0,
      "reward": 3.7367396354675293,
      "reward_std": 0.5055917501449585,
      "rewards/reward_fn/mean": 3.7367396354675293,
      "rewards/reward_fn/std": 0.5055916905403137,
      "step": 1457
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1139.0,
      "completions/mean_length": 540.5625,
      "completions/mean_terminated_length": 491.9354553222656,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.15466214065980693,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.028610155452042818,
      "learning_rate": 7.4172e-06,
      "loss": 0.1628,
      "num_tokens": 67281736.0,
      "reward": 2.7234995365142822,
      "reward_std": 0.5659182667732239,
      "rewards/reward_fn/mean": 2.7234995365142822,
      "rewards/reward_fn/std": 0.5659182667732239,
      "step": 1458
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 715.0,
      "completions/max_terminated_length": 715.0,
      "completions/mean_length": 180.71875,
      "completions/mean_terminated_length": 180.71875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.15476821894558185,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.0297960857860744,
      "learning_rate": 7.4168e-06,
      "loss": 0.0607,
      "num_tokens": 67324383.0,
      "reward": 3.912855625152588,
      "reward_std": 0.2752879559993744,
      "rewards/reward_fn/mean": 3.912855625152588,
      "rewards/reward_fn/std": 0.275287926197052,
      "step": 1459
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 118.0,
      "completions/max_terminated_length": 118.0,
      "completions/mean_length": 84.0,
      "completions/mean_terminated_length": 84.0,
      "completions/min_length": 62.0,
      "completions/min_terminated_length": 62.0,
      "epoch": 0.15487429723135673,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1708984375,
      "kl": 0.028807405149564147,
      "learning_rate": 7.4164e-06,
      "loss": 0.0012,
      "num_tokens": 67354111.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1460
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 925.0,
      "completions/max_terminated_length": 925.0,
      "completions/mean_length": 197.25,
      "completions/mean_terminated_length": 197.25,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.15498037551713165,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10693359375,
      "kl": 0.028027324238792062,
      "learning_rate": 7.416e-06,
      "loss": 0.0011,
      "num_tokens": 67389799.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1461
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 541.0,
      "completions/max_terminated_length": 541.0,
      "completions/mean_length": 243.375,
      "completions/mean_terminated_length": 243.375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.15508645380290653,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.021245840471237898,
      "learning_rate": 7.4156e-06,
      "loss": -0.0155,
      "num_tokens": 67441011.0,
      "reward": 3.966932773590088,
      "reward_std": 0.18705597519874573,
      "rewards/reward_fn/mean": 3.966932773590088,
      "rewards/reward_fn/std": 0.1870560199022293,
      "step": 1462
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 592.0,
      "completions/max_terminated_length": 592.0,
      "completions/mean_length": 364.6875,
      "completions/mean_terminated_length": 364.6875,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.15519253208868145,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1015625,
      "kl": 0.026140006259083748,
      "learning_rate": 7.415199999999999e-06,
      "loss": -0.0479,
      "num_tokens": 67468105.0,
      "reward": 2.71226167678833,
      "reward_std": 0.1927633434534073,
      "rewards/reward_fn/mean": 2.71226167678833,
      "rewards/reward_fn/std": 0.1927633434534073,
      "step": 1463
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 707.0,
      "completions/max_terminated_length": 707.0,
      "completions/mean_length": 264.875,
      "completions/mean_terminated_length": 264.875,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.15529861037445636,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.03174735209904611,
      "learning_rate": 7.414799999999999e-06,
      "loss": -0.0027,
      "num_tokens": 67493285.0,
      "reward": 2.8976378440856934,
      "reward_std": 0.04806054010987282,
      "rewards/reward_fn/mean": 2.8976378440856934,
      "rewards/reward_fn/std": 0.04806055501103401,
      "step": 1464
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 276.0,
      "completions/max_terminated_length": 276.0,
      "completions/mean_length": 191.15625,
      "completions/mean_terminated_length": 191.15625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.15540468866023124,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.027835983550176024,
      "learning_rate": 7.4144e-06,
      "loss": 0.0278,
      "num_tokens": 67536010.0,
      "reward": 3.7838172912597656,
      "reward_std": 0.38195741176605225,
      "rewards/reward_fn/mean": 3.7838172912597656,
      "rewards/reward_fn/std": 0.38195741176605225,
      "step": 1465
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1234.0,
      "completions/max_terminated_length": 1234.0,
      "completions/mean_length": 191.9375,
      "completions/mean_terminated_length": 191.9375,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.15551076694600616,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.265625,
      "kl": 0.03196986531838775,
      "learning_rate": 7.414e-06,
      "loss": 0.1454,
      "num_tokens": 67579784.0,
      "reward": 3.9290502071380615,
      "reward_std": 0.4013527035713196,
      "rewards/reward_fn/mean": 3.9290502071380615,
      "rewards/reward_fn/std": 0.4013526737689972,
      "step": 1466
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 970.0,
      "completions/max_terminated_length": 970.0,
      "completions/mean_length": 279.4375,
      "completions/mean_terminated_length": 279.4375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.15561684523178104,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.02996737160719931,
      "learning_rate": 7.4136e-06,
      "loss": -0.0289,
      "num_tokens": 67628854.0,
      "reward": 3.9293787479400635,
      "reward_std": 0.3994941711425781,
      "rewards/reward_fn/mean": 3.9293787479400635,
      "rewards/reward_fn/std": 0.3994941711425781,
      "step": 1467
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 798.0,
      "completions/max_terminated_length": 798.0,
      "completions/mean_length": 226.03125,
      "completions/mean_terminated_length": 226.03125,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.15572292351755596,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0869140625,
      "kl": 0.02296249126084149,
      "learning_rate": 7.4132e-06,
      "loss": 0.0009,
      "num_tokens": 67658199.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1468
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 936.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 243.71875,
      "completions/mean_terminated_length": 243.71875,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.15582900180333087,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.026919973781332374,
      "learning_rate": 7.4127999999999996e-06,
      "loss": 0.0093,
      "num_tokens": 67711342.0,
      "reward": 2.8784685134887695,
      "reward_std": 0.3173023462295532,
      "rewards/reward_fn/mean": 2.8784685134887695,
      "rewards/reward_fn/std": 0.31730228662490845,
      "step": 1469
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 347.0,
      "completions/max_terminated_length": 347.0,
      "completions/mean_length": 220.40625,
      "completions/mean_terminated_length": 220.40625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.15593508008910575,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.025421129539608955,
      "learning_rate": 7.4123999999999995e-06,
      "loss": 0.0564,
      "num_tokens": 67759163.0,
      "reward": 2.9090018272399902,
      "reward_std": 0.3549058735370636,
      "rewards/reward_fn/mean": 2.9090018272399902,
      "rewards/reward_fn/std": 0.3549058437347412,
      "step": 1470
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 845.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 239.5625,
      "completions/mean_terminated_length": 239.5625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.15604115837488067,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1416015625,
      "kl": 0.03431223169900477,
      "learning_rate": 7.4119999999999995e-06,
      "loss": 0.0014,
      "num_tokens": 67809389.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1471
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 220.0,
      "completions/max_terminated_length": 220.0,
      "completions/mean_length": 169.40625,
      "completions/mean_terminated_length": 169.40625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.15614723666065555,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07666015625,
      "kl": 0.017876636935397983,
      "learning_rate": 7.4115999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 67834682.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1472
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.0,
      "completions/max_terminated_length": 346.0,
      "completions/mean_length": 197.8125,
      "completions/mean_terminated_length": 197.8125,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.15625331494643047,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.026579777244478464,
      "learning_rate": 7.4111999999999994e-06,
      "loss": -0.0256,
      "num_tokens": 67882676.0,
      "reward": 3.851898670196533,
      "reward_std": 0.4995054602622986,
      "rewards/reward_fn/mean": 3.851898670196533,
      "rewards/reward_fn/std": 0.49950549006462097,
      "step": 1473
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 900.0,
      "completions/max_terminated_length": 900.0,
      "completions/mean_length": 230.40625,
      "completions/mean_terminated_length": 230.40625,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.15635939323220538,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.02615373209118843,
      "learning_rate": 7.410799999999999e-06,
      "loss": 0.001,
      "num_tokens": 67922849.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1474
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 584.0,
      "completions/max_terminated_length": 584.0,
      "completions/mean_length": 175.96875,
      "completions/mean_terminated_length": 175.96875,
      "completions/min_length": 93.0,
      "completions/min_terminated_length": 93.0,
      "epoch": 0.15646547151798026,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.024530835915356874,
      "learning_rate": 7.410399999999999e-06,
      "loss": -0.0158,
      "num_tokens": 67964992.0,
      "reward": 3.9716320037841797,
      "reward_std": 0.1604730784893036,
      "rewards/reward_fn/mean": 3.9716320037841797,
      "rewards/reward_fn/std": 0.1604730784893036,
      "step": 1475
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 768.0,
      "completions/max_terminated_length": 768.0,
      "completions/mean_length": 182.84375,
      "completions/mean_terminated_length": 182.84375,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.15657154980375518,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.021006754599511623,
      "learning_rate": 7.41e-06,
      "loss": 0.0792,
      "num_tokens": 68009211.0,
      "reward": 3.662135362625122,
      "reward_std": 0.509412944316864,
      "rewards/reward_fn/mean": 3.662135362625122,
      "rewards/reward_fn/std": 0.509412944316864,
      "step": 1476
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 678.0,
      "completions/max_terminated_length": 678.0,
      "completions/mean_length": 222.3125,
      "completions/mean_terminated_length": 222.3125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.15667762808953006,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09814453125,
      "kl": 0.023102863458916545,
      "learning_rate": 7.4096e-06,
      "loss": 0.0009,
      "num_tokens": 68057541.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1477
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1068.0,
      "completions/max_terminated_length": 1068.0,
      "completions/mean_length": 308.875,
      "completions/mean_terminated_length": 308.875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.15678370637530498,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.027743780752643943,
      "learning_rate": 7.4092e-06,
      "loss": 0.0634,
      "num_tokens": 68103777.0,
      "reward": 3.5075292587280273,
      "reward_std": 0.9456666707992554,
      "rewards/reward_fn/mean": 3.5075292587280273,
      "rewards/reward_fn/std": 0.9456667304039001,
      "step": 1478
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1447.0,
      "completions/mean_length": 574.75,
      "completions/mean_terminated_length": 527.2257690429688,
      "completions/min_length": 252.0,
      "completions/min_terminated_length": 252.0,
      "epoch": 0.1568897846610799,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.02394183212891221,
      "learning_rate": 7.4088e-06,
      "loss": 0.1843,
      "num_tokens": 68157337.0,
      "reward": 3.4912631511688232,
      "reward_std": 0.9075994491577148,
      "rewards/reward_fn/mean": 3.4912631511688232,
      "rewards/reward_fn/std": 0.9075994491577148,
      "step": 1479
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1163.0,
      "completions/max_terminated_length": 1163.0,
      "completions/mean_length": 253.9375,
      "completions/mean_terminated_length": 253.9375,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.15699586294685478,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.036285872804000974,
      "learning_rate": 7.4084e-06,
      "loss": -0.0445,
      "num_tokens": 68200823.0,
      "reward": 3.738661766052246,
      "reward_std": 0.4272725582122803,
      "rewards/reward_fn/mean": 3.738661766052246,
      "rewards/reward_fn/std": 0.4272725582122803,
      "step": 1480
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 942.0,
      "completions/max_terminated_length": 942.0,
      "completions/mean_length": 310.25,
      "completions/mean_terminated_length": 310.25,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1571019412326297,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.021707464940845966,
      "learning_rate": 7.408e-06,
      "loss": 0.1426,
      "num_tokens": 68248127.0,
      "reward": 2.7692253589630127,
      "reward_std": 0.04598098248243332,
      "rewards/reward_fn/mean": 2.7692253589630127,
      "rewards/reward_fn/std": 0.04598100483417511,
      "step": 1481
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 769.0,
      "completions/max_terminated_length": 769.0,
      "completions/mean_length": 259.0625,
      "completions/mean_terminated_length": 259.0625,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.15720801951840457,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0830078125,
      "kl": 0.025276067899540067,
      "learning_rate": 7.4076e-06,
      "loss": 0.001,
      "num_tokens": 68301793.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1482
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 295.5625,
      "completions/mean_terminated_length": 295.5625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.1573140978041795,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.46875,
      "kl": 0.0196508695371449,
      "learning_rate": 7.407199999999999e-06,
      "loss": 0.0384,
      "num_tokens": 68347571.0,
      "reward": 3.862781047821045,
      "reward_std": 0.43722283840179443,
      "rewards/reward_fn/mean": 3.862781047821045,
      "rewards/reward_fn/std": 0.43722283840179443,
      "step": 1483
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 864.0,
      "completions/max_terminated_length": 864.0,
      "completions/mean_length": 269.6875,
      "completions/mean_terminated_length": 269.6875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1574201760899544,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.031088900519534945,
      "learning_rate": 7.406799999999999e-06,
      "loss": 0.0976,
      "num_tokens": 68400873.0,
      "reward": 2.848465919494629,
      "reward_std": 0.06664532423019409,
      "rewards/reward_fn/mean": 2.848465919494629,
      "rewards/reward_fn/std": 0.0666453167796135,
      "step": 1484
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 922.0,
      "completions/max_terminated_length": 922.0,
      "completions/mean_length": 222.40625,
      "completions/mean_terminated_length": 222.40625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.15752625437572929,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.640625,
      "kl": 0.02430442371405661,
      "learning_rate": 7.406399999999999e-06,
      "loss": -0.0518,
      "num_tokens": 68437174.0,
      "reward": 3.611813545227051,
      "reward_std": 0.4808964431285858,
      "rewards/reward_fn/mean": 3.611813545227051,
      "rewards/reward_fn/std": 0.4808965027332306,
      "step": 1485
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1996.0,
      "completions/mean_length": 783.9375,
      "completions/mean_terminated_length": 653.1724243164062,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.1576323326615042,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.020748317008838058,
      "learning_rate": 7.405999999999999e-06,
      "loss": 0.353,
      "num_tokens": 68507156.0,
      "reward": 2.5030746459960938,
      "reward_std": 0.7754137516021729,
      "rewards/reward_fn/mean": 2.5030746459960938,
      "rewards/reward_fn/std": 0.7754136919975281,
      "step": 1486
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 847.0,
      "completions/mean_length": 430.71875,
      "completions/mean_terminated_length": 378.5483703613281,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.15773841094727908,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.027423285646364093,
      "learning_rate": 7.405599999999999e-06,
      "loss": 0.213,
      "num_tokens": 68565451.0,
      "reward": 3.366755247116089,
      "reward_std": 0.8312036991119385,
      "rewards/reward_fn/mean": 3.366755247116089,
      "rewards/reward_fn/std": 0.8312036991119385,
      "step": 1487
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1758.0,
      "completions/max_terminated_length": 1758.0,
      "completions/mean_length": 336.375,
      "completions/mean_terminated_length": 336.375,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.157844489233054,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.03361711511388421,
      "learning_rate": 7.4052e-06,
      "loss": 0.1764,
      "num_tokens": 68633303.0,
      "reward": 3.351813316345215,
      "reward_std": 0.7536391615867615,
      "rewards/reward_fn/mean": 3.351813316345215,
      "rewards/reward_fn/std": 0.7536391615867615,
      "step": 1488
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 228.21875,
      "completions/mean_terminated_length": 228.21875,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.15795056751882888,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.032002222491428256,
      "learning_rate": 7.4048e-06,
      "loss": -0.0099,
      "num_tokens": 68671102.0,
      "reward": 3.9690937995910645,
      "reward_std": 0.17483150959014893,
      "rewards/reward_fn/mean": 3.9690937995910645,
      "rewards/reward_fn/std": 0.17483149468898773,
      "step": 1489
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 117.0,
      "completions/max_terminated_length": 117.0,
      "completions/mean_length": 76.8125,
      "completions/mean_terminated_length": 76.8125,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.1580566458046038,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09033203125,
      "kl": 0.014173948089592159,
      "learning_rate": 7.4044e-06,
      "loss": 0.0006,
      "num_tokens": 68704120.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1490
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 653.0,
      "completions/max_terminated_length": 653.0,
      "completions/mean_length": 184.40625,
      "completions/mean_terminated_length": 184.40625,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.1581627240903787,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.027895437320694327,
      "learning_rate": 7.404e-06,
      "loss": -0.071,
      "num_tokens": 68741221.0,
      "reward": 3.5616817474365234,
      "reward_std": 0.7033450603485107,
      "rewards/reward_fn/mean": 3.5616817474365234,
      "rewards/reward_fn/std": 0.7033450603485107,
      "step": 1491
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1376.0,
      "completions/max_terminated_length": 1376.0,
      "completions/mean_length": 323.90625,
      "completions/mean_terminated_length": 323.90625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.1582688023761536,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.029311693971976638,
      "learning_rate": 7.4036e-06,
      "loss": 0.118,
      "num_tokens": 68787522.0,
      "reward": 2.7153244018554688,
      "reward_std": 0.4882570505142212,
      "rewards/reward_fn/mean": 2.7153244018554688,
      "rewards/reward_fn/std": 0.4882570505142212,
      "step": 1492
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 463.0,
      "completions/max_terminated_length": 463.0,
      "completions/mean_length": 331.65625,
      "completions/mean_terminated_length": 331.65625,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.1583748806619285,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.359375,
      "kl": 0.024782405234873295,
      "learning_rate": 7.4032e-06,
      "loss": -0.0318,
      "num_tokens": 68835991.0,
      "reward": 2.7767367362976074,
      "reward_std": 0.3278542459011078,
      "rewards/reward_fn/mean": 2.7767367362976074,
      "rewards/reward_fn/std": 0.3278542757034302,
      "step": 1493
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1464.0,
      "completions/max_terminated_length": 1464.0,
      "completions/mean_length": 321.53125,
      "completions/mean_terminated_length": 321.53125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.1584809589477034,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.030189570039510727,
      "learning_rate": 7.4028e-06,
      "loss": 0.209,
      "num_tokens": 68878216.0,
      "reward": 2.947617292404175,
      "reward_std": 0.026048338040709496,
      "rewards/reward_fn/mean": 2.947617292404175,
      "rewards/reward_fn/std": 0.026048310101032257,
      "step": 1494
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 473.0,
      "completions/max_terminated_length": 473.0,
      "completions/mean_length": 236.3125,
      "completions/mean_terminated_length": 236.3125,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.1585870372334783,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.078125,
      "kl": 0.023946196772158146,
      "learning_rate": 7.4024e-06,
      "loss": 0.001,
      "num_tokens": 68921106.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1495
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 527.0,
      "completions/max_terminated_length": 527.0,
      "completions/mean_length": 162.21875,
      "completions/mean_terminated_length": 162.21875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.15869311551925322,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1279296875,
      "kl": 0.026347257429733872,
      "learning_rate": 7.402e-06,
      "loss": 0.0011,
      "num_tokens": 68962841.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1496
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 494.0,
      "completions/max_terminated_length": 494.0,
      "completions/mean_length": 242.6875,
      "completions/mean_terminated_length": 242.6875,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.1587991938050281,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.026496655773371458,
      "learning_rate": 7.4015999999999996e-06,
      "loss": -0.0276,
      "num_tokens": 69005231.0,
      "reward": 3.8105435371398926,
      "reward_std": 0.4018127918243408,
      "rewards/reward_fn/mean": 3.8105435371398926,
      "rewards/reward_fn/std": 0.40181276202201843,
      "step": 1497
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 476.0,
      "completions/max_terminated_length": 476.0,
      "completions/mean_length": 312.21875,
      "completions/mean_terminated_length": 312.21875,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.15890527209080302,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.021861796732991934,
      "learning_rate": 7.4011999999999995e-06,
      "loss": 0.0307,
      "num_tokens": 69063862.0,
      "reward": 2.7844386100769043,
      "reward_std": 1.1609641313552856,
      "rewards/reward_fn/mean": 2.7844386100769043,
      "rewards/reward_fn/std": 1.160964012145996,
      "step": 1498
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1797.0,
      "completions/mean_length": 708.375,
      "completions/mean_terminated_length": 619.0667114257812,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.1590113503765779,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.421875,
      "kl": 0.029261509189382195,
      "learning_rate": 7.4007999999999995e-06,
      "loss": 0.1809,
      "num_tokens": 69123202.0,
      "reward": 2.281765937805176,
      "reward_std": 0.7985396385192871,
      "rewards/reward_fn/mean": 2.281765937805176,
      "rewards/reward_fn/std": 0.7985396385192871,
      "step": 1499
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1075.0,
      "completions/max_terminated_length": 1075.0,
      "completions/mean_length": 333.03125,
      "completions/mean_terminated_length": 333.03125,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.15911742866235282,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.0297744101844728,
      "learning_rate": 7.4004e-06,
      "loss": 0.0043,
      "num_tokens": 69176387.0,
      "reward": 2.7405807971954346,
      "reward_std": 0.37365394830703735,
      "rewards/reward_fn/mean": 2.7405807971954346,
      "rewards/reward_fn/std": 0.37365394830703735,
      "step": 1500
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 968.0,
      "completions/mean_length": 580.5625,
      "completions/mean_terminated_length": 482.7333679199219,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.15922350694812773,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02315366081893444,
      "learning_rate": 7.4e-06,
      "loss": 0.381,
      "num_tokens": 69237973.0,
      "reward": 2.747545003890991,
      "reward_std": 0.7242361307144165,
      "rewards/reward_fn/mean": 2.747545003890991,
      "rewards/reward_fn/std": 0.7242361307144165,
      "step": 1501
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 977.0,
      "completions/max_terminated_length": 977.0,
      "completions/mean_length": 269.875,
      "completions/mean_terminated_length": 269.875,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.15932958523390262,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.208984375,
      "kl": 0.024919069837778807,
      "learning_rate": 7.3996e-06,
      "loss": 0.001,
      "num_tokens": 69265745.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1502
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 750.0,
      "completions/max_terminated_length": 750.0,
      "completions/mean_length": 360.5625,
      "completions/mean_terminated_length": 360.5625,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.15943566351967753,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.03635862981900573,
      "learning_rate": 7.3992e-06,
      "loss": -0.0237,
      "num_tokens": 69309059.0,
      "reward": 2.4815585613250732,
      "reward_std": 0.4622640609741211,
      "rewards/reward_fn/mean": 2.4815585613250732,
      "rewards/reward_fn/std": 0.46226412057876587,
      "step": 1503
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 657.0,
      "completions/max_terminated_length": 657.0,
      "completions/mean_length": 277.4375,
      "completions/mean_terminated_length": 277.4375,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.15954174180545241,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.078125,
      "kl": 0.022342822514474392,
      "learning_rate": 7.398799999999999e-06,
      "loss": 0.0009,
      "num_tokens": 69362417.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1504
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 674.0,
      "completions/max_terminated_length": 674.0,
      "completions/mean_length": 290.0,
      "completions/mean_terminated_length": 290.0,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.15964782009122733,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.025484284618869424,
      "learning_rate": 7.398399999999999e-06,
      "loss": 0.1144,
      "num_tokens": 69405713.0,
      "reward": 2.7833831310272217,
      "reward_std": 0.04491547495126724,
      "rewards/reward_fn/mean": 2.7833831310272217,
      "rewards/reward_fn/std": 0.04491545632481575,
      "step": 1505
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 841.0,
      "completions/max_terminated_length": 841.0,
      "completions/mean_length": 210.4375,
      "completions/mean_terminated_length": 210.4375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.15975389837700224,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.02738275215961039,
      "learning_rate": 7.397999999999999e-06,
      "loss": -0.0175,
      "num_tokens": 69449247.0,
      "reward": 3.937028646469116,
      "reward_std": 0.24817818403244019,
      "rewards/reward_fn/mean": 3.937028646469116,
      "rewards/reward_fn/std": 0.24817822873592377,
      "step": 1506
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 653.0,
      "completions/max_terminated_length": 653.0,
      "completions/mean_length": 273.875,
      "completions/mean_terminated_length": 273.875,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.15985997666277713,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.080078125,
      "kl": 0.02079133247025311,
      "learning_rate": 7.397599999999999e-06,
      "loss": 0.0008,
      "num_tokens": 69498619.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1507
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 865.0,
      "completions/max_terminated_length": 865.0,
      "completions/mean_length": 205.09375,
      "completions/mean_terminated_length": 205.09375,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.15996605494855204,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.453125,
      "kl": 0.031059396918863058,
      "learning_rate": 7.397199999999999e-06,
      "loss": 0.2326,
      "num_tokens": 69547902.0,
      "reward": 3.931945323944092,
      "reward_std": 0.2682742774486542,
      "rewards/reward_fn/mean": 3.931945323944092,
      "rewards/reward_fn/std": 0.2682742774486542,
      "step": 1508
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 964.0,
      "completions/max_terminated_length": 964.0,
      "completions/mean_length": 348.375,
      "completions/mean_terminated_length": 348.375,
      "completions/min_length": 184.0,
      "completions/min_terminated_length": 184.0,
      "epoch": 0.16007213323432692,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.025881059700623155,
      "learning_rate": 7.396799999999999e-06,
      "loss": -0.0134,
      "num_tokens": 69599018.0,
      "reward": 2.5926716327667236,
      "reward_std": 0.1885869950056076,
      "rewards/reward_fn/mean": 2.5926716327667236,
      "rewards/reward_fn/std": 0.1885869950056076,
      "step": 1509
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 959.0,
      "completions/max_terminated_length": 959.0,
      "completions/mean_length": 242.125,
      "completions/mean_terminated_length": 242.125,
      "completions/min_length": 161.0,
      "completions/min_terminated_length": 161.0,
      "epoch": 0.16017821152010184,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08447265625,
      "kl": 0.020898002781905234,
      "learning_rate": 7.396399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 69646190.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1510
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 884.0,
      "completions/max_terminated_length": 884.0,
      "completions/mean_length": 298.71875,
      "completions/mean_terminated_length": 298.71875,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.16028428980587675,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.02123245596885681,
      "learning_rate": 7.395999999999999e-06,
      "loss": -0.0262,
      "num_tokens": 69696421.0,
      "reward": 3.7587828636169434,
      "reward_std": 0.6745774149894714,
      "rewards/reward_fn/mean": 3.7587828636169434,
      "rewards/reward_fn/std": 0.6745774745941162,
      "step": 1511
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 518.0,
      "completions/max_terminated_length": 518.0,
      "completions/mean_length": 360.75,
      "completions/mean_terminated_length": 360.75,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.16039036809165164,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.029440977377817035,
      "learning_rate": 7.3956e-06,
      "loss": 0.0316,
      "num_tokens": 69741565.0,
      "reward": 3.9266085624694824,
      "reward_std": 0.41516539454460144,
      "rewards/reward_fn/mean": 3.9266085624694824,
      "rewards/reward_fn/std": 0.41516542434692383,
      "step": 1512
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 485.0,
      "completions/max_terminated_length": 485.0,
      "completions/mean_length": 177.0625,
      "completions/mean_terminated_length": 177.0625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.16049644637742655,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.296875,
      "kl": 0.015543692628853023,
      "learning_rate": 7.3952e-06,
      "loss": -0.0021,
      "num_tokens": 69788575.0,
      "reward": 3.473254680633545,
      "reward_std": 0.8447170853614807,
      "rewards/reward_fn/mean": 3.473254680633545,
      "rewards/reward_fn/std": 0.8447170853614807,
      "step": 1513
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 733.0,
      "completions/max_terminated_length": 733.0,
      "completions/mean_length": 410.625,
      "completions/mean_terminated_length": 410.625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.16060252466320143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.0255625550635159,
      "learning_rate": 7.3948e-06,
      "loss": 0.1049,
      "num_tokens": 69835827.0,
      "reward": 2.6098246574401855,
      "reward_std": 0.272195965051651,
      "rewards/reward_fn/mean": 2.6098246574401855,
      "rewards/reward_fn/std": 0.272195965051651,
      "step": 1514
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 227.625,
      "completions/mean_terminated_length": 227.625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.16070860294897635,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0732421875,
      "kl": 0.0203583559487015,
      "learning_rate": 7.3944e-06,
      "loss": 0.0008,
      "num_tokens": 69890279.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1515
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 268.0,
      "completions/max_terminated_length": 268.0,
      "completions/mean_length": 176.90625,
      "completions/mean_terminated_length": 176.90625,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.16081468123475123,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08984375,
      "kl": 0.019284927984699607,
      "learning_rate": 7.394e-06,
      "loss": 0.0008,
      "num_tokens": 69928644.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1516
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 259.0,
      "completions/max_terminated_length": 259.0,
      "completions/mean_length": 166.0,
      "completions/mean_terminated_length": 166.0,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.16092075952052615,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.05426881415769458,
      "learning_rate": 7.3936e-06,
      "loss": 0.0055,
      "num_tokens": 69978820.0,
      "reward": 3.9703755378723145,
      "reward_std": 0.16758133471012115,
      "rewards/reward_fn/mean": 3.9703755378723145,
      "rewards/reward_fn/std": 0.16758134961128235,
      "step": 1517
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 807.0,
      "completions/mean_length": 452.96875,
      "completions/mean_terminated_length": 401.51611328125,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.16102683780630106,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.02300673839636147,
      "learning_rate": 7.3932e-06,
      "loss": 0.2649,
      "num_tokens": 70017987.0,
      "reward": 2.9328155517578125,
      "reward_std": 0.6929539442062378,
      "rewards/reward_fn/mean": 2.9328155517578125,
      "rewards/reward_fn/std": 0.6929539442062378,
      "step": 1518
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 297.0,
      "completions/max_terminated_length": 297.0,
      "completions/mean_length": 86.5625,
      "completions/mean_terminated_length": 86.5625,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.16113291609207595,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.083984375,
      "kl": 0.013300622056704015,
      "learning_rate": 7.3928e-06,
      "loss": 0.0005,
      "num_tokens": 70041269.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1519
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 630.0,
      "completions/max_terminated_length": 630.0,
      "completions/mean_length": 251.375,
      "completions/mean_terminated_length": 251.375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.16123899437785086,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07958984375,
      "kl": 0.020807479857467115,
      "learning_rate": 7.3924e-06,
      "loss": 0.0008,
      "num_tokens": 70104513.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1520
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 505.0,
      "completions/max_terminated_length": 505.0,
      "completions/mean_length": 144.375,
      "completions/mean_terminated_length": 144.375,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.16134507266362574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.017212234903126955,
      "learning_rate": 7.392e-06,
      "loss": 0.1497,
      "num_tokens": 70155629.0,
      "reward": 2.998427629470825,
      "reward_std": 0.039904408156871796,
      "rewards/reward_fn/mean": 2.998427629470825,
      "rewards/reward_fn/std": 0.039904408156871796,
      "step": 1521
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 884.0,
      "completions/max_terminated_length": 884.0,
      "completions/mean_length": 270.8125,
      "completions/mean_terminated_length": 270.8125,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.16145115094940066,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1396484375,
      "kl": 0.027058127569034696,
      "learning_rate": 7.3916e-06,
      "loss": 0.0011,
      "num_tokens": 70211559.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1522
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1306.0,
      "completions/max_terminated_length": 1306.0,
      "completions/mean_length": 404.4375,
      "completions/mean_terminated_length": 404.4375,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.16155722923517557,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.02585031627677381,
      "learning_rate": 7.3912000000000005e-06,
      "loss": -0.0859,
      "num_tokens": 70285653.0,
      "reward": 3.6108155250549316,
      "reward_std": 0.5108808875083923,
      "rewards/reward_fn/mean": 3.6108155250549316,
      "rewards/reward_fn/std": 0.5108808279037476,
      "step": 1523
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 906.0,
      "completions/max_terminated_length": 906.0,
      "completions/mean_length": 265.375,
      "completions/mean_terminated_length": 265.375,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.16166330752095046,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.021037982078269124,
      "learning_rate": 7.3908e-06,
      "loss": -0.0172,
      "num_tokens": 70327169.0,
      "reward": 3.0207977294921875,
      "reward_std": 0.037842877209186554,
      "rewards/reward_fn/mean": 3.0207977294921875,
      "rewards/reward_fn/std": 0.03784283623099327,
      "step": 1524
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 507.0,
      "completions/max_terminated_length": 507.0,
      "completions/mean_length": 102.78125,
      "completions/mean_terminated_length": 102.78125,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.16176938580672537,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.9375,
      "kl": 0.02766521042212844,
      "learning_rate": 7.3904e-06,
      "loss": -0.0696,
      "num_tokens": 70366170.0,
      "reward": 3.8455190658569336,
      "reward_std": 0.3647652268409729,
      "rewards/reward_fn/mean": 3.8455190658569336,
      "rewards/reward_fn/std": 0.3647651970386505,
      "step": 1525
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1333.0,
      "completions/max_terminated_length": 1333.0,
      "completions/mean_length": 192.96875,
      "completions/mean_terminated_length": 192.96875,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.16187546409250025,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0859375,
      "kl": 0.020648099714890122,
      "learning_rate": 7.3899999999999995e-06,
      "loss": 0.0008,
      "num_tokens": 70402553.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1526
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 215.0,
      "completions/max_terminated_length": 215.0,
      "completions/mean_length": 141.09375,
      "completions/mean_terminated_length": 141.09375,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.16198154237827517,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.140625,
      "kl": 0.02335872733965516,
      "learning_rate": 7.3895999999999995e-06,
      "loss": 0.0009,
      "num_tokens": 70447708.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1527
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 976.0,
      "completions/max_terminated_length": 976.0,
      "completions/mean_length": 201.6875,
      "completions/mean_terminated_length": 201.6875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.16208762066405008,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08837890625,
      "kl": 0.02256969455629587,
      "learning_rate": 7.3891999999999995e-06,
      "loss": 0.0009,
      "num_tokens": 70483954.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1528
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1466.0,
      "completions/max_terminated_length": 1466.0,
      "completions/mean_length": 353.5625,
      "completions/mean_terminated_length": 353.5625,
      "completions/min_length": 212.0,
      "completions/min_terminated_length": 212.0,
      "epoch": 0.16219369894982497,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.042810263112187386,
      "learning_rate": 7.3887999999999995e-06,
      "loss": 0.0261,
      "num_tokens": 70534692.0,
      "reward": 2.9112634658813477,
      "reward_std": 0.054259590804576874,
      "rewards/reward_fn/mean": 2.9112634658813477,
      "rewards/reward_fn/std": 0.054259564727544785,
      "step": 1529
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 795.0,
      "completions/max_terminated_length": 795.0,
      "completions/mean_length": 203.75,
      "completions/mean_terminated_length": 203.75,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.16229977723559988,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1474609375,
      "kl": 0.027603084221482277,
      "learning_rate": 7.3883999999999994e-06,
      "loss": 0.0011,
      "num_tokens": 70570908.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1530
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1341.0,
      "completions/max_terminated_length": 1341.0,
      "completions/mean_length": 443.78125,
      "completions/mean_terminated_length": 443.78125,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.16240585552137476,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.0299779511988163,
      "learning_rate": 7.387999999999999e-06,
      "loss": 0.0348,
      "num_tokens": 70638805.0,
      "reward": 2.931946277618408,
      "reward_std": 0.0676136463880539,
      "rewards/reward_fn/mean": 2.931946277618408,
      "rewards/reward_fn/std": 0.06761366128921509,
      "step": 1531
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1183.0,
      "completions/max_terminated_length": 1183.0,
      "completions/mean_length": 322.625,
      "completions/mean_terminated_length": 322.625,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.16251193380714968,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.02347099781036377,
      "learning_rate": 7.387599999999999e-06,
      "loss": 0.0192,
      "num_tokens": 70693225.0,
      "reward": 3.963925838470459,
      "reward_std": 0.2040664255619049,
      "rewards/reward_fn/mean": 3.963925838470459,
      "rewards/reward_fn/std": 0.2040664404630661,
      "step": 1532
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 685.0,
      "completions/max_terminated_length": 685.0,
      "completions/mean_length": 175.59375,
      "completions/mean_terminated_length": 175.59375,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.1626180120929246,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.0625,
      "kl": 0.028762807371094823,
      "learning_rate": 7.387199999999999e-06,
      "loss": 0.0637,
      "num_tokens": 70734460.0,
      "reward": 3.963350296020508,
      "reward_std": 0.20732258260250092,
      "rewards/reward_fn/mean": 3.963350296020508,
      "rewards/reward_fn/std": 0.20732256770133972,
      "step": 1533
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 719.0,
      "completions/max_terminated_length": 719.0,
      "completions/mean_length": 266.03125,
      "completions/mean_terminated_length": 266.03125,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.16272409037869948,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.076171875,
      "kl": 0.018660985631868243,
      "learning_rate": 7.386799999999999e-06,
      "loss": 0.0007,
      "num_tokens": 70788509.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1534
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 701.0,
      "completions/max_terminated_length": 701.0,
      "completions/mean_length": 164.75,
      "completions/mean_terminated_length": 164.75,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.1628301686644744,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.9375,
      "kl": 0.027147594606503844,
      "learning_rate": 7.3864e-06,
      "loss": 0.1217,
      "num_tokens": 70835989.0,
      "reward": 3.89919376373291,
      "reward_std": 0.3184683322906494,
      "rewards/reward_fn/mean": 3.89919376373291,
      "rewards/reward_fn/std": 0.318468302488327,
      "step": 1535
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 167.0,
      "completions/max_terminated_length": 167.0,
      "completions/mean_length": 92.625,
      "completions/mean_terminated_length": 92.625,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.16293624695024927,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.126953125,
      "kl": 0.01960705651436001,
      "learning_rate": 7.386e-06,
      "loss": 0.0008,
      "num_tokens": 70873065.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1536
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 431.0,
      "completions/max_terminated_length": 431.0,
      "completions/mean_length": 145.71875,
      "completions/mean_terminated_length": 145.71875,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.1630423252360242,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.019639571546576917,
      "learning_rate": 7.3856e-06,
      "loss": 0.0008,
      "num_tokens": 70920544.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1537
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 205.0,
      "completions/max_terminated_length": 205.0,
      "completions/mean_length": 153.40625,
      "completions/mean_terminated_length": 153.40625,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.1631484035217991,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12060546875,
      "kl": 0.021374219097197056,
      "learning_rate": 7.3852e-06,
      "loss": 0.0009,
      "num_tokens": 70947181.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1538
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1104.0,
      "completions/max_terminated_length": 1104.0,
      "completions/mean_length": 327.65625,
      "completions/mean_terminated_length": 327.65625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.163254481807574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.030522728571668267,
      "learning_rate": 7.3848e-06,
      "loss": 0.0377,
      "num_tokens": 70987554.0,
      "reward": 2.9481630325317383,
      "reward_std": 0.22395570576190948,
      "rewards/reward_fn/mean": 2.9481630325317383,
      "rewards/reward_fn/std": 0.22395570576190948,
      "step": 1539
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 944.0,
      "completions/max_terminated_length": 944.0,
      "completions/mean_length": 466.15625,
      "completions/mean_terminated_length": 466.15625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.1633605600933489,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.029136600205674767,
      "learning_rate": 7.3844e-06,
      "loss": 0.047,
      "num_tokens": 71050631.0,
      "reward": 2.643458366394043,
      "reward_std": 0.3626547157764435,
      "rewards/reward_fn/mean": 2.643458366394043,
      "rewards/reward_fn/std": 0.3626546859741211,
      "step": 1540
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 873.0,
      "completions/max_terminated_length": 873.0,
      "completions/mean_length": 280.8125,
      "completions/mean_terminated_length": 280.8125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.16346663837912379,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.026954283006489277,
      "learning_rate": 7.384e-06,
      "loss": 0.0118,
      "num_tokens": 71082049.0,
      "reward": 3.7240138053894043,
      "reward_std": 0.44852492213249207,
      "rewards/reward_fn/mean": 3.7240138053894043,
      "rewards/reward_fn/std": 0.4485248923301697,
      "step": 1541
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1465.0,
      "completions/max_terminated_length": 1465.0,
      "completions/mean_length": 354.84375,
      "completions/mean_terminated_length": 354.84375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.1635727166648987,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.53515625,
      "kl": 0.025874186540022492,
      "learning_rate": 7.3836e-06,
      "loss": -0.1326,
      "num_tokens": 71132028.0,
      "reward": 2.750469207763672,
      "reward_std": 0.20693431794643402,
      "rewards/reward_fn/mean": 2.750469207763672,
      "rewards/reward_fn/std": 0.20693430304527283,
      "step": 1542
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 400.0,
      "completions/max_terminated_length": 400.0,
      "completions/mean_length": 248.59375,
      "completions/mean_terminated_length": 248.59375,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.16367879495067358,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.111328125,
      "kl": 0.0319938138127327,
      "learning_rate": 7.3832e-06,
      "loss": 0.0013,
      "num_tokens": 71177263.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1543
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1375.0,
      "completions/mean_length": 798.59375,
      "completions/mean_terminated_length": 758.290283203125,
      "completions/min_length": 410.0,
      "completions/min_terminated_length": 410.0,
      "epoch": 0.1637848732364485,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.021971626905724406,
      "learning_rate": 7.382799999999999e-06,
      "loss": 0.1853,
      "num_tokens": 71245058.0,
      "reward": 2.5030364990234375,
      "reward_std": 0.6058197021484375,
      "rewards/reward_fn/mean": 2.5030364990234375,
      "rewards/reward_fn/std": 0.6058197021484375,
      "step": 1544
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 588.0,
      "completions/max_terminated_length": 588.0,
      "completions/mean_length": 197.3125,
      "completions/mean_terminated_length": 197.3125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.1638909515222234,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09765625,
      "kl": 0.020507124136202037,
      "learning_rate": 7.382399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 71277932.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1545
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 350.0,
      "completions/max_terminated_length": 350.0,
      "completions/mean_length": 262.3125,
      "completions/mean_terminated_length": 262.3125,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.1639970298079983,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.027538377791643143,
      "learning_rate": 7.381999999999999e-06,
      "loss": 0.0391,
      "num_tokens": 71344630.0,
      "reward": 2.704584836959839,
      "reward_std": 0.04232628643512726,
      "rewards/reward_fn/mean": 2.704584836959839,
      "rewards/reward_fn/std": 0.042326249182224274,
      "step": 1546
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1643.0,
      "completions/mean_length": 497.6875,
      "completions/mean_terminated_length": 447.6773986816406,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.1641031080937732,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.03232635045424104,
      "learning_rate": 7.3816e-06,
      "loss": 0.0815,
      "num_tokens": 71395532.0,
      "reward": 2.349479913711548,
      "reward_std": 0.6918059587478638,
      "rewards/reward_fn/mean": 2.349479913711548,
      "rewards/reward_fn/std": 0.6918059587478638,
      "step": 1547
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.0,
      "completions/max_terminated_length": 361.0,
      "completions/mean_length": 255.40625,
      "completions/mean_terminated_length": 255.40625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.1642091863795481,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08154296875,
      "kl": 0.018391662510111928,
      "learning_rate": 7.3812e-06,
      "loss": 0.0007,
      "num_tokens": 71460441.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1548
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 921.0,
      "completions/max_terminated_length": 921.0,
      "completions/mean_length": 456.8125,
      "completions/mean_terminated_length": 456.8125,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.164315264665323,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.02743516000919044,
      "learning_rate": 7.3808e-06,
      "loss": 0.0942,
      "num_tokens": 71514451.0,
      "reward": 3.201913356781006,
      "reward_std": 0.6840846538543701,
      "rewards/reward_fn/mean": 3.201913356781006,
      "rewards/reward_fn/std": 0.6840846538543701,
      "step": 1549
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 828.0,
      "completions/max_terminated_length": 828.0,
      "completions/mean_length": 287.1875,
      "completions/mean_terminated_length": 287.1875,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.16442134295109792,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1015625,
      "kl": 0.02359214937314391,
      "learning_rate": 7.3804e-06,
      "loss": 0.0009,
      "num_tokens": 71560633.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1550
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1822.0,
      "completions/max_terminated_length": 1822.0,
      "completions/mean_length": 379.65625,
      "completions/mean_terminated_length": 379.65625,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.1645274212368728,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.027676088735461235,
      "learning_rate": 7.38e-06,
      "loss": 0.0507,
      "num_tokens": 71621486.0,
      "reward": 2.9698777198791504,
      "reward_std": 0.056896451860666275,
      "rewards/reward_fn/mean": 2.9698777198791504,
      "rewards/reward_fn/std": 0.05689648166298866,
      "step": 1551
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 947.0,
      "completions/max_terminated_length": 947.0,
      "completions/mean_length": 294.40625,
      "completions/mean_terminated_length": 294.40625,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.16463349952264772,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.022418924141675234,
      "learning_rate": 7.3796e-06,
      "loss": 0.0377,
      "num_tokens": 71668123.0,
      "reward": 2.8232269287109375,
      "reward_std": 0.2750570774078369,
      "rewards/reward_fn/mean": 2.8232269287109375,
      "rewards/reward_fn/std": 0.2750571072101593,
      "step": 1552
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1089.0,
      "completions/max_terminated_length": 1089.0,
      "completions/mean_length": 321.78125,
      "completions/mean_terminated_length": 321.78125,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.1647395778084226,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.030020848847925663,
      "learning_rate": 7.3792e-06,
      "loss": 0.073,
      "num_tokens": 71715380.0,
      "reward": 3.7270565032958984,
      "reward_std": 0.5574728846549988,
      "rewards/reward_fn/mean": 3.7270565032958984,
      "rewards/reward_fn/std": 0.5574728846549988,
      "step": 1553
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1024.0,
      "completions/max_terminated_length": 1024.0,
      "completions/mean_length": 282.1875,
      "completions/mean_terminated_length": 282.1875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.16484565609419752,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.01917832251638174,
      "learning_rate": 7.3787999999999996e-06,
      "loss": -0.0677,
      "num_tokens": 71762618.0,
      "reward": 3.861374616622925,
      "reward_std": 0.37316587567329407,
      "rewards/reward_fn/mean": 3.861374616622925,
      "rewards/reward_fn/std": 0.37316587567329407,
      "step": 1554
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 357.0,
      "completions/max_terminated_length": 357.0,
      "completions/mean_length": 219.625,
      "completions/mean_terminated_length": 219.625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.16495173437997243,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.028847611974924803,
      "learning_rate": 7.3783999999999995e-06,
      "loss": -0.0166,
      "num_tokens": 71807982.0,
      "reward": 3.9281513690948486,
      "reward_std": 0.40643757581710815,
      "rewards/reward_fn/mean": 3.9281513690948486,
      "rewards/reward_fn/std": 0.40643760561943054,
      "step": 1555
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 321.25,
      "completions/mean_terminated_length": 321.25,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.16505781266574732,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.03293606429360807,
      "learning_rate": 7.3779999999999995e-06,
      "loss": 0.1044,
      "num_tokens": 71862006.0,
      "reward": 2.8002994060516357,
      "reward_std": 0.053148169070482254,
      "rewards/reward_fn/mean": 2.8002994060516357,
      "rewards/reward_fn/std": 0.05314814671874046,
      "step": 1556
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1651.0,
      "completions/max_terminated_length": 1651.0,
      "completions/mean_length": 360.21875,
      "completions/mean_terminated_length": 360.21875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.16516389095152223,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.031179531943053007,
      "learning_rate": 7.3775999999999995e-06,
      "loss": 0.0442,
      "num_tokens": 71911549.0,
      "reward": 2.779324531555176,
      "reward_std": 0.4085378348827362,
      "rewards/reward_fn/mean": 2.779324531555176,
      "rewards/reward_fn/std": 0.4085378348827362,
      "step": 1557
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 976.0,
      "completions/mean_length": 500.25,
      "completions/mean_terminated_length": 450.32257080078125,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.16526996923729712,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.027880383422598243,
      "learning_rate": 7.3772e-06,
      "loss": 0.2164,
      "num_tokens": 71978277.0,
      "reward": 2.6912436485290527,
      "reward_std": 0.5629785060882568,
      "rewards/reward_fn/mean": 2.6912436485290527,
      "rewards/reward_fn/std": 0.5629785060882568,
      "step": 1558
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 856.0,
      "completions/max_terminated_length": 856.0,
      "completions/mean_length": 217.65625,
      "completions/mean_terminated_length": 217.65625,
      "completions/min_length": 103.0,
      "completions/min_terminated_length": 103.0,
      "epoch": 0.16537604752307203,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.025317950639873743,
      "learning_rate": 7.3768e-06,
      "loss": -0.0064,
      "num_tokens": 72020922.0,
      "reward": 3.0498218536376953,
      "reward_std": 0.0369083546102047,
      "rewards/reward_fn/mean": 3.0498218536376953,
      "rewards/reward_fn/std": 0.0369083397090435,
      "step": 1559
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1086.0,
      "completions/max_terminated_length": 1086.0,
      "completions/mean_length": 262.90625,
      "completions/mean_terminated_length": 262.90625,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.16548212580884694,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.02574088191613555,
      "learning_rate": 7.3764e-06,
      "loss": -0.0193,
      "num_tokens": 72049975.0,
      "reward": 3.622433662414551,
      "reward_std": 0.8289299607276917,
      "rewards/reward_fn/mean": 3.622433662414551,
      "rewards/reward_fn/std": 0.8289299607276917,
      "step": 1560
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 417.0,
      "completions/max_terminated_length": 417.0,
      "completions/mean_length": 152.625,
      "completions/mean_terminated_length": 152.625,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.16558820409462183,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12353515625,
      "kl": 0.021092961658723652,
      "learning_rate": 7.376e-06,
      "loss": 0.0008,
      "num_tokens": 72086347.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1561
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 539.0,
      "completions/max_terminated_length": 539.0,
      "completions/mean_length": 124.40625,
      "completions/mean_terminated_length": 124.40625,
      "completions/min_length": 71.0,
      "completions/min_terminated_length": 71.0,
      "epoch": 0.16569428238039674,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.71875,
      "kl": 0.029914353508502245,
      "learning_rate": 7.3756e-06,
      "loss": 0.1327,
      "num_tokens": 72125208.0,
      "reward": 2.8506991863250732,
      "reward_std": 0.03070419654250145,
      "rewards/reward_fn/mean": 2.8506991863250732,
      "rewards/reward_fn/std": 0.030704230070114136,
      "step": 1562
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 425.0,
      "completions/max_terminated_length": 425.0,
      "completions/mean_length": 271.53125,
      "completions/mean_terminated_length": 271.53125,
      "completions/min_length": 183.0,
      "completions/min_terminated_length": 183.0,
      "epoch": 0.16580036066617163,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.03901820583269,
      "learning_rate": 7.3752e-06,
      "loss": 0.0406,
      "num_tokens": 72173097.0,
      "reward": 3.0672106742858887,
      "reward_std": 0.3122633397579193,
      "rewards/reward_fn/mean": 3.0672106742858887,
      "rewards/reward_fn/std": 0.3122633397579193,
      "step": 1563
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 548.0,
      "completions/max_terminated_length": 548.0,
      "completions/mean_length": 160.21875,
      "completions/mean_terminated_length": 160.21875,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.16590643895194654,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.029396470403298736,
      "learning_rate": 7.374799999999999e-06,
      "loss": -0.0484,
      "num_tokens": 72198128.0,
      "reward": 3.639256477355957,
      "reward_std": 0.5450024604797363,
      "rewards/reward_fn/mean": 3.639256477355957,
      "rewards/reward_fn/std": 0.5450024604797363,
      "step": 1564
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 616.0,
      "completions/max_terminated_length": 616.0,
      "completions/mean_length": 185.875,
      "completions/mean_terminated_length": 185.875,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.16601251723772145,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.05406060954555869,
      "learning_rate": 7.374399999999999e-06,
      "loss": 0.0989,
      "num_tokens": 72225964.0,
      "reward": 3.8368563652038574,
      "reward_std": 0.3858475089073181,
      "rewards/reward_fn/mean": 3.8368563652038574,
      "rewards/reward_fn/std": 0.3858474791049957,
      "step": 1565
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1062.0,
      "completions/max_terminated_length": 1062.0,
      "completions/mean_length": 372.65625,
      "completions/mean_terminated_length": 372.65625,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.16611859552349634,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2265625,
      "kl": 0.022666738834232092,
      "learning_rate": 7.373999999999999e-06,
      "loss": -0.0341,
      "num_tokens": 72285057.0,
      "reward": 3.9279088973999023,
      "reward_std": 0.40780818462371826,
      "rewards/reward_fn/mean": 3.9279088973999023,
      "rewards/reward_fn/std": 0.40780818462371826,
      "step": 1566
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1170.0,
      "completions/mean_length": 389.0,
      "completions/mean_terminated_length": 335.4838562011719,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.16622467380927125,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.02747956058010459,
      "learning_rate": 7.373599999999999e-06,
      "loss": 0.154,
      "num_tokens": 72340545.0,
      "reward": 2.9696366786956787,
      "reward_std": 0.44867783784866333,
      "rewards/reward_fn/mean": 2.9696366786956787,
      "rewards/reward_fn/std": 0.44867780804634094,
      "step": 1567
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 804.0,
      "completions/max_terminated_length": 804.0,
      "completions/mean_length": 209.875,
      "completions/mean_terminated_length": 209.875,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.16633075209504614,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1142578125,
      "kl": 0.0265498380176723,
      "learning_rate": 7.373199999999999e-06,
      "loss": 0.0011,
      "num_tokens": 72398941.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1568
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 503.0,
      "completions/max_terminated_length": 503.0,
      "completions/mean_length": 176.28125,
      "completions/mean_terminated_length": 176.28125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.16643683038082105,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1396484375,
      "kl": 0.027999462094157934,
      "learning_rate": 7.372799999999999e-06,
      "loss": 0.0011,
      "num_tokens": 72469094.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1569
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 580.0,
      "completions/max_terminated_length": 580.0,
      "completions/mean_length": 188.53125,
      "completions/mean_terminated_length": 188.53125,
      "completions/min_length": 46.0,
      "completions/min_terminated_length": 46.0,
      "epoch": 0.16654290866659593,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.028627387015148997,
      "learning_rate": 7.3724e-06,
      "loss": -0.1119,
      "num_tokens": 72509143.0,
      "reward": 2.8793563842773438,
      "reward_std": 0.6584159135818481,
      "rewards/reward_fn/mean": 2.8793563842773438,
      "rewards/reward_fn/std": 0.6584158539772034,
      "step": 1570
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1219.0,
      "completions/max_terminated_length": 1219.0,
      "completions/mean_length": 220.625,
      "completions/mean_terminated_length": 220.625,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.16664898695237085,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.02936831465922296,
      "learning_rate": 7.372e-06,
      "loss": 0.098,
      "num_tokens": 72537067.0,
      "reward": 2.8143582344055176,
      "reward_std": 0.03991476818919182,
      "rewards/reward_fn/mean": 2.8143582344055176,
      "rewards/reward_fn/std": 0.03991476073861122,
      "step": 1571
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1105.0,
      "completions/max_terminated_length": 1105.0,
      "completions/mean_length": 256.75,
      "completions/mean_terminated_length": 256.75,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.16675506523814576,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1005859375,
      "kl": 0.027146983658894897,
      "learning_rate": 7.3716e-06,
      "loss": 0.0011,
      "num_tokens": 72564003.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1572
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 207.0,
      "completions/max_terminated_length": 207.0,
      "completions/mean_length": 150.625,
      "completions/mean_terminated_length": 150.625,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.16686114352392065,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1318359375,
      "kl": 0.023954558419063687,
      "learning_rate": 7.3712e-06,
      "loss": 0.001,
      "num_tokens": 72630999.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1573
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 285.28125,
      "completions/mean_terminated_length": 285.28125,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.16696722180969556,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.027458957163617015,
      "learning_rate": 7.3708e-06,
      "loss": 0.0287,
      "num_tokens": 72683744.0,
      "reward": 2.6126034259796143,
      "reward_std": 0.7907987236976624,
      "rewards/reward_fn/mean": 2.6126034259796143,
      "rewards/reward_fn/std": 0.7907987236976624,
      "step": 1574
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1310.0,
      "completions/max_terminated_length": 1310.0,
      "completions/mean_length": 438.21875,
      "completions/mean_terminated_length": 438.21875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.16707330009547045,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.026026516687124968,
      "learning_rate": 7.3704e-06,
      "loss": 0.114,
      "num_tokens": 72730439.0,
      "reward": 3.1812829971313477,
      "reward_std": 0.5636266469955444,
      "rewards/reward_fn/mean": 3.1812829971313477,
      "rewards/reward_fn/std": 0.5636265873908997,
      "step": 1575
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 846.0,
      "completions/max_terminated_length": 846.0,
      "completions/mean_length": 194.09375,
      "completions/mean_terminated_length": 194.09375,
      "completions/min_length": 88.0,
      "completions/min_terminated_length": 88.0,
      "epoch": 0.16717937838124536,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.025642277905717492,
      "learning_rate": 7.37e-06,
      "loss": 0.0384,
      "num_tokens": 72779370.0,
      "reward": 3.8860883712768555,
      "reward_std": 0.468019962310791,
      "rewards/reward_fn/mean": 3.8860883712768555,
      "rewards/reward_fn/std": 0.468019962310791,
      "step": 1576
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 213.1875,
      "completions/mean_terminated_length": 213.1875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.16728545666702027,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5,
      "kl": 0.03445283626206219,
      "learning_rate": 7.3696e-06,
      "loss": -0.2059,
      "num_tokens": 72815856.0,
      "reward": 3.205237865447998,
      "reward_std": 0.4682815372943878,
      "rewards/reward_fn/mean": 3.205237865447998,
      "rewards/reward_fn/std": 0.46828150749206543,
      "step": 1577
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1284.0,
      "completions/max_terminated_length": 1284.0,
      "completions/mean_length": 308.40625,
      "completions/mean_terminated_length": 308.40625,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.16739153495279516,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.095703125,
      "kl": 0.024654962122440338,
      "learning_rate": 7.3692e-06,
      "loss": 0.001,
      "num_tokens": 72863901.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1578
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 518.0,
      "completions/max_terminated_length": 518.0,
      "completions/mean_length": 313.21875,
      "completions/mean_terminated_length": 313.21875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.16749761323857007,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02547546150162816,
      "learning_rate": 7.3688e-06,
      "loss": 0.0737,
      "num_tokens": 72922372.0,
      "reward": 3.0208816528320312,
      "reward_std": 0.756123423576355,
      "rewards/reward_fn/mean": 3.0208816528320312,
      "rewards/reward_fn/std": 0.7561233639717102,
      "step": 1579
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 405.0,
      "completions/max_terminated_length": 405.0,
      "completions/mean_length": 192.5625,
      "completions/mean_terminated_length": 192.5625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.16760369152434496,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.04026231449097395,
      "learning_rate": 7.3684e-06,
      "loss": -0.0245,
      "num_tokens": 72963222.0,
      "reward": 3.9631948471069336,
      "reward_std": 0.2082015424966812,
      "rewards/reward_fn/mean": 3.9631948471069336,
      "rewards/reward_fn/std": 0.2082015424966812,
      "step": 1580
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1534.0,
      "completions/max_terminated_length": 1534.0,
      "completions/mean_length": 387.25,
      "completions/mean_terminated_length": 387.25,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.16770976981011987,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.029226713813841343,
      "learning_rate": 7.368e-06,
      "loss": 0.0179,
      "num_tokens": 73006558.0,
      "reward": 2.7275261878967285,
      "reward_std": 0.326748251914978,
      "rewards/reward_fn/mean": 2.7275261878967285,
      "rewards/reward_fn/std": 0.32674822211265564,
      "step": 1581
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 252.0,
      "completions/max_terminated_length": 252.0,
      "completions/mean_length": 127.5,
      "completions/mean_terminated_length": 127.5,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.16781584809589478,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1591796875,
      "kl": 0.03317599557340145,
      "learning_rate": 7.3676e-06,
      "loss": 0.0013,
      "num_tokens": 73053486.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1582
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 951.0,
      "completions/max_terminated_length": 951.0,
      "completions/mean_length": 281.9375,
      "completions/mean_terminated_length": 281.9375,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.16792192638166967,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09716796875,
      "kl": 0.022451504366472363,
      "learning_rate": 7.3672e-06,
      "loss": 0.0009,
      "num_tokens": 73086188.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1583
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 283.0,
      "completions/max_terminated_length": 283.0,
      "completions/mean_length": 163.0625,
      "completions/mean_terminated_length": 163.0625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.16802800466744458,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.026922843884676695,
      "learning_rate": 7.3667999999999995e-06,
      "loss": 0.0565,
      "num_tokens": 73119246.0,
      "reward": 2.860722064971924,
      "reward_std": 0.0443354956805706,
      "rewards/reward_fn/mean": 2.860722064971924,
      "rewards/reward_fn/std": 0.04433548450469971,
      "step": 1584
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1794.0,
      "completions/max_terminated_length": 1794.0,
      "completions/mean_length": 516.78125,
      "completions/mean_terminated_length": 516.78125,
      "completions/min_length": 223.0,
      "completions/min_terminated_length": 223.0,
      "epoch": 0.16813408295321947,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.027608325239270926,
      "learning_rate": 7.3663999999999995e-06,
      "loss": 0.0582,
      "num_tokens": 73182151.0,
      "reward": 3.1305994987487793,
      "reward_std": 0.9841459393501282,
      "rewards/reward_fn/mean": 3.1305994987487793,
      "rewards/reward_fn/std": 0.9841459393501282,
      "step": 1585
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 754.0,
      "completions/max_terminated_length": 754.0,
      "completions/mean_length": 214.09375,
      "completions/mean_terminated_length": 214.09375,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.16824016123899438,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.02348411502316594,
      "learning_rate": 7.3659999999999994e-06,
      "loss": 0.0196,
      "num_tokens": 73222634.0,
      "reward": 3.9632420539855957,
      "reward_std": 0.2079339474439621,
      "rewards/reward_fn/mean": 3.9632420539855957,
      "rewards/reward_fn/std": 0.2079339176416397,
      "step": 1586
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 899.0,
      "completions/max_terminated_length": 899.0,
      "completions/mean_length": 314.28125,
      "completions/mean_terminated_length": 314.28125,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.1683462395247693,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.0289424117654562,
      "learning_rate": 7.365599999999999e-06,
      "loss": 0.1943,
      "num_tokens": 73276947.0,
      "reward": 3.456662178039551,
      "reward_std": 0.8585535883903503,
      "rewards/reward_fn/mean": 3.456662178039551,
      "rewards/reward_fn/std": 0.8585535883903503,
      "step": 1587
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 206.0,
      "completions/max_terminated_length": 206.0,
      "completions/mean_length": 123.40625,
      "completions/mean_terminated_length": 123.40625,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.16845231781054418,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.029007577802985907,
      "learning_rate": 7.365199999999999e-06,
      "loss": 0.0012,
      "num_tokens": 73312480.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1588
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1397.0,
      "completions/max_terminated_length": 1397.0,
      "completions/mean_length": 364.125,
      "completions/mean_terminated_length": 364.125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.1685583960963191,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.0202113245613873,
      "learning_rate": 7.364799999999999e-06,
      "loss": -0.0049,
      "num_tokens": 73358404.0,
      "reward": 3.0420591831207275,
      "reward_std": 0.37027791142463684,
      "rewards/reward_fn/mean": 3.0420591831207275,
      "rewards/reward_fn/std": 0.37027788162231445,
      "step": 1589
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 754.0,
      "completions/mean_length": 467.5,
      "completions/mean_terminated_length": 416.51611328125,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.16866447438209398,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.019788505509495735,
      "learning_rate": 7.364399999999999e-06,
      "loss": 0.2435,
      "num_tokens": 73411316.0,
      "reward": 2.620427370071411,
      "reward_std": 0.519374668598175,
      "rewards/reward_fn/mean": 2.620427370071411,
      "rewards/reward_fn/std": 0.519374668598175,
      "step": 1590
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 893.0,
      "completions/max_terminated_length": 893.0,
      "completions/mean_length": 339.25,
      "completions/mean_terminated_length": 339.25,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.1687705526678689,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1494140625,
      "kl": 0.03387824585661292,
      "learning_rate": 7.363999999999999e-06,
      "loss": 0.0014,
      "num_tokens": 73453916.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1591
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 450.0,
      "completions/max_terminated_length": 450.0,
      "completions/mean_length": 276.1875,
      "completions/mean_terminated_length": 276.1875,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1688766309536438,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09765625,
      "kl": 0.026950898114591837,
      "learning_rate": 7.363599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 73484098.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1592
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1189.0,
      "completions/max_terminated_length": 1189.0,
      "completions/mean_length": 293.84375,
      "completions/mean_terminated_length": 293.84375,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.1689827092394187,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.0297443438321352,
      "learning_rate": 7.363199999999999e-06,
      "loss": 0.0417,
      "num_tokens": 73524253.0,
      "reward": 3.6159801483154297,
      "reward_std": 0.506695032119751,
      "rewards/reward_fn/mean": 3.6159801483154297,
      "rewards/reward_fn/std": 0.506695032119751,
      "step": 1593
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 813.0,
      "completions/max_terminated_length": 813.0,
      "completions/mean_length": 434.375,
      "completions/mean_terminated_length": 434.375,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.1690887875251936,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.022996835177764297,
      "learning_rate": 7.3628e-06,
      "loss": -0.0086,
      "num_tokens": 73581993.0,
      "reward": 3.1963114738464355,
      "reward_std": 0.5918622612953186,
      "rewards/reward_fn/mean": 3.1963114738464355,
      "rewards/reward_fn/std": 0.5918623208999634,
      "step": 1594
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/max_terminated_length": 273.0,
      "completions/mean_length": 202.3125,
      "completions/mean_terminated_length": 202.3125,
      "completions/min_length": 87.0,
      "completions/min_terminated_length": 87.0,
      "epoch": 0.1691948658109685,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.02059872355312109,
      "learning_rate": 7.3624e-06,
      "loss": 0.0376,
      "num_tokens": 73628723.0,
      "reward": 3.9325742721557617,
      "reward_std": 0.3814173638820648,
      "rewards/reward_fn/mean": 3.9325742721557617,
      "rewards/reward_fn/std": 0.38141733407974243,
      "step": 1595
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 391.0,
      "completions/max_terminated_length": 391.0,
      "completions/mean_length": 228.5625,
      "completions/mean_terminated_length": 228.5625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.1693009440967434,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.02786667738109827,
      "learning_rate": 7.362e-06,
      "loss": 0.04,
      "num_tokens": 73666501.0,
      "reward": 3.7850565910339355,
      "reward_std": 0.5395143628120422,
      "rewards/reward_fn/mean": 3.7850565910339355,
      "rewards/reward_fn/std": 0.5395143628120422,
      "step": 1596
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 993.0,
      "completions/max_terminated_length": 993.0,
      "completions/mean_length": 337.75,
      "completions/mean_terminated_length": 337.75,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.16940702238251829,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0,
      "kl": 0.02589184185490012,
      "learning_rate": 7.3616e-06,
      "loss": -0.0659,
      "num_tokens": 73713885.0,
      "reward": 2.7677502632141113,
      "reward_std": 0.19476144015789032,
      "rewards/reward_fn/mean": 2.7677502632141113,
      "rewards/reward_fn/std": 0.1947614550590515,
      "step": 1597
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1111.0,
      "completions/max_terminated_length": 1111.0,
      "completions/mean_length": 375.09375,
      "completions/mean_terminated_length": 375.09375,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.1695131006682932,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.01787739770952612,
      "learning_rate": 7.3612e-06,
      "loss": -0.0086,
      "num_tokens": 73771200.0,
      "reward": 3.8554279804229736,
      "reward_std": 0.5688852071762085,
      "rewards/reward_fn/mean": 3.8554279804229736,
      "rewards/reward_fn/std": 0.5688852071762085,
      "step": 1598
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 369.0,
      "completions/max_terminated_length": 369.0,
      "completions/mean_length": 238.1875,
      "completions/mean_terminated_length": 238.1875,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.1696191789540681,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.024122617673128843,
      "learning_rate": 7.3608e-06,
      "loss": -0.0122,
      "num_tokens": 73835718.0,
      "reward": 2.7904884815216064,
      "reward_std": 0.028905630111694336,
      "rewards/reward_fn/mean": 2.7904884815216064,
      "rewards/reward_fn/std": 0.02890562266111374,
      "step": 1599
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 784.0,
      "completions/max_terminated_length": 784.0,
      "completions/mean_length": 207.09375,
      "completions/mean_terminated_length": 207.09375,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.169725257239843,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.03663892112672329,
      "learning_rate": 7.3604e-06,
      "loss": 0.0213,
      "num_tokens": 73885321.0,
      "reward": 2.8401732444763184,
      "reward_std": 0.19660231471061707,
      "rewards/reward_fn/mean": 2.8401732444763184,
      "rewards/reward_fn/std": 0.19660234451293945,
      "step": 1600
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 664.0,
      "completions/mean_length": 403.5,
      "completions/mean_terminated_length": 350.45159912109375,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.1698313355256179,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.02747776103205979,
      "learning_rate": 7.36e-06,
      "loss": 0.256,
      "num_tokens": 73948569.0,
      "reward": 2.654446601867676,
      "reward_std": 0.600631058216095,
      "rewards/reward_fn/mean": 2.654446601867676,
      "rewards/reward_fn/std": 0.600631058216095,
      "step": 1601
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1447.0,
      "completions/max_terminated_length": 1447.0,
      "completions/mean_length": 322.1875,
      "completions/mean_terminated_length": 322.1875,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.1699374138113928,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.030739419627934694,
      "learning_rate": 7.3596e-06,
      "loss": 0.0544,
      "num_tokens": 73980255.0,
      "reward": 3.819499969482422,
      "reward_std": 0.5079775452613831,
      "rewards/reward_fn/mean": 3.819499969482422,
      "rewards/reward_fn/std": 0.5079775452613831,
      "step": 1602
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 186.0,
      "completions/max_terminated_length": 186.0,
      "completions/mean_length": 140.1875,
      "completions/mean_terminated_length": 140.1875,
      "completions/min_length": 110.0,
      "completions/min_terminated_length": 110.0,
      "epoch": 0.1700434920971677,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1416015625,
      "kl": 0.026381214149296284,
      "learning_rate": 7.3592e-06,
      "loss": 0.0011,
      "num_tokens": 74014885.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1603
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1114.0,
      "completions/max_terminated_length": 1114.0,
      "completions/mean_length": 496.78125,
      "completions/mean_terminated_length": 496.78125,
      "completions/min_length": 280.0,
      "completions/min_terminated_length": 280.0,
      "epoch": 0.17014957038294262,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1015625,
      "kl": 0.023547572316601872,
      "learning_rate": 7.358799999999999e-06,
      "loss": 0.017,
      "num_tokens": 74071262.0,
      "reward": 3.6152219772338867,
      "reward_std": 0.6692531108856201,
      "rewards/reward_fn/mean": 3.6152219772338867,
      "rewards/reward_fn/std": 0.6692530512809753,
      "step": 1604
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1870.0,
      "completions/max_terminated_length": 1870.0,
      "completions/mean_length": 533.1875,
      "completions/mean_terminated_length": 533.1875,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.1702556486687175,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.02932202792726457,
      "learning_rate": 7.358399999999999e-06,
      "loss": -0.0112,
      "num_tokens": 74124580.0,
      "reward": 2.6716699600219727,
      "reward_std": 0.3422979414463043,
      "rewards/reward_fn/mean": 2.6716699600219727,
      "rewards/reward_fn/std": 0.34229791164398193,
      "step": 1605
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 828.0,
      "completions/max_terminated_length": 828.0,
      "completions/mean_length": 226.53125,
      "completions/mean_terminated_length": 226.53125,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.17036172695449242,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.02531708194874227,
      "learning_rate": 7.358e-06,
      "loss": 0.0259,
      "num_tokens": 74148757.0,
      "reward": 2.9681363105773926,
      "reward_std": 0.04596217721700668,
      "rewards/reward_fn/mean": 2.9681363105773926,
      "rewards/reward_fn/std": 0.04596218094229698,
      "step": 1606
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2008.0,
      "completions/max_terminated_length": 2008.0,
      "completions/mean_length": 379.90625,
      "completions/mean_terminated_length": 379.90625,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.1704678052402673,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.0387666889000684,
      "learning_rate": 7.3576e-06,
      "loss": -0.0632,
      "num_tokens": 74189490.0,
      "reward": 2.6473255157470703,
      "reward_std": 0.4680839478969574,
      "rewards/reward_fn/mean": 2.6473255157470703,
      "rewards/reward_fn/std": 0.468083918094635,
      "step": 1607
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 245.0,
      "completions/max_terminated_length": 245.0,
      "completions/mean_length": 151.875,
      "completions/mean_terminated_length": 151.875,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.17057388352604222,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.46875,
      "kl": 0.02067621098831296,
      "learning_rate": 7.3572e-06,
      "loss": 0.0394,
      "num_tokens": 74237422.0,
      "reward": 3.9700491428375244,
      "reward_std": 0.16942748427391052,
      "rewards/reward_fn/mean": 3.9700491428375244,
      "rewards/reward_fn/std": 0.16942746937274933,
      "step": 1608
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 917.0,
      "completions/max_terminated_length": 917.0,
      "completions/mean_length": 267.5625,
      "completions/mean_terminated_length": 267.5625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.17067996181181713,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.33984375,
      "kl": 0.03733672644011676,
      "learning_rate": 7.3568e-06,
      "loss": 0.0015,
      "num_tokens": 74283328.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1609
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.0,
      "completions/max_terminated_length": 717.0,
      "completions/mean_length": 193.03125,
      "completions/mean_terminated_length": 193.03125,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.17078604009759202,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11865234375,
      "kl": 0.028381220996379852,
      "learning_rate": 7.3563999999999996e-06,
      "loss": 0.0011,
      "num_tokens": 74317025.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1610
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 594.0,
      "completions/max_terminated_length": 594.0,
      "completions/mean_length": 217.75,
      "completions/mean_terminated_length": 217.75,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.17089211838336693,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0830078125,
      "kl": 0.01850617292802781,
      "learning_rate": 7.3559999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 74370809.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1611
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 762.0,
      "completions/max_terminated_length": 762.0,
      "completions/mean_length": 328.8125,
      "completions/mean_terminated_length": 328.8125,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.17099819666914182,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.025823280215263367,
      "learning_rate": 7.3555999999999995e-06,
      "loss": 0.087,
      "num_tokens": 74432435.0,
      "reward": 3.2880189418792725,
      "reward_std": 0.9963902831077576,
      "rewards/reward_fn/mean": 3.2880189418792725,
      "rewards/reward_fn/std": 0.996390163898468,
      "step": 1612
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 262.0,
      "completions/max_terminated_length": 262.0,
      "completions/mean_length": 190.53125,
      "completions/mean_terminated_length": 190.53125,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.17110427495491673,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.03128618444316089,
      "learning_rate": 7.3551999999999995e-06,
      "loss": 0.0013,
      "num_tokens": 74462436.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1613
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1551.0,
      "completions/max_terminated_length": 1551.0,
      "completions/mean_length": 391.59375,
      "completions/mean_terminated_length": 391.59375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.17121035324069164,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.0252360668964684,
      "learning_rate": 7.3547999999999994e-06,
      "loss": 0.0505,
      "num_tokens": 74505847.0,
      "reward": 2.924363136291504,
      "reward_std": 0.3568187355995178,
      "rewards/reward_fn/mean": 2.924363136291504,
      "rewards/reward_fn/std": 0.3568187355995178,
      "step": 1614
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1390.0,
      "completions/max_terminated_length": 1390.0,
      "completions/mean_length": 415.875,
      "completions/mean_terminated_length": 415.875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.17131643152646653,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.024169984506443143,
      "learning_rate": 7.354399999999999e-06,
      "loss": -0.0145,
      "num_tokens": 74576595.0,
      "reward": 2.773521900177002,
      "reward_std": 0.06824694573879242,
      "rewards/reward_fn/mean": 2.773521900177002,
      "rewards/reward_fn/std": 0.06824696063995361,
      "step": 1615
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1172.0,
      "completions/max_terminated_length": 1172.0,
      "completions/mean_length": 470.65625,
      "completions/mean_terminated_length": 470.65625,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.17142250981224144,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.01885635987855494,
      "learning_rate": 7.353999999999999e-06,
      "loss": 0.1074,
      "num_tokens": 74630760.0,
      "reward": 3.872809886932373,
      "reward_std": 0.4551088809967041,
      "rewards/reward_fn/mean": 3.872809886932373,
      "rewards/reward_fn/std": 0.4551088511943817,
      "step": 1616
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1438.0,
      "completions/max_terminated_length": 1438.0,
      "completions/mean_length": 561.8125,
      "completions/mean_terminated_length": 561.8125,
      "completions/min_length": 293.0,
      "completions/min_terminated_length": 293.0,
      "epoch": 0.17152858809801633,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.02392402058467269,
      "learning_rate": 7.3536e-06,
      "loss": 0.0666,
      "num_tokens": 74692962.0,
      "reward": 2.882366895675659,
      "reward_std": 0.08499280363321304,
      "rewards/reward_fn/mean": 2.882366895675659,
      "rewards/reward_fn/std": 0.08499278873205185,
      "step": 1617
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 610.0,
      "completions/max_terminated_length": 610.0,
      "completions/mean_length": 185.90625,
      "completions/mean_terminated_length": 185.90625,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.17163466638379124,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.027309770928695798,
      "learning_rate": 7.3532e-06,
      "loss": 0.0287,
      "num_tokens": 74744191.0,
      "reward": 3.217087507247925,
      "reward_std": 0.46121397614479065,
      "rewards/reward_fn/mean": 3.217087507247925,
      "rewards/reward_fn/std": 0.46121400594711304,
      "step": 1618
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 593.0,
      "completions/max_terminated_length": 593.0,
      "completions/mean_length": 328.09375,
      "completions/mean_terminated_length": 328.09375,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.17174074466956615,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.02444523060694337,
      "learning_rate": 7.3528e-06,
      "loss": 0.0277,
      "num_tokens": 74776962.0,
      "reward": 3.580929756164551,
      "reward_std": 0.706642210483551,
      "rewards/reward_fn/mean": 3.580929756164551,
      "rewards/reward_fn/std": 0.7066422700881958,
      "step": 1619
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.0,
      "completions/max_terminated_length": 353.0,
      "completions/mean_length": 232.71875,
      "completions/mean_terminated_length": 232.71875,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.17184682295534104,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.02058199269231409,
      "learning_rate": 7.3524e-06,
      "loss": 0.0334,
      "num_tokens": 74814873.0,
      "reward": 2.8619747161865234,
      "reward_std": 0.30958980321884155,
      "rewards/reward_fn/mean": 2.8619747161865234,
      "rewards/reward_fn/std": 0.30958983302116394,
      "step": 1620
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1276.0,
      "completions/max_terminated_length": 1276.0,
      "completions/mean_length": 184.8125,
      "completions/mean_terminated_length": 184.8125,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.17195290124111595,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.640625,
      "kl": 0.03645259817130864,
      "learning_rate": 7.352e-06,
      "loss": -0.0075,
      "num_tokens": 74851827.0,
      "reward": 3.96586012840271,
      "reward_std": 0.19312410056591034,
      "rewards/reward_fn/mean": 3.96586012840271,
      "rewards/reward_fn/std": 0.19312405586242676,
      "step": 1621
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 598.0,
      "completions/max_terminated_length": 598.0,
      "completions/mean_length": 295.625,
      "completions/mean_terminated_length": 295.625,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.17205897952689084,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.03457627212628722,
      "learning_rate": 7.3516e-06,
      "loss": 0.03,
      "num_tokens": 74890727.0,
      "reward": 2.7471697330474854,
      "reward_std": 0.29337078332901,
      "rewards/reward_fn/mean": 2.7471697330474854,
      "rewards/reward_fn/std": 0.2933708131313324,
      "step": 1622
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1086.0,
      "completions/max_terminated_length": 1086.0,
      "completions/mean_length": 182.4375,
      "completions/mean_terminated_length": 182.4375,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.17216505781266575,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.59375,
      "kl": 0.025542156072333455,
      "learning_rate": 7.3512e-06,
      "loss": 0.1191,
      "num_tokens": 74926453.0,
      "reward": 3.7256574630737305,
      "reward_std": 0.7376229763031006,
      "rewards/reward_fn/mean": 3.7256574630737305,
      "rewards/reward_fn/std": 0.7376229763031006,
      "step": 1623
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1104.0,
      "completions/max_terminated_length": 1104.0,
      "completions/mean_length": 266.59375,
      "completions/mean_terminated_length": 266.59375,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.17227113609844064,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.01520739821717143,
      "learning_rate": 7.350799999999999e-06,
      "loss": 0.0953,
      "num_tokens": 74982056.0,
      "reward": 2.95540714263916,
      "reward_std": 0.2933211028575897,
      "rewards/reward_fn/mean": 2.95540714263916,
      "rewards/reward_fn/std": 0.29332107305526733,
      "step": 1624
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 361.0,
      "completions/max_terminated_length": 361.0,
      "completions/mean_length": 254.5,
      "completions/mean_terminated_length": 254.5,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.17237721438421555,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.030610437272116542,
      "learning_rate": 7.350399999999999e-06,
      "loss": -0.0358,
      "num_tokens": 75024792.0,
      "reward": 1.808734655380249,
      "reward_std": 0.40144309401512146,
      "rewards/reward_fn/mean": 1.808734655380249,
      "rewards/reward_fn/std": 0.4014430642127991,
      "step": 1625
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 657.0,
      "completions/max_terminated_length": 657.0,
      "completions/mean_length": 326.96875,
      "completions/mean_terminated_length": 326.96875,
      "completions/min_length": 206.0,
      "completions/min_terminated_length": 206.0,
      "epoch": 0.17248329266999046,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.02779210708104074,
      "learning_rate": 7.349999999999999e-06,
      "loss": 0.1173,
      "num_tokens": 75070423.0,
      "reward": 3.8114876747131348,
      "reward_std": 0.44545185565948486,
      "rewards/reward_fn/mean": 3.8114876747131348,
      "rewards/reward_fn/std": 0.4454518258571625,
      "step": 1626
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1139.0,
      "completions/max_terminated_length": 1139.0,
      "completions/mean_length": 374.28125,
      "completions/mean_terminated_length": 374.28125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.17258937095576535,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.023398922523483634,
      "learning_rate": 7.349599999999999e-06,
      "loss": 0.0652,
      "num_tokens": 75116768.0,
      "reward": 2.8657479286193848,
      "reward_std": 0.4419115483760834,
      "rewards/reward_fn/mean": 2.8657479286193848,
      "rewards/reward_fn/std": 0.441911518573761,
      "step": 1627
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1205.0,
      "completions/max_terminated_length": 1205.0,
      "completions/mean_length": 396.71875,
      "completions/mean_terminated_length": 396.71875,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.17269544924154026,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.01942450739443302,
      "learning_rate": 7.349199999999999e-06,
      "loss": 0.0472,
      "num_tokens": 75178231.0,
      "reward": 3.8060476779937744,
      "reward_std": 0.5507187247276306,
      "rewards/reward_fn/mean": 3.8060476779937744,
      "rewards/reward_fn/std": 0.5507186651229858,
      "step": 1628
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 621.0,
      "completions/max_terminated_length": 621.0,
      "completions/mean_length": 199.40625,
      "completions/mean_terminated_length": 199.40625,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.17280152752731515,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.78125,
      "kl": 0.02440522238612175,
      "learning_rate": 7.3488e-06,
      "loss": 0.1618,
      "num_tokens": 75226660.0,
      "reward": 3.931492328643799,
      "reward_std": 0.22422750294208527,
      "rewards/reward_fn/mean": 3.931492328643799,
      "rewards/reward_fn/std": 0.22422751784324646,
      "step": 1629
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1092.0,
      "completions/max_terminated_length": 1092.0,
      "completions/mean_length": 252.53125,
      "completions/mean_terminated_length": 252.53125,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.17290760581309006,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.02909305295906961,
      "learning_rate": 7.3484e-06,
      "loss": -0.2047,
      "num_tokens": 75274133.0,
      "reward": 3.0297999382019043,
      "reward_std": 0.32074329257011414,
      "rewards/reward_fn/mean": 3.0297999382019043,
      "rewards/reward_fn/std": 0.3207433819770813,
      "step": 1630
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1720.0,
      "completions/max_terminated_length": 1720.0,
      "completions/mean_length": 567.96875,
      "completions/mean_terminated_length": 567.96875,
      "completions/min_length": 344.0,
      "completions/min_terminated_length": 344.0,
      "epoch": 0.17301368409886497,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.022551232716068625,
      "learning_rate": 7.348e-06,
      "loss": 0.118,
      "num_tokens": 75332532.0,
      "reward": 2.790672779083252,
      "reward_std": 0.6563798785209656,
      "rewards/reward_fn/mean": 2.790672779083252,
      "rewards/reward_fn/std": 0.6563798785209656,
      "step": 1631
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 291.0,
      "completions/max_terminated_length": 291.0,
      "completions/mean_length": 79.46875,
      "completions/mean_terminated_length": 79.46875,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.17311976238463986,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1328125,
      "kl": 0.01943877385929227,
      "learning_rate": 7.3476e-06,
      "loss": 0.0008,
      "num_tokens": 75374595.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1632
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 375.0,
      "completions/max_terminated_length": 375.0,
      "completions/mean_length": 257.625,
      "completions/mean_terminated_length": 257.625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.17322584067041477,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.022583408746868372,
      "learning_rate": 7.3472e-06,
      "loss": 0.0228,
      "num_tokens": 75411671.0,
      "reward": 2.8476908206939697,
      "reward_std": 0.033805277198553085,
      "rewards/reward_fn/mean": 2.8476908206939697,
      "rewards/reward_fn/std": 0.033805254846811295,
      "step": 1633
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 816.0,
      "completions/max_terminated_length": 816.0,
      "completions/mean_length": 269.0625,
      "completions/mean_terminated_length": 269.0625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.17333191895618966,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.018412835197523236,
      "learning_rate": 7.3468e-06,
      "loss": 0.0389,
      "num_tokens": 75462937.0,
      "reward": 2.860079288482666,
      "reward_std": 0.06922987848520279,
      "rewards/reward_fn/mean": 2.860079288482666,
      "rewards/reward_fn/std": 0.06922990828752518,
      "step": 1634
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 197.0,
      "completions/max_terminated_length": 197.0,
      "completions/mean_length": 121.65625,
      "completions/mean_terminated_length": 121.65625,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.17343799724196457,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1552734375,
      "kl": 0.03100604098290205,
      "learning_rate": 7.3464e-06,
      "loss": 0.0012,
      "num_tokens": 75501678.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1635
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 550.0,
      "completions/max_terminated_length": 550.0,
      "completions/mean_length": 123.15625,
      "completions/mean_terminated_length": 123.15625,
      "completions/min_length": 49.0,
      "completions/min_terminated_length": 49.0,
      "epoch": 0.17354407552773948,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.02859083702787757,
      "learning_rate": 7.346e-06,
      "loss": 0.0011,
      "num_tokens": 75537587.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1636
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 413.0,
      "completions/max_terminated_length": 413.0,
      "completions/mean_length": 249.875,
      "completions/mean_terminated_length": 249.875,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.17365015381351437,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.02171206660568714,
      "learning_rate": 7.3456e-06,
      "loss": -0.0201,
      "num_tokens": 75581391.0,
      "reward": 3.929537057876587,
      "reward_std": 0.3985986113548279,
      "rewards/reward_fn/mean": 3.929537057876587,
      "rewards/reward_fn/std": 0.39859864115715027,
      "step": 1637
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 930.0,
      "completions/max_terminated_length": 930.0,
      "completions/mean_length": 135.90625,
      "completions/mean_terminated_length": 135.90625,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.17375623209928928,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12890625,
      "kl": 0.027793261338956654,
      "learning_rate": 7.3451999999999996e-06,
      "loss": 0.0011,
      "num_tokens": 75616940.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1638
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 390.0,
      "completions/max_terminated_length": 390.0,
      "completions/mean_length": 273.09375,
      "completions/mean_terminated_length": 273.09375,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.17386231038506417,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.022352764382958412,
      "learning_rate": 7.3447999999999995e-06,
      "loss": 0.0293,
      "num_tokens": 75670383.0,
      "reward": 3.888477325439453,
      "reward_std": 0.352896511554718,
      "rewards/reward_fn/mean": 3.888477325439453,
      "rewards/reward_fn/std": 0.352896511554718,
      "step": 1639
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 938.0,
      "completions/max_terminated_length": 938.0,
      "completions/mean_length": 292.21875,
      "completions/mean_terminated_length": 292.21875,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.17396838867083908,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.014141359482891858,
      "learning_rate": 7.3443999999999995e-06,
      "loss": 0.0457,
      "num_tokens": 75719382.0,
      "reward": 3.928811550140381,
      "reward_std": 0.4027021825313568,
      "rewards/reward_fn/mean": 3.928811550140381,
      "rewards/reward_fn/std": 0.4027021825313568,
      "step": 1640
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 531.0,
      "completions/mean_length": 367.40625,
      "completions/mean_terminated_length": 313.19354248046875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.174074466956614,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.0231416008900851,
      "learning_rate": 7.344e-06,
      "loss": 0.1287,
      "num_tokens": 75788419.0,
      "reward": 3.5149707794189453,
      "reward_std": 1.023628830909729,
      "rewards/reward_fn/mean": 3.5149707794189453,
      "rewards/reward_fn/std": 1.023628830909729,
      "step": 1641
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1553.0,
      "completions/max_terminated_length": 1553.0,
      "completions/mean_length": 384.71875,
      "completions/mean_terminated_length": 384.71875,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.17418054524238888,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3046875,
      "kl": 0.02502290392294526,
      "learning_rate": 7.3436e-06,
      "loss": 0.0406,
      "num_tokens": 75839354.0,
      "reward": 2.790564775466919,
      "reward_std": 0.03924685716629028,
      "rewards/reward_fn/mean": 2.790564775466919,
      "rewards/reward_fn/std": 0.0392468199133873,
      "step": 1642
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 726.0,
      "completions/max_terminated_length": 726.0,
      "completions/mean_length": 202.78125,
      "completions/mean_terminated_length": 202.78125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.1742866235281638,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.020574510097503662,
      "learning_rate": 7.3432e-06,
      "loss": 0.0457,
      "num_tokens": 75881331.0,
      "reward": 1.727787971496582,
      "reward_std": 0.03321034833788872,
      "rewards/reward_fn/mean": 1.727787971496582,
      "rewards/reward_fn/std": 0.033210329711437225,
      "step": 1643
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1837.0,
      "completions/max_terminated_length": 1837.0,
      "completions/mean_length": 405.25,
      "completions/mean_terminated_length": 405.25,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.17439270181393868,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.022814936703070998,
      "learning_rate": 7.3428e-06,
      "loss": 0.029,
      "num_tokens": 75926363.0,
      "reward": 3.639138698577881,
      "reward_std": 0.545224666595459,
      "rewards/reward_fn/mean": 3.639138698577881,
      "rewards/reward_fn/std": 0.545224666595459,
      "step": 1644
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 668.0,
      "completions/max_terminated_length": 668.0,
      "completions/mean_length": 204.9375,
      "completions/mean_terminated_length": 204.9375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.1744987800997136,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08837890625,
      "kl": 0.01477151014842093,
      "learning_rate": 7.342399999999999e-06,
      "loss": 0.0006,
      "num_tokens": 75985561.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1645
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.0,
      "completions/max_terminated_length": 486.0,
      "completions/mean_length": 140.0625,
      "completions/mean_terminated_length": 140.0625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.1746048583854885,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11474609375,
      "kl": 0.02253897808259353,
      "learning_rate": 7.341999999999999e-06,
      "loss": 0.0009,
      "num_tokens": 76027675.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1646
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 839.0,
      "completions/max_terminated_length": 839.0,
      "completions/mean_length": 214.6875,
      "completions/mean_terminated_length": 214.6875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.1747109366712634,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09130859375,
      "kl": 0.021346024004742503,
      "learning_rate": 7.341599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 76071761.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1647
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 261.0,
      "completions/max_terminated_length": 261.0,
      "completions/mean_length": 214.15625,
      "completions/mean_terminated_length": 214.15625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1748170149570383,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.076171875,
      "kl": 0.013097033952362835,
      "learning_rate": 7.341199999999999e-06,
      "loss": 0.0005,
      "num_tokens": 76115766.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1648
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1412.0,
      "completions/max_terminated_length": 1412.0,
      "completions/mean_length": 461.875,
      "completions/mean_terminated_length": 461.875,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.1749230932428132,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08740234375,
      "kl": 0.022934141103178263,
      "learning_rate": 7.340799999999999e-06,
      "loss": 0.0009,
      "num_tokens": 76163602.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1649
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 529.0,
      "completions/max_terminated_length": 529.0,
      "completions/mean_length": 137.71875,
      "completions/mean_terminated_length": 137.71875,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.1750291715285881,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.90625,
      "kl": 0.026293474482372403,
      "learning_rate": 7.340399999999999e-06,
      "loss": -0.0782,
      "num_tokens": 76195721.0,
      "reward": 2.860340118408203,
      "reward_std": 0.05363810062408447,
      "rewards/reward_fn/mean": 2.860340118408203,
      "rewards/reward_fn/std": 0.05363810807466507,
      "step": 1650
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 987.0,
      "completions/max_terminated_length": 987.0,
      "completions/mean_length": 301.78125,
      "completions/mean_terminated_length": 301.78125,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.175135249814363,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.025250343373045325,
      "learning_rate": 7.339999999999999e-06,
      "loss": -0.0705,
      "num_tokens": 76238914.0,
      "reward": 3.3528342247009277,
      "reward_std": 0.5812612771987915,
      "rewards/reward_fn/mean": 3.3528342247009277,
      "rewards/reward_fn/std": 0.5812612175941467,
      "step": 1651
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 690.0,
      "completions/max_terminated_length": 690.0,
      "completions/mean_length": 188.625,
      "completions/mean_terminated_length": 188.625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.1752413281001379,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09228515625,
      "kl": 0.02199221565388143,
      "learning_rate": 7.339599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 76281878.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1652
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 701.0,
      "completions/max_terminated_length": 701.0,
      "completions/mean_length": 261.1875,
      "completions/mean_terminated_length": 261.1875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.1753474063859128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.025439413264393806,
      "learning_rate": 7.3392e-06,
      "loss": 0.0509,
      "num_tokens": 76320860.0,
      "reward": 2.9493305683135986,
      "reward_std": 0.046215642243623734,
      "rewards/reward_fn/mean": 2.9493305683135986,
      "rewards/reward_fn/std": 0.04621569812297821,
      "step": 1653
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1948.0,
      "completions/max_terminated_length": 1948.0,
      "completions/mean_length": 450.1875,
      "completions/mean_terminated_length": 450.1875,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.1754534846716877,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.421875,
      "kl": 0.021173911402001977,
      "learning_rate": 7.3388e-06,
      "loss": 0.0012,
      "num_tokens": 76376802.0,
      "reward": 3.892618417739868,
      "reward_std": 0.3393568694591522,
      "rewards/reward_fn/mean": 3.892618417739868,
      "rewards/reward_fn/std": 0.3393568992614746,
      "step": 1654
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 173.0,
      "completions/max_terminated_length": 173.0,
      "completions/mean_length": 113.84375,
      "completions/mean_terminated_length": 113.84375,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.1755595629574626,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1845703125,
      "kl": 0.030263771768659353,
      "learning_rate": 7.3384e-06,
      "loss": 0.0012,
      "num_tokens": 76405821.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1655
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 502.0,
      "completions/max_terminated_length": 502.0,
      "completions/mean_length": 270.375,
      "completions/mean_terminated_length": 270.375,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.1756656412432375,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02956866892054677,
      "learning_rate": 7.338e-06,
      "loss": -0.0694,
      "num_tokens": 76456809.0,
      "reward": 2.06693172454834,
      "reward_std": 0.4959835708141327,
      "rewards/reward_fn/mean": 2.06693172454834,
      "rewards/reward_fn/std": 0.4959836006164551,
      "step": 1656
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1366.0,
      "completions/max_terminated_length": 1366.0,
      "completions/mean_length": 388.28125,
      "completions/mean_terminated_length": 388.28125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.1757717195290124,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.02950794971548021,
      "learning_rate": 7.3376e-06,
      "loss": -0.0245,
      "num_tokens": 76494290.0,
      "reward": 3.5781798362731934,
      "reward_std": 0.5563759207725525,
      "rewards/reward_fn/mean": 3.5781798362731934,
      "rewards/reward_fn/std": 0.5563759207725525,
      "step": 1657
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 241.0,
      "completions/max_terminated_length": 241.0,
      "completions/mean_length": 188.28125,
      "completions/mean_terminated_length": 188.28125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.17587779781478732,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09228515625,
      "kl": 0.01824926841072738,
      "learning_rate": 7.3372e-06,
      "loss": 0.0007,
      "num_tokens": 76539323.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1658
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 390.0,
      "completions/max_terminated_length": 390.0,
      "completions/mean_length": 235.96875,
      "completions/mean_terminated_length": 235.96875,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.1759838761005622,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7265625,
      "kl": 0.025267949560657144,
      "learning_rate": 7.3368e-06,
      "loss": 0.0003,
      "num_tokens": 76581434.0,
      "reward": 3.967522382736206,
      "reward_std": 0.18372122943401337,
      "rewards/reward_fn/mean": 3.967522382736206,
      "rewards/reward_fn/std": 0.18372122943401337,
      "step": 1659
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 813.0,
      "completions/max_terminated_length": 813.0,
      "completions/mean_length": 199.46875,
      "completions/mean_terminated_length": 199.46875,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.17608995438633712,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.02116774907335639,
      "learning_rate": 7.3364e-06,
      "loss": 0.1391,
      "num_tokens": 76600041.0,
      "reward": 2.821526288986206,
      "reward_std": 0.06851638108491898,
      "rewards/reward_fn/mean": 2.821526288986206,
      "rewards/reward_fn/std": 0.06851641088724136,
      "step": 1660
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 445.0,
      "completions/max_terminated_length": 445.0,
      "completions/mean_length": 342.59375,
      "completions/mean_terminated_length": 342.59375,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.176196032672112,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.02219717751722783,
      "learning_rate": 7.336e-06,
      "loss": -0.0077,
      "num_tokens": 76649180.0,
      "reward": 3.674363613128662,
      "reward_std": 0.4910111427307129,
      "rewards/reward_fn/mean": 3.674363613128662,
      "rewards/reward_fn/std": 0.4910111427307129,
      "step": 1661
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1291.0,
      "completions/max_terminated_length": 1291.0,
      "completions/mean_length": 370.125,
      "completions/mean_terminated_length": 370.125,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.17630211095788692,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.023815440014004707,
      "learning_rate": 7.3356e-06,
      "loss": 0.004,
      "num_tokens": 76700128.0,
      "reward": 2.9858880043029785,
      "reward_std": 0.08336754143238068,
      "rewards/reward_fn/mean": 2.9858880043029785,
      "rewards/reward_fn/std": 0.08336751163005829,
      "step": 1662
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1206.0,
      "completions/max_terminated_length": 1206.0,
      "completions/mean_length": 459.6875,
      "completions/mean_terminated_length": 459.6875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.17640818924366183,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.01935293711721897,
      "learning_rate": 7.3352e-06,
      "loss": -0.2065,
      "num_tokens": 76758582.0,
      "reward": 3.0257115364074707,
      "reward_std": 0.9167580604553223,
      "rewards/reward_fn/mean": 3.0257115364074707,
      "rewards/reward_fn/std": 0.9167580008506775,
      "step": 1663
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 808.0,
      "completions/max_terminated_length": 808.0,
      "completions/mean_length": 320.25,
      "completions/mean_terminated_length": 320.25,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.17651426752943672,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07177734375,
      "kl": 0.02033980656415224,
      "learning_rate": 7.3348000000000005e-06,
      "loss": 0.0008,
      "num_tokens": 76798270.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1664
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 496.09375,
      "completions/mean_terminated_length": 496.09375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.17662034581521163,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.020821964601054788,
      "learning_rate": 7.3344e-06,
      "loss": 0.0254,
      "num_tokens": 76859617.0,
      "reward": 3.4188601970672607,
      "reward_std": 0.522709846496582,
      "rewards/reward_fn/mean": 3.4188601970672607,
      "rewards/reward_fn/std": 0.5227097868919373,
      "step": 1665
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 345.0,
      "completions/max_terminated_length": 345.0,
      "completions/mean_length": 212.25,
      "completions/mean_terminated_length": 212.25,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.17672642410098652,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.027814438799396157,
      "learning_rate": 7.334e-06,
      "loss": 0.0636,
      "num_tokens": 76905065.0,
      "reward": 2.8302299976348877,
      "reward_std": 0.05470141023397446,
      "rewards/reward_fn/mean": 2.8302299976348877,
      "rewards/reward_fn/std": 0.054701436311006546,
      "step": 1666
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1034.0,
      "completions/max_terminated_length": 1034.0,
      "completions/mean_length": 355.4375,
      "completions/mean_terminated_length": 355.4375,
      "completions/min_length": 246.0,
      "completions/min_terminated_length": 246.0,
      "epoch": 0.17683250238676143,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.023907755268737674,
      "learning_rate": 7.3335999999999995e-06,
      "loss": 0.0154,
      "num_tokens": 76972471.0,
      "reward": 3.9634013175964355,
      "reward_std": 0.20703355967998505,
      "rewards/reward_fn/mean": 3.9634013175964355,
      "rewards/reward_fn/std": 0.20703357458114624,
      "step": 1667
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 684.0,
      "completions/max_terminated_length": 684.0,
      "completions/mean_length": 216.09375,
      "completions/mean_terminated_length": 216.09375,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.17693858067253634,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.03942023706622422,
      "learning_rate": 7.3331999999999995e-06,
      "loss": 0.0491,
      "num_tokens": 77002138.0,
      "reward": 3.0410289764404297,
      "reward_std": 0.03184741735458374,
      "rewards/reward_fn/mean": 3.0410289764404297,
      "rewards/reward_fn/std": 0.03184738755226135,
      "step": 1668
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1047.0,
      "completions/max_terminated_length": 1047.0,
      "completions/mean_length": 390.9375,
      "completions/mean_terminated_length": 390.9375,
      "completions/min_length": 257.0,
      "completions/min_terminated_length": 257.0,
      "epoch": 0.17704465895831123,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.023845213698223233,
      "learning_rate": 7.3327999999999995e-06,
      "loss": 0.0154,
      "num_tokens": 77068280.0,
      "reward": 3.8936331272125244,
      "reward_std": 0.4476320743560791,
      "rewards/reward_fn/mean": 3.8936331272125244,
      "rewards/reward_fn/std": 0.4476320147514343,
      "step": 1669
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 496.0,
      "completions/mean_length": 432.8125,
      "completions/mean_terminated_length": 380.70965576171875,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.17715073724408614,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.67578125,
      "kl": 0.019716886803507805,
      "learning_rate": 7.3323999999999995e-06,
      "loss": 0.2615,
      "num_tokens": 77121362.0,
      "reward": 2.792949676513672,
      "reward_std": 0.5104948282241821,
      "rewards/reward_fn/mean": 2.792949676513672,
      "rewards/reward_fn/std": 0.5104948878288269,
      "step": 1670
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 399.0,
      "completions/max_terminated_length": 399.0,
      "completions/mean_length": 154.0625,
      "completions/mean_terminated_length": 154.0625,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.17725681552986103,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1474609375,
      "kl": 0.022587708896026015,
      "learning_rate": 7.3319999999999994e-06,
      "loss": 0.0009,
      "num_tokens": 77158388.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1671
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 290.0,
      "completions/max_terminated_length": 290.0,
      "completions/mean_length": 195.28125,
      "completions/mean_terminated_length": 195.28125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.17736289381563594,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.023013029946014285,
      "learning_rate": 7.331599999999999e-06,
      "loss": -0.0029,
      "num_tokens": 77195357.0,
      "reward": 2.860653877258301,
      "reward_std": 0.23699697852134705,
      "rewards/reward_fn/mean": 2.860653877258301,
      "rewards/reward_fn/std": 0.23699693381786346,
      "step": 1672
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 272.0,
      "completions/max_terminated_length": 272.0,
      "completions/mean_length": 163.375,
      "completions/mean_terminated_length": 163.375,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.17746897210141085,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10400390625,
      "kl": 0.021371350390836596,
      "learning_rate": 7.331199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 77235081.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1673
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 545.0,
      "completions/max_terminated_length": 545.0,
      "completions/mean_length": 304.4375,
      "completions/mean_terminated_length": 304.4375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.17757505038718574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.023021605564281344,
      "learning_rate": 7.330799999999999e-06,
      "loss": 0.043,
      "num_tokens": 77280023.0,
      "reward": 2.8056857585906982,
      "reward_std": 0.30699968338012695,
      "rewards/reward_fn/mean": 2.8056857585906982,
      "rewards/reward_fn/std": 0.30699968338012695,
      "step": 1674
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1218.0,
      "completions/mean_length": 732.71875,
      "completions/mean_terminated_length": 690.290283203125,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "epoch": 0.17768112867296065,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.019517116714268923,
      "learning_rate": 7.330399999999999e-06,
      "loss": 0.1688,
      "num_tokens": 77344622.0,
      "reward": 2.619640588760376,
      "reward_std": 0.5425283312797546,
      "rewards/reward_fn/mean": 2.619640588760376,
      "rewards/reward_fn/std": 0.5425283312797546,
      "step": 1675
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 672.0,
      "completions/max_terminated_length": 672.0,
      "completions/mean_length": 181.34375,
      "completions/mean_terminated_length": 181.34375,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.17778720695873554,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11376953125,
      "kl": 0.024739502929151058,
      "learning_rate": 7.33e-06,
      "loss": 0.001,
      "num_tokens": 77377721.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1676
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 152.0,
      "completions/max_terminated_length": 152.0,
      "completions/mean_length": 100.5,
      "completions/mean_terminated_length": 100.5,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.17789328524451045,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.142578125,
      "kl": 0.026414725929498672,
      "learning_rate": 7.3296e-06,
      "loss": 0.0011,
      "num_tokens": 77404681.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1677
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1167.0,
      "completions/max_terminated_length": 1167.0,
      "completions/mean_length": 275.75,
      "completions/mean_terminated_length": 275.75,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.17799936353028534,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11083984375,
      "kl": 0.02964741620235145,
      "learning_rate": 7.3292e-06,
      "loss": 0.0012,
      "num_tokens": 77443233.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1678
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 978.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 253.375,
      "completions/mean_terminated_length": 253.375,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.17810544181606025,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.02185642090626061,
      "learning_rate": 7.3288e-06,
      "loss": 0.0958,
      "num_tokens": 77487885.0,
      "reward": 3.9379520416259766,
      "reward_std": 0.2442624717950821,
      "rewards/reward_fn/mean": 3.9379520416259766,
      "rewards/reward_fn/std": 0.2442624568939209,
      "step": 1679
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1404.0,
      "completions/max_terminated_length": 1404.0,
      "completions/mean_length": 439.84375,
      "completions/mean_terminated_length": 439.84375,
      "completions/min_length": 286.0,
      "completions/min_terminated_length": 286.0,
      "epoch": 0.17821152010183516,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4609375,
      "kl": 0.022376101464033127,
      "learning_rate": 7.3284e-06,
      "loss": -0.1057,
      "num_tokens": 77546440.0,
      "reward": 2.7930126190185547,
      "reward_std": 0.36263859272003174,
      "rewards/reward_fn/mean": 2.7930126190185547,
      "rewards/reward_fn/std": 0.36263859272003174,
      "step": 1680
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1977.0,
      "completions/max_terminated_length": 1977.0,
      "completions/mean_length": 513.40625,
      "completions/mean_terminated_length": 513.40625,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.17831759838761005,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2265625,
      "kl": 0.03152905683964491,
      "learning_rate": 7.328e-06,
      "loss": -0.087,
      "num_tokens": 77591349.0,
      "reward": 2.629180431365967,
      "reward_std": 0.29072603583335876,
      "rewards/reward_fn/mean": 2.629180431365967,
      "rewards/reward_fn/std": 0.29072603583335876,
      "step": 1681
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1536.0,
      "completions/max_terminated_length": 1536.0,
      "completions/mean_length": 461.46875,
      "completions/mean_terminated_length": 461.46875,
      "completions/min_length": 279.0,
      "completions/min_terminated_length": 279.0,
      "epoch": 0.17842367667338496,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.02138684457167983,
      "learning_rate": 7.3276e-06,
      "loss": 0.1139,
      "num_tokens": 77646148.0,
      "reward": 3.8168039321899414,
      "reward_std": 0.5191534161567688,
      "rewards/reward_fn/mean": 3.8168039321899414,
      "rewards/reward_fn/std": 0.5191534161567688,
      "step": 1682
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 799.0,
      "completions/max_terminated_length": 799.0,
      "completions/mean_length": 226.09375,
      "completions/mean_terminated_length": 226.09375,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.17852975495915985,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.390625,
      "kl": 0.025132108945399523,
      "learning_rate": 7.3272e-06,
      "loss": 0.0778,
      "num_tokens": 77708775.0,
      "reward": 2.9388680458068848,
      "reward_std": 0.24276258051395416,
      "rewards/reward_fn/mean": 2.9388680458068848,
      "rewards/reward_fn/std": 0.2427625209093094,
      "step": 1683
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 986.0,
      "completions/max_terminated_length": 986.0,
      "completions/mean_length": 357.28125,
      "completions/mean_terminated_length": 357.28125,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.17863583324493476,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07275390625,
      "kl": 0.018456691992469132,
      "learning_rate": 7.3268e-06,
      "loss": 0.0007,
      "num_tokens": 77758864.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1684
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 90.0,
      "completions/max_terminated_length": 90.0,
      "completions/mean_length": 75.53125,
      "completions/mean_terminated_length": 75.53125,
      "completions/min_length": 64.0,
      "completions/min_terminated_length": 64.0,
      "epoch": 0.17874191153070967,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1083984375,
      "kl": 0.010399193910416216,
      "learning_rate": 7.326399999999999e-06,
      "loss": 0.0004,
      "num_tokens": 77786081.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1685
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 170.0,
      "completions/max_terminated_length": 170.0,
      "completions/mean_length": 126.03125,
      "completions/mean_terminated_length": 126.03125,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.17884798981648456,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.115234375,
      "kl": 0.0217991154640913,
      "learning_rate": 7.325999999999999e-06,
      "loss": 0.0009,
      "num_tokens": 77822306.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1686
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1886.0,
      "completions/max_terminated_length": 1886.0,
      "completions/mean_length": 581.40625,
      "completions/mean_terminated_length": 581.40625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.17895406810225947,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.025571937672793865,
      "learning_rate": 7.325599999999999e-06,
      "loss": -0.0045,
      "num_tokens": 77876303.0,
      "reward": 2.0563902854919434,
      "reward_std": 0.5362445712089539,
      "rewards/reward_fn/mean": 2.0563902854919434,
      "rewards/reward_fn/std": 0.5362445712089539,
      "step": 1687
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 736.0,
      "completions/max_terminated_length": 736.0,
      "completions/mean_length": 267.875,
      "completions/mean_terminated_length": 267.875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.17906014638803436,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.027823872631415725,
      "learning_rate": 7.3252e-06,
      "loss": 0.0438,
      "num_tokens": 77919531.0,
      "reward": 3.966395854949951,
      "reward_std": 0.19009362161159515,
      "rewards/reward_fn/mean": 3.966395854949951,
      "rewards/reward_fn/std": 0.19009362161159515,
      "step": 1688
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 905.0,
      "completions/max_terminated_length": 905.0,
      "completions/mean_length": 307.46875,
      "completions/mean_terminated_length": 307.46875,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.17916622467380927,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.02866238821297884,
      "learning_rate": 7.3248e-06,
      "loss": -0.063,
      "num_tokens": 77975002.0,
      "reward": 3.857930898666382,
      "reward_std": 0.559036374092102,
      "rewards/reward_fn/mean": 3.857930898666382,
      "rewards/reward_fn/std": 0.5590363144874573,
      "step": 1689
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 841.0,
      "completions/max_terminated_length": 841.0,
      "completions/mean_length": 193.375,
      "completions/mean_terminated_length": 193.375,
      "completions/min_length": 114.0,
      "completions/min_terminated_length": 114.0,
      "epoch": 0.17927230295958418,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10205078125,
      "kl": 0.02129594807047397,
      "learning_rate": 7.3244e-06,
      "loss": 0.0009,
      "num_tokens": 78026790.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1690
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 464.0,
      "completions/max_terminated_length": 464.0,
      "completions/mean_length": 240.96875,
      "completions/mean_terminated_length": 240.96875,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.17937838124535907,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.020590995671227574,
      "learning_rate": 7.324e-06,
      "loss": 0.1261,
      "num_tokens": 78058405.0,
      "reward": 2.8747594356536865,
      "reward_std": 0.06020258367061615,
      "rewards/reward_fn/mean": 2.8747594356536865,
      "rewards/reward_fn/std": 0.06020255759358406,
      "step": 1691
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 462.0,
      "completions/max_terminated_length": 462.0,
      "completions/mean_length": 295.15625,
      "completions/mean_terminated_length": 295.15625,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.17948445953113398,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8828125,
      "kl": 0.025204677367582917,
      "learning_rate": 7.3236e-06,
      "loss": 0.0591,
      "num_tokens": 78102698.0,
      "reward": 3.822904348373413,
      "reward_std": 0.41878360509872437,
      "rewards/reward_fn/mean": 3.822904348373413,
      "rewards/reward_fn/std": 0.418783575296402,
      "step": 1692
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 265.0,
      "completions/max_terminated_length": 265.0,
      "completions/mean_length": 159.40625,
      "completions/mean_terminated_length": 159.40625,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.17959053781690887,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.625,
      "kl": 0.03215904091484845,
      "learning_rate": 7.3232e-06,
      "loss": 0.1193,
      "num_tokens": 78143831.0,
      "reward": 2.951641321182251,
      "reward_std": 0.02703152783215046,
      "rewards/reward_fn/mean": 2.951641321182251,
      "rewards/reward_fn/std": 0.02703148126602173,
      "step": 1693
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 810.0,
      "completions/mean_length": 535.96875,
      "completions/mean_terminated_length": 435.16668701171875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.17969661610268378,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.025029084412381053,
      "learning_rate": 7.3228e-06,
      "loss": 0.3638,
      "num_tokens": 78197942.0,
      "reward": 2.569448471069336,
      "reward_std": 0.7918709516525269,
      "rewards/reward_fn/mean": 2.569448471069336,
      "rewards/reward_fn/std": 0.7918709516525269,
      "step": 1694
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1559.0,
      "completions/max_terminated_length": 1559.0,
      "completions/mean_length": 249.1875,
      "completions/mean_terminated_length": 249.1875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.1798026943884587,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.028609147295355797,
      "learning_rate": 7.3223999999999996e-06,
      "loss": 0.2358,
      "num_tokens": 78249308.0,
      "reward": 3.925804615020752,
      "reward_std": 0.2920267581939697,
      "rewards/reward_fn/mean": 3.925804615020752,
      "rewards/reward_fn/std": 0.2920267581939697,
      "step": 1695
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1599.0,
      "completions/max_terminated_length": 1599.0,
      "completions/mean_length": 509.09375,
      "completions/mean_terminated_length": 509.09375,
      "completions/min_length": 307.0,
      "completions/min_terminated_length": 307.0,
      "epoch": 0.17990877267423358,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.01797068677842617,
      "learning_rate": 7.3219999999999995e-06,
      "loss": 0.0474,
      "num_tokens": 78312799.0,
      "reward": 2.6847097873687744,
      "reward_std": 0.18323646485805511,
      "rewards/reward_fn/mean": 2.6847097873687744,
      "rewards/reward_fn/std": 0.18323642015457153,
      "step": 1696
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 448.0,
      "completions/max_terminated_length": 448.0,
      "completions/mean_length": 176.28125,
      "completions/mean_terminated_length": 176.28125,
      "completions/min_length": 85.0,
      "completions/min_terminated_length": 85.0,
      "epoch": 0.1800148509600085,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.026832085801288486,
      "learning_rate": 7.3215999999999995e-06,
      "loss": 0.1148,
      "num_tokens": 78338376.0,
      "reward": 2.6626052856445312,
      "reward_std": 0.06326717883348465,
      "rewards/reward_fn/mean": 2.6626052856445312,
      "rewards/reward_fn/std": 0.06326717138290405,
      "step": 1697
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 948.0,
      "completions/max_terminated_length": 948.0,
      "completions/mean_length": 326.28125,
      "completions/mean_terminated_length": 326.28125,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.18012092924578338,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.023031077347695827,
      "learning_rate": 7.3211999999999995e-06,
      "loss": 0.0221,
      "num_tokens": 78392721.0,
      "reward": 3.9276814460754395,
      "reward_std": 0.40909603238105774,
      "rewards/reward_fn/mean": 3.9276814460754395,
      "rewards/reward_fn/std": 0.40909600257873535,
      "step": 1698
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/max_terminated_length": 329.0,
      "completions/mean_length": 219.40625,
      "completions/mean_terminated_length": 219.40625,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.1802270075315583,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.375,
      "kl": 0.02422755560837686,
      "learning_rate": 7.3208e-06,
      "loss": 0.0462,
      "num_tokens": 78431102.0,
      "reward": 3.896008014678955,
      "reward_std": 0.3290996253490448,
      "rewards/reward_fn/mean": 3.896008014678955,
      "rewards/reward_fn/std": 0.3290995657444,
      "step": 1699
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 475.0,
      "completions/mean_length": 383.46875,
      "completions/mean_terminated_length": 272.5,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.1803330858173332,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.98046875,
      "kl": 0.018242677440866828,
      "learning_rate": 7.3204e-06,
      "loss": 0.3524,
      "num_tokens": 78500333.0,
      "reward": 3.309962511062622,
      "reward_std": 1.0754379034042358,
      "rewards/reward_fn/mean": 3.309962511062622,
      "rewards/reward_fn/std": 1.0754379034042358,
      "step": 1700
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 908.0,
      "completions/max_terminated_length": 908.0,
      "completions/mean_length": 347.96875,
      "completions/mean_terminated_length": 347.96875,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.1804391641031081,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.016349896206520498,
      "learning_rate": 7.32e-06,
      "loss": 0.1304,
      "num_tokens": 78567532.0,
      "reward": 3.853870153427124,
      "reward_std": 0.5750675797462463,
      "rewards/reward_fn/mean": 3.853870153427124,
      "rewards/reward_fn/std": 0.5750675797462463,
      "step": 1701
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 558.0,
      "completions/max_terminated_length": 558.0,
      "completions/mean_length": 168.375,
      "completions/mean_terminated_length": 168.375,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.180545242388883,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09814453125,
      "kl": 0.025941829895600677,
      "learning_rate": 7.3196e-06,
      "loss": 0.001,
      "num_tokens": 78615864.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1702
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 275.125,
      "completions/mean_terminated_length": 275.125,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.1806513206746579,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07421875,
      "kl": 0.02063106745481491,
      "learning_rate": 7.3192e-06,
      "loss": 0.0008,
      "num_tokens": 78639100.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1703
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 634.0,
      "completions/max_terminated_length": 634.0,
      "completions/mean_length": 210.1875,
      "completions/mean_terminated_length": 210.1875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.1807573989604328,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.024305471451953053,
      "learning_rate": 7.3188e-06,
      "loss": 0.0736,
      "num_tokens": 78684962.0,
      "reward": 3.971139907836914,
      "reward_std": 0.16325806081295013,
      "rewards/reward_fn/mean": 3.971139907836914,
      "rewards/reward_fn/std": 0.16325809061527252,
      "step": 1704
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1198.0,
      "completions/max_terminated_length": 1198.0,
      "completions/mean_length": 321.625,
      "completions/mean_terminated_length": 321.625,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.1808634772462077,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.021618828177452087,
      "learning_rate": 7.318399999999999e-06,
      "loss": 0.0133,
      "num_tokens": 78735606.0,
      "reward": 3.964750289916992,
      "reward_std": 0.1994020640850067,
      "rewards/reward_fn/mean": 3.964750289916992,
      "rewards/reward_fn/std": 0.19940204918384552,
      "step": 1705
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 249.0,
      "completions/max_terminated_length": 249.0,
      "completions/mean_length": 194.53125,
      "completions/mean_terminated_length": 194.53125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.1809695555319826,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0908203125,
      "kl": 0.017645681044086814,
      "learning_rate": 7.317999999999999e-06,
      "loss": 0.0007,
      "num_tokens": 78767687.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1706
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 258.0,
      "completions/max_terminated_length": 258.0,
      "completions/mean_length": 162.25,
      "completions/mean_terminated_length": 162.25,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.18107563381775751,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1162109375,
      "kl": 0.021362949744798243,
      "learning_rate": 7.317599999999999e-06,
      "loss": 0.0009,
      "num_tokens": 78815471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1707
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 675.0,
      "completions/max_terminated_length": 675.0,
      "completions/mean_length": 240.90625,
      "completions/mean_terminated_length": 240.90625,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.1811817121035324,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.021373329684138298,
      "learning_rate": 7.317199999999999e-06,
      "loss": -0.0466,
      "num_tokens": 78869164.0,
      "reward": 1.739349365234375,
      "reward_std": 0.4158928692340851,
      "rewards/reward_fn/mean": 1.739349365234375,
      "rewards/reward_fn/std": 0.4158928096294403,
      "step": 1708
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1127.0,
      "completions/max_terminated_length": 1127.0,
      "completions/mean_length": 254.40625,
      "completions/mean_terminated_length": 254.40625,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.1812877903893073,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.022718794643878937,
      "learning_rate": 7.316799999999999e-06,
      "loss": -0.0496,
      "num_tokens": 78913561.0,
      "reward": 3.9045119285583496,
      "reward_std": 0.30215689539909363,
      "rewards/reward_fn/mean": 3.9045119285583496,
      "rewards/reward_fn/std": 0.30215683579444885,
      "step": 1709
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1688.0,
      "completions/mean_length": 786.8125,
      "completions/mean_terminated_length": 746.1290283203125,
      "completions/min_length": 283.0,
      "completions/min_terminated_length": 283.0,
      "epoch": 0.1813938686750822,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.020097526721656322,
      "learning_rate": 7.316399999999999e-06,
      "loss": 0.1906,
      "num_tokens": 78967091.0,
      "reward": 2.3898777961730957,
      "reward_std": 0.6157297492027283,
      "rewards/reward_fn/mean": 2.3898777961730957,
      "rewards/reward_fn/std": 0.6157297492027283,
      "step": 1710
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1443.0,
      "completions/max_terminated_length": 1443.0,
      "completions/mean_length": 439.78125,
      "completions/mean_terminated_length": 439.78125,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.1814999469608571,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.025020675268024206,
      "learning_rate": 7.316e-06,
      "loss": 0.007,
      "num_tokens": 78999244.0,
      "reward": 3.8277320861816406,
      "reward_std": 0.571384847164154,
      "rewards/reward_fn/mean": 3.8277320861816406,
      "rewards/reward_fn/std": 0.571384847164154,
      "step": 1711
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 447.0,
      "completions/max_terminated_length": 447.0,
      "completions/mean_length": 107.59375,
      "completions/mean_terminated_length": 107.59375,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.18160602524663202,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10595703125,
      "kl": 0.014298198861069977,
      "learning_rate": 7.3156e-06,
      "loss": 0.0006,
      "num_tokens": 79037471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1712
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1139.0,
      "completions/max_terminated_length": 1139.0,
      "completions/mean_length": 489.375,
      "completions/mean_terminated_length": 489.375,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.1817121035324069,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.019865088164806366,
      "learning_rate": 7.3152e-06,
      "loss": -0.0399,
      "num_tokens": 79087947.0,
      "reward": 3.5038528442382812,
      "reward_std": 0.6733208298683167,
      "rewards/reward_fn/mean": 3.5038528442382812,
      "rewards/reward_fn/std": 0.6733208298683167,
      "step": 1713
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1621.0,
      "completions/mean_length": 738.0625,
      "completions/mean_terminated_length": 650.7333374023438,
      "completions/min_length": 298.0,
      "completions/min_terminated_length": 298.0,
      "epoch": 0.18181818181818182,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.0224718798417598,
      "learning_rate": 7.3148e-06,
      "loss": 0.1838,
      "num_tokens": 79141901.0,
      "reward": 2.2625229358673096,
      "reward_std": 0.8606188297271729,
      "rewards/reward_fn/mean": 2.2625229358673096,
      "rewards/reward_fn/std": 0.8606187105178833,
      "step": 1714
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 382.0,
      "completions/max_terminated_length": 382.0,
      "completions/mean_length": 270.8125,
      "completions/mean_terminated_length": 270.8125,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.1819242601039567,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1005859375,
      "kl": 0.024445211980491877,
      "learning_rate": 7.3144e-06,
      "loss": 0.001,
      "num_tokens": 79185863.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1715
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1562.0,
      "completions/max_terminated_length": 1562.0,
      "completions/mean_length": 340.28125,
      "completions/mean_terminated_length": 340.28125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.18203033838973162,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.02192999073304236,
      "learning_rate": 7.314e-06,
      "loss": -0.0481,
      "num_tokens": 79243696.0,
      "reward": 3.75516676902771,
      "reward_std": 0.470197856426239,
      "rewards/reward_fn/mean": 3.75516676902771,
      "rewards/reward_fn/std": 0.470197856426239,
      "step": 1716
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 797.0,
      "completions/max_terminated_length": 797.0,
      "completions/mean_length": 412.375,
      "completions/mean_terminated_length": 412.375,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.18213641667550654,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.017105724662542343,
      "learning_rate": 7.3136e-06,
      "loss": 0.0388,
      "num_tokens": 79273980.0,
      "reward": 3.72775936126709,
      "reward_std": 0.4455103576183319,
      "rewards/reward_fn/mean": 3.72775936126709,
      "rewards/reward_fn/std": 0.4455103576183319,
      "step": 1717
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 374.875,
      "completions/mean_terminated_length": 374.875,
      "completions/min_length": 256.0,
      "completions/min_terminated_length": 256.0,
      "epoch": 0.18224249496128142,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.01594231475610286,
      "learning_rate": 7.3132e-06,
      "loss": 0.0312,
      "num_tokens": 79324824.0,
      "reward": 2.8251233100891113,
      "reward_std": 0.0379062183201313,
      "rewards/reward_fn/mean": 2.8251233100891113,
      "rewards/reward_fn/std": 0.03790617734193802,
      "step": 1718
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 811.0,
      "completions/max_terminated_length": 811.0,
      "completions/mean_length": 228.09375,
      "completions/mean_terminated_length": 228.09375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.18234857324705633,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6796875,
      "kl": 0.02496536774560809,
      "learning_rate": 7.3128e-06,
      "loss": 0.0136,
      "num_tokens": 79382683.0,
      "reward": 3.88787579536438,
      "reward_std": 0.4645228385925293,
      "rewards/reward_fn/mean": 3.88787579536438,
      "rewards/reward_fn/std": 0.4645228087902069,
      "step": 1719
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1386.0,
      "completions/max_terminated_length": 1386.0,
      "completions/mean_length": 340.71875,
      "completions/mean_terminated_length": 340.71875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.18245465153283122,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.02118815656285733,
      "learning_rate": 7.3124e-06,
      "loss": 0.0761,
      "num_tokens": 79439858.0,
      "reward": 2.998422622680664,
      "reward_std": 0.06069687008857727,
      "rewards/reward_fn/mean": 2.998422622680664,
      "rewards/reward_fn/std": 0.060696884989738464,
      "step": 1720
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1661.0,
      "completions/max_terminated_length": 1661.0,
      "completions/mean_length": 414.15625,
      "completions/mean_terminated_length": 414.15625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.18256072981860613,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.029617647174745798,
      "learning_rate": 7.312e-06,
      "loss": 0.0364,
      "num_tokens": 79483319.0,
      "reward": 2.8089561462402344,
      "reward_std": 0.05686548724770546,
      "rewards/reward_fn/mean": 2.8089561462402344,
      "rewards/reward_fn/std": 0.05686549097299576,
      "step": 1721
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1007.0,
      "completions/max_terminated_length": 1007.0,
      "completions/mean_length": 184.8125,
      "completions/mean_terminated_length": 184.8125,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.18266680810438105,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5,
      "kl": 0.020757826045155525,
      "learning_rate": 7.3116e-06,
      "loss": -0.0682,
      "num_tokens": 79523601.0,
      "reward": 2.8676366806030273,
      "reward_std": 0.06009431183338165,
      "rewards/reward_fn/mean": 2.8676366806030273,
      "rewards/reward_fn/std": 0.060094304382801056,
      "step": 1722
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 821.0,
      "completions/max_terminated_length": 821.0,
      "completions/mean_length": 275.34375,
      "completions/mean_terminated_length": 275.34375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.18277288639015593,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.02504241978749633,
      "learning_rate": 7.3112e-06,
      "loss": -0.0056,
      "num_tokens": 79566236.0,
      "reward": 2.6496548652648926,
      "reward_std": 0.2010585367679596,
      "rewards/reward_fn/mean": 2.6496548652648926,
      "rewards/reward_fn/std": 0.2010585218667984,
      "step": 1723
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1770.0,
      "completions/max_terminated_length": 1770.0,
      "completions/mean_length": 679.5,
      "completions/mean_terminated_length": 679.5,
      "completions/min_length": 354.0,
      "completions/min_terminated_length": 354.0,
      "epoch": 0.18287896467593084,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.019714355003088713,
      "learning_rate": 7.3108e-06,
      "loss": 0.1588,
      "num_tokens": 79649772.0,
      "reward": 3.8880138397216797,
      "reward_std": 0.4623366594314575,
      "rewards/reward_fn/mean": 3.8880138397216797,
      "rewards/reward_fn/std": 0.4623366594314575,
      "step": 1724
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 583.0,
      "completions/max_terminated_length": 583.0,
      "completions/mean_length": 177.46875,
      "completions/mean_terminated_length": 177.46875,
      "completions/min_length": 84.0,
      "completions/min_terminated_length": 84.0,
      "epoch": 0.18298504296170573,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.019116016919724643,
      "learning_rate": 7.3103999999999995e-06,
      "loss": -0.0512,
      "num_tokens": 79694267.0,
      "reward": 3.8662519454956055,
      "reward_std": 0.5263176560401917,
      "rewards/reward_fn/mean": 3.8662519454956055,
      "rewards/reward_fn/std": 0.5263176560401917,
      "step": 1725
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1104.0,
      "completions/max_terminated_length": 1104.0,
      "completions/mean_length": 382.09375,
      "completions/mean_terminated_length": 382.09375,
      "completions/min_length": 267.0,
      "completions/min_terminated_length": 267.0,
      "epoch": 0.18309112124748064,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.017504334566183388,
      "learning_rate": 7.3099999999999995e-06,
      "loss": 0.0785,
      "num_tokens": 79748798.0,
      "reward": 3.590195655822754,
      "reward_std": 0.575702428817749,
      "rewards/reward_fn/mean": 3.590195655822754,
      "rewards/reward_fn/std": 0.5757024884223938,
      "step": 1726
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 178.0,
      "completions/max_terminated_length": 178.0,
      "completions/mean_length": 129.59375,
      "completions/mean_terminated_length": 129.59375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.18319719953325556,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.068359375,
      "kl": 0.012138587655499578,
      "learning_rate": 7.3095999999999994e-06,
      "loss": 0.0005,
      "num_tokens": 79783569.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1727
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1365.0,
      "completions/max_terminated_length": 1365.0,
      "completions/mean_length": 294.65625,
      "completions/mean_terminated_length": 294.65625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.18330327781903044,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07568359375,
      "kl": 0.021464786026626825,
      "learning_rate": 7.309199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 79829862.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1728
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1002.0,
      "completions/max_terminated_length": 1002.0,
      "completions/mean_length": 289.34375,
      "completions/mean_terminated_length": 289.34375,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.18340935610480535,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9921875,
      "kl": 0.032017044024541974,
      "learning_rate": 7.308799999999999e-06,
      "loss": 0.1641,
      "num_tokens": 79871569.0,
      "reward": 3.642909288406372,
      "reward_std": 0.6748332977294922,
      "rewards/reward_fn/mean": 3.642909288406372,
      "rewards/reward_fn/std": 0.6748332977294922,
      "step": 1729
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.1875,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1716.0,
      "completions/mean_length": 1106.5625,
      "completions/mean_terminated_length": 889.3077392578125,
      "completions/min_length": 318.0,
      "completions/min_terminated_length": 318.0,
      "epoch": 0.18351543439058024,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.01772727456409484,
      "learning_rate": 7.308399999999999e-06,
      "loss": 0.3112,
      "num_tokens": 79935683.0,
      "reward": 2.0223124027252197,
      "reward_std": 1.02803635597229,
      "rewards/reward_fn/mean": 2.0223124027252197,
      "rewards/reward_fn/std": 1.02803635597229,
      "step": 1730
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 226.0,
      "completions/max_terminated_length": 226.0,
      "completions/mean_length": 178.65625,
      "completions/mean_terminated_length": 178.65625,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.18362151267635515,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.021037452504970133,
      "learning_rate": 7.307999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 79976280.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1731
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 691.0,
      "completions/max_terminated_length": 691.0,
      "completions/mean_length": 354.9375,
      "completions/mean_terminated_length": 354.9375,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.18372759096213004,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.030045943101868033,
      "learning_rate": 7.307599999999999e-06,
      "loss": 0.0632,
      "num_tokens": 80034390.0,
      "reward": 3.2148056030273438,
      "reward_std": 0.7227078080177307,
      "rewards/reward_fn/mean": 3.2148056030273438,
      "rewards/reward_fn/std": 0.7227078080177307,
      "step": 1732
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1008.0,
      "completions/max_terminated_length": 1008.0,
      "completions/mean_length": 293.21875,
      "completions/mean_terminated_length": 293.21875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.18383366924790495,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.01632210414391011,
      "learning_rate": 7.307199999999999e-06,
      "loss": 0.0775,
      "num_tokens": 80096061.0,
      "reward": 3.0696334838867188,
      "reward_std": 0.03446883708238602,
      "rewards/reward_fn/mean": 3.0696334838867188,
      "rewards/reward_fn/std": 0.034468866884708405,
      "step": 1733
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 747.0,
      "completions/max_terminated_length": 747.0,
      "completions/mean_length": 285.28125,
      "completions/mean_terminated_length": 285.28125,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.18393974753367986,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.021304041147232056,
      "learning_rate": 7.306799999999999e-06,
      "loss": -0.0633,
      "num_tokens": 80153734.0,
      "reward": 3.1486945152282715,
      "reward_std": 0.6498160362243652,
      "rewards/reward_fn/mean": 3.1486945152282715,
      "rewards/reward_fn/std": 0.6498160362243652,
      "step": 1734
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1056.0,
      "completions/max_terminated_length": 1056.0,
      "completions/mean_length": 246.09375,
      "completions/mean_terminated_length": 246.09375,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.18404582581945475,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6171875,
      "kl": 0.02485991013236344,
      "learning_rate": 7.3064e-06,
      "loss": -0.0315,
      "num_tokens": 80200777.0,
      "reward": 3.749239444732666,
      "reward_std": 0.4819631576538086,
      "rewards/reward_fn/mean": 3.749239444732666,
      "rewards/reward_fn/std": 0.4819631576538086,
      "step": 1735
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1065.0,
      "completions/max_terminated_length": 1065.0,
      "completions/mean_length": 242.125,
      "completions/mean_terminated_length": 242.125,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.18415190410522966,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.023410562425851822,
      "learning_rate": 7.306e-06,
      "loss": 0.0159,
      "num_tokens": 80245261.0,
      "reward": 3.9407196044921875,
      "reward_std": 0.2346184253692627,
      "rewards/reward_fn/mean": 3.9407196044921875,
      "rewards/reward_fn/std": 0.2346184253692627,
      "step": 1736
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1550.0,
      "completions/max_terminated_length": 1550.0,
      "completions/mean_length": 397.46875,
      "completions/mean_terminated_length": 397.46875,
      "completions/min_length": 241.0,
      "completions/min_terminated_length": 241.0,
      "epoch": 0.18425798239100455,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.026979970512911677,
      "learning_rate": 7.3056e-06,
      "loss": -0.0341,
      "num_tokens": 80297532.0,
      "reward": 3.124235153198242,
      "reward_std": 0.7219064831733704,
      "rewards/reward_fn/mean": 3.124235153198242,
      "rewards/reward_fn/std": 0.7219064831733704,
      "step": 1737
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 457.0,
      "completions/max_terminated_length": 457.0,
      "completions/mean_length": 326.0,
      "completions/mean_terminated_length": 326.0,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.18436406067677946,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.03350239293649793,
      "learning_rate": 7.3052e-06,
      "loss": -0.0451,
      "num_tokens": 80336412.0,
      "reward": 2.874659299850464,
      "reward_std": 0.19675695896148682,
      "rewards/reward_fn/mean": 2.874659299850464,
      "rewards/reward_fn/std": 0.19675692915916443,
      "step": 1738
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1408.0,
      "completions/max_terminated_length": 1408.0,
      "completions/mean_length": 400.5,
      "completions/mean_terminated_length": 400.5,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.18447013896255438,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.021226889453828335,
      "learning_rate": 7.3048e-06,
      "loss": 0.0089,
      "num_tokens": 80377772.0,
      "reward": 2.802847385406494,
      "reward_std": 0.04565891623497009,
      "rewards/reward_fn/mean": 2.802847385406494,
      "rewards/reward_fn/std": 0.045658860355615616,
      "step": 1739
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 845.0,
      "completions/max_terminated_length": 845.0,
      "completions/mean_length": 396.5,
      "completions/mean_terminated_length": 396.5,
      "completions/min_length": 236.0,
      "completions/min_terminated_length": 236.0,
      "epoch": 0.18457621724832926,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.02231617399957031,
      "learning_rate": 7.3044e-06,
      "loss": -0.1365,
      "num_tokens": 80411356.0,
      "reward": 3.0051422119140625,
      "reward_std": 0.4885551333427429,
      "rewards/reward_fn/mean": 3.0051422119140625,
      "rewards/reward_fn/std": 0.4885551631450653,
      "step": 1740
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1446.0,
      "completions/max_terminated_length": 1446.0,
      "completions/mean_length": 328.15625,
      "completions/mean_terminated_length": 328.15625,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.18468229553410417,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.02340529253706336,
      "learning_rate": 7.304e-06,
      "loss": 0.0033,
      "num_tokens": 80457441.0,
      "reward": 3.927124261856079,
      "reward_std": 0.41224780678749084,
      "rewards/reward_fn/mean": 3.927124261856079,
      "rewards/reward_fn/std": 0.41224780678749084,
      "step": 1741
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1631.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 397.21875,
      "completions/mean_terminated_length": 397.21875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.18478837381987906,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.024748707422986627,
      "learning_rate": 7.3036e-06,
      "loss": 0.0071,
      "num_tokens": 80493704.0,
      "reward": 2.719790458679199,
      "reward_std": 0.18041294813156128,
      "rewards/reward_fn/mean": 2.719790458679199,
      "rewards/reward_fn/std": 0.18041293323040009,
      "step": 1742
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 265.0,
      "completions/max_terminated_length": 265.0,
      "completions/mean_length": 198.84375,
      "completions/mean_terminated_length": 198.84375,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.18489445210565397,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10888671875,
      "kl": 0.025478441501036286,
      "learning_rate": 7.3032e-06,
      "loss": 0.001,
      "num_tokens": 80528579.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1743
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1338.0,
      "completions/max_terminated_length": 1338.0,
      "completions/mean_length": 317.625,
      "completions/mean_terminated_length": 317.625,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.18500053039142889,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.023378330282866955,
      "learning_rate": 7.3028e-06,
      "loss": -0.0361,
      "num_tokens": 80576375.0,
      "reward": 3.9293417930603027,
      "reward_std": 0.27804508805274963,
      "rewards/reward_fn/mean": 3.9293417930603027,
      "rewards/reward_fn/std": 0.278045117855072,
      "step": 1744
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1164.0,
      "completions/max_terminated_length": 1164.0,
      "completions/mean_length": 316.71875,
      "completions/mean_terminated_length": 316.71875,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.18510660867720377,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.015432185959070921,
      "learning_rate": 7.302399999999999e-06,
      "loss": 0.0778,
      "num_tokens": 80629230.0,
      "reward": 2.648890972137451,
      "reward_std": 0.05023077875375748,
      "rewards/reward_fn/mean": 2.648890972137451,
      "rewards/reward_fn/std": 0.050230756402015686,
      "step": 1745
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 192.3125,
      "completions/mean_terminated_length": 192.3125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.18521268696297868,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.099609375,
      "kl": 0.028556083096191287,
      "learning_rate": 7.301999999999999e-06,
      "loss": 0.0011,
      "num_tokens": 80658936.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1746
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1043.0,
      "completions/max_terminated_length": 1043.0,
      "completions/mean_length": 510.15625,
      "completions/mean_terminated_length": 510.15625,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.18531876524875357,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.046875,
      "kl": 0.02161628007888794,
      "learning_rate": 7.3016e-06,
      "loss": 0.0176,
      "num_tokens": 80715997.0,
      "reward": 2.8921079635620117,
      "reward_std": 0.3677787184715271,
      "rewards/reward_fn/mean": 2.8921079635620117,
      "rewards/reward_fn/std": 0.3677787482738495,
      "step": 1747
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 476.0,
      "completions/max_terminated_length": 476.0,
      "completions/mean_length": 191.84375,
      "completions/mean_terminated_length": 191.84375,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.18542484353452848,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.029479774879291654,
      "learning_rate": 7.3012e-06,
      "loss": -0.0478,
      "num_tokens": 80761304.0,
      "reward": 3.9663615226745605,
      "reward_std": 0.19028803706169128,
      "rewards/reward_fn/mean": 3.9663615226745605,
      "rewards/reward_fn/std": 0.19028803706169128,
      "step": 1748
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1029.0,
      "completions/max_terminated_length": 1029.0,
      "completions/mean_length": 340.59375,
      "completions/mean_terminated_length": 340.59375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.1855309218203034,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0791015625,
      "kl": 0.025199016323313117,
      "learning_rate": 7.3008e-06,
      "loss": 0.001,
      "num_tokens": 80808139.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1749
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 754.0,
      "completions/max_terminated_length": 754.0,
      "completions/mean_length": 221.4375,
      "completions/mean_terminated_length": 221.4375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.18563700010607828,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.546875,
      "kl": 0.02979375934228301,
      "learning_rate": 7.3004e-06,
      "loss": 0.1565,
      "num_tokens": 80865401.0,
      "reward": 3.743729591369629,
      "reward_std": 0.6451296210289001,
      "rewards/reward_fn/mean": 3.743729591369629,
      "rewards/reward_fn/std": 0.6451296210289001,
      "step": 1750
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 900.0,
      "completions/max_terminated_length": 900.0,
      "completions/mean_length": 196.0,
      "completions/mean_terminated_length": 196.0,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1857430783918532,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.04355457844212651,
      "learning_rate": 7.2999999999999996e-06,
      "loss": -0.0124,
      "num_tokens": 80906489.0,
      "reward": 3.9675936698913574,
      "reward_std": 0.18331791460514069,
      "rewards/reward_fn/mean": 3.9675936698913574,
      "rewards/reward_fn/std": 0.18331791460514069,
      "step": 1751
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 762.0,
      "completions/max_terminated_length": 762.0,
      "completions/mean_length": 537.4375,
      "completions/mean_terminated_length": 537.4375,
      "completions/min_length": 335.0,
      "completions/min_terminated_length": 335.0,
      "epoch": 0.18584915667762808,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1953125,
      "kl": 0.01735016261227429,
      "learning_rate": 7.2995999999999995e-06,
      "loss": 0.0577,
      "num_tokens": 80971911.0,
      "reward": 2.747972249984741,
      "reward_std": 0.04789024218916893,
      "rewards/reward_fn/mean": 2.747972249984741,
      "rewards/reward_fn/std": 0.04789023473858833,
      "step": 1752
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1241.0,
      "completions/max_terminated_length": 1241.0,
      "completions/mean_length": 360.625,
      "completions/mean_terminated_length": 360.625,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.185955234963403,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.016449951217509806,
      "learning_rate": 7.2991999999999995e-06,
      "loss": 0.0972,
      "num_tokens": 81028475.0,
      "reward": 3.906682252883911,
      "reward_std": 0.29498347640037537,
      "rewards/reward_fn/mean": 3.906682252883911,
      "rewards/reward_fn/std": 0.29498350620269775,
      "step": 1753
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 316.0,
      "completions/max_terminated_length": 316.0,
      "completions/mean_length": 197.6875,
      "completions/mean_terminated_length": 197.6875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1860613132491779,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.024210747331380844,
      "learning_rate": 7.2987999999999995e-06,
      "loss": 0.044,
      "num_tokens": 81070289.0,
      "reward": 2.903296947479248,
      "reward_std": 0.4796822965145111,
      "rewards/reward_fn/mean": 2.903296947479248,
      "rewards/reward_fn/std": 0.4796823263168335,
      "step": 1754
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1133.0,
      "completions/max_terminated_length": 1133.0,
      "completions/mean_length": 335.09375,
      "completions/mean_terminated_length": 335.09375,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1861673915349528,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.023606545757502317,
      "learning_rate": 7.2983999999999994e-06,
      "loss": 0.0337,
      "num_tokens": 81119316.0,
      "reward": 3.511998176574707,
      "reward_std": 0.6018990278244019,
      "rewards/reward_fn/mean": 3.511998176574707,
      "rewards/reward_fn/std": 0.6018990278244019,
      "step": 1755
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1570.0,
      "completions/mean_length": 1084.625,
      "completions/mean_terminated_length": 1020.4000244140625,
      "completions/min_length": 552.0,
      "completions/min_terminated_length": 552.0,
      "epoch": 0.1862734698207277,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.953125,
      "kl": 0.01310090278275311,
      "learning_rate": 7.297999999999999e-06,
      "loss": 0.1005,
      "num_tokens": 81194376.0,
      "reward": 3.3202013969421387,
      "reward_std": 1.109673261642456,
      "rewards/reward_fn/mean": 3.3202013969421387,
      "rewards/reward_fn/std": 1.109673261642456,
      "step": 1756
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 863.0,
      "completions/max_terminated_length": 863.0,
      "completions/mean_length": 269.96875,
      "completions/mean_terminated_length": 269.96875,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.1863795481065026,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.02232472668401897,
      "learning_rate": 7.297599999999999e-06,
      "loss": -0.0044,
      "num_tokens": 81246823.0,
      "reward": 2.9757986068725586,
      "reward_std": 0.21454162895679474,
      "rewards/reward_fn/mean": 2.9757986068725586,
      "rewards/reward_fn/std": 0.21454162895679474,
      "step": 1757
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 703.0,
      "completions/max_terminated_length": 703.0,
      "completions/mean_length": 238.03125,
      "completions/mean_terminated_length": 238.03125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1864856263922775,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.02410236350260675,
      "learning_rate": 7.2972e-06,
      "loss": 0.0092,
      "num_tokens": 81283624.0,
      "reward": 3.3134825229644775,
      "reward_std": 0.43799471855163574,
      "rewards/reward_fn/mean": 3.3134825229644775,
      "rewards/reward_fn/std": 0.43799474835395813,
      "step": 1758
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.0,
      "completions/max_terminated_length": 278.0,
      "completions/mean_length": 126.21875,
      "completions/mean_terminated_length": 126.21875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.1865917046780524,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.359375,
      "kl": 0.019084823317825794,
      "learning_rate": 7.2968e-06,
      "loss": 0.1121,
      "num_tokens": 81319631.0,
      "reward": 2.9211864471435547,
      "reward_std": 0.029545731842517853,
      "rewards/reward_fn/mean": 2.9211864471435547,
      "rewards/reward_fn/std": 0.0295457411557436,
      "step": 1759
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1060.0,
      "completions/max_terminated_length": 1060.0,
      "completions/mean_length": 270.9375,
      "completions/mean_terminated_length": 270.9375,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.1866977829638273,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.02463018544949591,
      "learning_rate": 7.2964e-06,
      "loss": 0.1919,
      "num_tokens": 81365325.0,
      "reward": 3.0176355838775635,
      "reward_std": 0.3355969190597534,
      "rewards/reward_fn/mean": 3.0176355838775635,
      "rewards/reward_fn/std": 0.3355969786643982,
      "step": 1760
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 417.0,
      "completions/max_terminated_length": 417.0,
      "completions/mean_length": 180.40625,
      "completions/mean_terminated_length": 180.40625,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.18680386124960222,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.020807773573324084,
      "learning_rate": 7.296e-06,
      "loss": -0.0111,
      "num_tokens": 81410778.0,
      "reward": 3.9669175148010254,
      "reward_std": 0.18714292347431183,
      "rewards/reward_fn/mean": 3.9669175148010254,
      "rewards/reward_fn/std": 0.18714292347431183,
      "step": 1761
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 710.0,
      "completions/max_terminated_length": 710.0,
      "completions/mean_length": 344.90625,
      "completions/mean_terminated_length": 344.90625,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.1869099395353771,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.024345112266018987,
      "learning_rate": 7.2956e-06,
      "loss": 0.0946,
      "num_tokens": 81475991.0,
      "reward": 3.33730149269104,
      "reward_std": 0.9492329955101013,
      "rewards/reward_fn/mean": 3.33730149269104,
      "rewards/reward_fn/std": 0.9492329955101013,
      "step": 1762
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 711.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 295.0,
      "completions/mean_terminated_length": 295.0,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.18701601782115201,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.13671875,
      "kl": 0.023923526634462178,
      "learning_rate": 7.2952e-06,
      "loss": 0.001,
      "num_tokens": 81534167.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1763
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 214.0,
      "completions/max_terminated_length": 214.0,
      "completions/mean_length": 159.0,
      "completions/mean_terminated_length": 159.0,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.1871220961069269,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.03396447142586112,
      "learning_rate": 7.2948e-06,
      "loss": 0.0014,
      "num_tokens": 81580951.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1764
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1609.0,
      "completions/max_terminated_length": 1609.0,
      "completions/mean_length": 445.4375,
      "completions/mean_terminated_length": 445.4375,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.1872281743927018,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.021805549738928676,
      "learning_rate": 7.2944e-06,
      "loss": 0.0994,
      "num_tokens": 81633669.0,
      "reward": 2.8578386306762695,
      "reward_std": 0.36610347032546997,
      "rewards/reward_fn/mean": 2.8578386306762695,
      "rewards/reward_fn/std": 0.36610347032546997,
      "step": 1765
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 287.0,
      "completions/max_terminated_length": 287.0,
      "completions/mean_length": 206.96875,
      "completions/mean_terminated_length": 206.96875,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.18733425267847673,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.0180403123376891,
      "learning_rate": 7.293999999999999e-06,
      "loss": 0.0031,
      "num_tokens": 81672036.0,
      "reward": 2.8211755752563477,
      "reward_std": 0.21864524483680725,
      "rewards/reward_fn/mean": 2.8211755752563477,
      "rewards/reward_fn/std": 0.21864525973796844,
      "step": 1766
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1365.0,
      "completions/max_terminated_length": 1365.0,
      "completions/mean_length": 330.3125,
      "completions/mean_terminated_length": 330.3125,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.1874403309642516,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.019215510925278068,
      "learning_rate": 7.293599999999999e-06,
      "loss": 0.0027,
      "num_tokens": 81722926.0,
      "reward": 3.3021492958068848,
      "reward_std": 0.44588205218315125,
      "rewards/reward_fn/mean": 3.3021492958068848,
      "rewards/reward_fn/std": 0.44588202238082886,
      "step": 1767
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1151.0,
      "completions/max_terminated_length": 1151.0,
      "completions/mean_length": 301.84375,
      "completions/mean_terminated_length": 301.84375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.18754640925002652,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.02523637586273253,
      "learning_rate": 7.293199999999999e-06,
      "loss": -0.0158,
      "num_tokens": 81764425.0,
      "reward": 2.5516433715820312,
      "reward_std": 0.436400830745697,
      "rewards/reward_fn/mean": 2.5516433715820312,
      "rewards/reward_fn/std": 0.43640080094337463,
      "step": 1768
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 525.0,
      "completions/max_terminated_length": 525.0,
      "completions/mean_length": 237.59375,
      "completions/mean_terminated_length": 237.59375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.1876524875358014,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12353515625,
      "kl": 0.032501579727977514,
      "learning_rate": 7.292799999999999e-06,
      "loss": 0.0013,
      "num_tokens": 81807548.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1769
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1532.0,
      "completions/mean_length": 513.40625,
      "completions/mean_terminated_length": 463.9031982421875,
      "completions/min_length": 210.0,
      "completions/min_terminated_length": 210.0,
      "epoch": 0.18775856582157632,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.953125,
      "kl": 0.026550387497991323,
      "learning_rate": 7.2924e-06,
      "loss": 0.1681,
      "num_tokens": 81863881.0,
      "reward": 2.7122297286987305,
      "reward_std": 0.6148126721382141,
      "rewards/reward_fn/mean": 2.7122297286987305,
      "rewards/reward_fn/std": 0.6148126721382141,
      "step": 1770
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1070.0,
      "completions/max_terminated_length": 1070.0,
      "completions/mean_length": 288.84375,
      "completions/mean_terminated_length": 288.84375,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.18786464410735124,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1015625,
      "kl": 0.026848802575841546,
      "learning_rate": 7.292e-06,
      "loss": 0.0011,
      "num_tokens": 81909060.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1771
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 564.0,
      "completions/max_terminated_length": 564.0,
      "completions/mean_length": 228.34375,
      "completions/mean_terminated_length": 228.34375,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.18797072239312612,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.033349854638800025,
      "learning_rate": 7.2916e-06,
      "loss": 0.0913,
      "num_tokens": 81959279.0,
      "reward": 3.149571180343628,
      "reward_std": 0.5094886422157288,
      "rewards/reward_fn/mean": 3.149571180343628,
      "rewards/reward_fn/std": 0.509488582611084,
      "step": 1772
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 743.0,
      "completions/max_terminated_length": 743.0,
      "completions/mean_length": 191.5,
      "completions/mean_terminated_length": 191.5,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.18807680067890103,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11328125,
      "kl": 0.02406395087018609,
      "learning_rate": 7.2912e-06,
      "loss": 0.001,
      "num_tokens": 81996223.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1773
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1446.0,
      "completions/mean_length": 579.75,
      "completions/mean_terminated_length": 481.86669921875,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.18818287896467592,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8046875,
      "kl": 0.03457389399409294,
      "learning_rate": 7.2908e-06,
      "loss": 0.274,
      "num_tokens": 82045591.0,
      "reward": 2.5302791595458984,
      "reward_std": 0.7885620594024658,
      "rewards/reward_fn/mean": 2.5302791595458984,
      "rewards/reward_fn/std": 0.7885620594024658,
      "step": 1774
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1887.0,
      "completions/max_terminated_length": 1887.0,
      "completions/mean_length": 469.25,
      "completions/mean_terminated_length": 469.25,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.18828895725045083,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.029545899014919996,
      "learning_rate": 7.2904e-06,
      "loss": 0.1866,
      "num_tokens": 82123359.0,
      "reward": 3.565403699874878,
      "reward_std": 0.9191962480545044,
      "rewards/reward_fn/mean": 3.565403699874878,
      "rewards/reward_fn/std": 0.9191962480545044,
      "step": 1775
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 706.0,
      "completions/max_terminated_length": 706.0,
      "completions/mean_length": 164.96875,
      "completions/mean_terminated_length": 164.96875,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.18839503553622575,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5625,
      "kl": 0.02256469742860645,
      "learning_rate": 7.29e-06,
      "loss": 0.0788,
      "num_tokens": 82165246.0,
      "reward": 3.9026288986206055,
      "reward_std": 0.3076043426990509,
      "rewards/reward_fn/mean": 3.9026288986206055,
      "rewards/reward_fn/std": 0.3076043725013733,
      "step": 1776
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 790.0,
      "completions/max_terminated_length": 790.0,
      "completions/mean_length": 214.96875,
      "completions/mean_terminated_length": 214.96875,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.18850111382200063,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11767578125,
      "kl": 0.02400966896675527,
      "learning_rate": 7.2896e-06,
      "loss": 0.001,
      "num_tokens": 82206333.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1777
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 774.0,
      "completions/max_terminated_length": 774.0,
      "completions/mean_length": 290.875,
      "completions/mean_terminated_length": 290.875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.18860719210777555,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.146484375,
      "kl": 0.021961679798550904,
      "learning_rate": 7.2892e-06,
      "loss": 0.0009,
      "num_tokens": 82255705.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1778
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 878.0,
      "completions/max_terminated_length": 878.0,
      "completions/mean_length": 321.21875,
      "completions/mean_terminated_length": 321.21875,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.18871327039355043,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09033203125,
      "kl": 0.02163318544626236,
      "learning_rate": 7.2887999999999996e-06,
      "loss": 0.0009,
      "num_tokens": 82303200.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1779
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1254.0,
      "completions/max_terminated_length": 1254.0,
      "completions/mean_length": 205.6875,
      "completions/mean_terminated_length": 205.6875,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.18881934867932534,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09375,
      "kl": 0.020103381713852286,
      "learning_rate": 7.2883999999999995e-06,
      "loss": 0.0008,
      "num_tokens": 82342710.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1780
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 447.0,
      "completions/max_terminated_length": 447.0,
      "completions/mean_length": 294.5625,
      "completions/mean_terminated_length": 294.5625,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.18892542696510026,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4453125,
      "kl": 0.023567187832668424,
      "learning_rate": 7.2879999999999995e-06,
      "loss": 0.0174,
      "num_tokens": 82395080.0,
      "reward": 3.1176083087921143,
      "reward_std": 0.5186969041824341,
      "rewards/reward_fn/mean": 3.1176083087921143,
      "rewards/reward_fn/std": 0.5186969041824341,
      "step": 1781
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 973.0,
      "completions/max_terminated_length": 973.0,
      "completions/mean_length": 316.5625,
      "completions/mean_terminated_length": 316.5625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.18903150525087514,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.024137710686773062,
      "learning_rate": 7.2876e-06,
      "loss": -0.0694,
      "num_tokens": 82450394.0,
      "reward": 2.7653896808624268,
      "reward_std": 0.0928201898932457,
      "rewards/reward_fn/mean": 2.7653896808624268,
      "rewards/reward_fn/std": 0.09282021969556808,
      "step": 1782
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1543.0,
      "completions/max_terminated_length": 1543.0,
      "completions/mean_length": 410.03125,
      "completions/mean_terminated_length": 410.03125,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.18913758353665006,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.037990636890754104,
      "learning_rate": 7.2872e-06,
      "loss": 0.023,
      "num_tokens": 82499099.0,
      "reward": 2.971921443939209,
      "reward_std": 0.3378731310367584,
      "rewards/reward_fn/mean": 2.971921443939209,
      "rewards/reward_fn/std": 0.3378731608390808,
      "step": 1783
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 303.0,
      "completions/max_terminated_length": 303.0,
      "completions/mean_length": 211.96875,
      "completions/mean_terminated_length": 211.96875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.18924366182242494,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.025865831412374973,
      "learning_rate": 7.2868e-06,
      "loss": -0.0036,
      "num_tokens": 82542042.0,
      "reward": 3.0052905082702637,
      "reward_std": 0.05251338332891464,
      "rewards/reward_fn/mean": 3.0052905082702637,
      "rewards/reward_fn/std": 0.05251337215304375,
      "step": 1784
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1905.0,
      "completions/max_terminated_length": 1905.0,
      "completions/mean_length": 417.40625,
      "completions/mean_terminated_length": 417.40625,
      "completions/min_length": 261.0,
      "completions/min_terminated_length": 261.0,
      "epoch": 0.18934974010819985,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.021670245798304677,
      "learning_rate": 7.2864e-06,
      "loss": 0.141,
      "num_tokens": 82600455.0,
      "reward": 2.866835594177246,
      "reward_std": 0.07305392622947693,
      "rewards/reward_fn/mean": 2.866835594177246,
      "rewards/reward_fn/std": 0.07305389642715454,
      "step": 1785
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 215.0,
      "completions/max_terminated_length": 215.0,
      "completions/mean_length": 151.4375,
      "completions/mean_terminated_length": 151.4375,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.18945581839397474,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.087890625,
      "kl": 0.020182526553981006,
      "learning_rate": 7.285999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 82641301.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1786
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 2020.0,
      "completions/mean_length": 857.53125,
      "completions/mean_terminated_length": 734.3793334960938,
      "completions/min_length": 282.0,
      "completions/min_terminated_length": 282.0,
      "epoch": 0.18956189667974965,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1640625,
      "kl": 0.018903368851169944,
      "learning_rate": 7.285599999999999e-06,
      "loss": 0.1813,
      "num_tokens": 82711942.0,
      "reward": 2.3174896240234375,
      "reward_std": 0.9160798192024231,
      "rewards/reward_fn/mean": 2.3174896240234375,
      "rewards/reward_fn/std": 0.9160798192024231,
      "step": 1787
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1586.0,
      "completions/mean_length": 443.40625,
      "completions/mean_terminated_length": 391.6451416015625,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.18966797496552457,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.029990455135703087,
      "learning_rate": 7.285199999999999e-06,
      "loss": 0.2298,
      "num_tokens": 82789395.0,
      "reward": 2.748314380645752,
      "reward_std": 0.512526273727417,
      "rewards/reward_fn/mean": 2.748314380645752,
      "rewards/reward_fn/std": 0.512526273727417,
      "step": 1788
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 315.90625,
      "completions/mean_terminated_length": 315.90625,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.18977405325129945,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.40625,
      "kl": 0.01661941665224731,
      "learning_rate": 7.284799999999999e-06,
      "loss": -0.0135,
      "num_tokens": 82847696.0,
      "reward": 3.9684324264526367,
      "reward_std": 0.1785728633403778,
      "rewards/reward_fn/mean": 3.9684324264526367,
      "rewards/reward_fn/std": 0.1785728633403778,
      "step": 1789
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 523.0,
      "completions/max_terminated_length": 523.0,
      "completions/mean_length": 163.0625,
      "completions/mean_terminated_length": 163.0625,
      "completions/min_length": 97.0,
      "completions/min_terminated_length": 97.0,
      "epoch": 0.18988013153707436,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.076171875,
      "kl": 0.016163927502930164,
      "learning_rate": 7.284399999999999e-06,
      "loss": 0.0006,
      "num_tokens": 82904786.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1790
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 601.0,
      "completions/max_terminated_length": 601.0,
      "completions/mean_length": 196.90625,
      "completions/mean_terminated_length": 196.90625,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.18998620982284925,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.021043762797489762,
      "learning_rate": 7.283999999999999e-06,
      "loss": 0.0344,
      "num_tokens": 82945903.0,
      "reward": 2.891822338104248,
      "reward_std": 0.2067325860261917,
      "rewards/reward_fn/mean": 2.891822338104248,
      "rewards/reward_fn/std": 0.20673255622386932,
      "step": 1791
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 726.0,
      "completions/max_terminated_length": 726.0,
      "completions/mean_length": 138.78125,
      "completions/mean_terminated_length": 138.78125,
      "completions/min_length": 65.0,
      "completions/min_terminated_length": 65.0,
      "epoch": 0.19009228810862416,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.53125,
      "kl": 0.042682474479079247,
      "learning_rate": 7.283599999999999e-06,
      "loss": 0.0077,
      "num_tokens": 82982600.0,
      "reward": 3.008596181869507,
      "reward_std": 0.0607355572283268,
      "rewards/reward_fn/mean": 3.008596181869507,
      "rewards/reward_fn/std": 0.060735564678907394,
      "step": 1792
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1132.0,
      "completions/max_terminated_length": 1132.0,
      "completions/mean_length": 429.90625,
      "completions/mean_terminated_length": 429.90625,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.19019836639439908,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.021921277744695544,
      "learning_rate": 7.283199999999999e-06,
      "loss": 0.1219,
      "num_tokens": 83020037.0,
      "reward": 2.7947468757629395,
      "reward_std": 0.028822239488363266,
      "rewards/reward_fn/mean": 2.7947468757629395,
      "rewards/reward_fn/std": 0.02882222831249237,
      "step": 1793
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1693.0,
      "completions/max_terminated_length": 1693.0,
      "completions/mean_length": 565.5,
      "completions/mean_terminated_length": 565.5,
      "completions/min_length": 260.0,
      "completions/min_terminated_length": 260.0,
      "epoch": 0.19030444468017396,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.021824662806466222,
      "learning_rate": 7.2828e-06,
      "loss": 0.208,
      "num_tokens": 83060469.0,
      "reward": 3.3677079677581787,
      "reward_std": 0.8257449865341187,
      "rewards/reward_fn/mean": 3.3677079677581787,
      "rewards/reward_fn/std": 0.8257449269294739,
      "step": 1794
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 895.0,
      "completions/max_terminated_length": 895.0,
      "completions/mean_length": 269.1875,
      "completions/mean_terminated_length": 269.1875,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.19041052296594888,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.02564499992877245,
      "learning_rate": 7.2824e-06,
      "loss": -0.0528,
      "num_tokens": 83100443.0,
      "reward": 3.9307758808135986,
      "reward_std": 0.39159107208251953,
      "rewards/reward_fn/mean": 3.9307758808135986,
      "rewards/reward_fn/std": 0.39159104228019714,
      "step": 1795
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1098.0,
      "completions/max_terminated_length": 1098.0,
      "completions/mean_length": 286.53125,
      "completions/mean_terminated_length": 286.53125,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.19051660125172376,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.038170166313648224,
      "learning_rate": 7.282e-06,
      "loss": 0.0912,
      "num_tokens": 83139020.0,
      "reward": 3.124636650085449,
      "reward_std": 0.257290244102478,
      "rewards/reward_fn/mean": 3.124636650085449,
      "rewards/reward_fn/std": 0.25729018449783325,
      "step": 1796
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1346.0,
      "completions/max_terminated_length": 1346.0,
      "completions/mean_length": 335.84375,
      "completions/mean_terminated_length": 335.84375,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.19062267953749867,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.026702363276854157,
      "learning_rate": 7.2816e-06,
      "loss": 0.0011,
      "num_tokens": 83180263.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1797
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 240.0,
      "completions/max_terminated_length": 240.0,
      "completions/mean_length": 174.8125,
      "completions/mean_terminated_length": 174.8125,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.1907287578232736,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9140625,
      "kl": 0.021874910918995738,
      "learning_rate": 7.2812e-06,
      "loss": 0.0139,
      "num_tokens": 83227905.0,
      "reward": 3.0870790481567383,
      "reward_std": 0.4484405815601349,
      "rewards/reward_fn/mean": 3.0870790481567383,
      "rewards/reward_fn/std": 0.4484405815601349,
      "step": 1798
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 757.0,
      "completions/max_terminated_length": 757.0,
      "completions/mean_length": 280.53125,
      "completions/mean_terminated_length": 280.53125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.19083483610904847,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.022913979832082987,
      "learning_rate": 7.2808e-06,
      "loss": 0.0525,
      "num_tokens": 83266994.0,
      "reward": 3.892354965209961,
      "reward_std": 0.444100558757782,
      "rewards/reward_fn/mean": 3.892354965209961,
      "rewards/reward_fn/std": 0.4441005289554596,
      "step": 1799
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 929.0,
      "completions/max_terminated_length": 929.0,
      "completions/mean_length": 296.0625,
      "completions/mean_terminated_length": 296.0625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.19094091439482339,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.021208511432632804,
      "learning_rate": 7.2804e-06,
      "loss": -0.0788,
      "num_tokens": 83294420.0,
      "reward": 3.3324835300445557,
      "reward_std": 0.3951815366744995,
      "rewards/reward_fn/mean": 3.3324835300445557,
      "rewards/reward_fn/std": 0.3951815366744995,
      "step": 1800
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 498.0,
      "completions/max_terminated_length": 498.0,
      "completions/mean_length": 343.90625,
      "completions/mean_terminated_length": 343.90625,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.19104699268059827,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.020625728298909962,
      "learning_rate": 7.28e-06,
      "loss": -0.0446,
      "num_tokens": 83343409.0,
      "reward": 3.7953171730041504,
      "reward_std": 0.5966523885726929,
      "rewards/reward_fn/mean": 3.7953171730041504,
      "rewards/reward_fn/std": 0.5966523289680481,
      "step": 1801
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 194.0,
      "completions/max_terminated_length": 194.0,
      "completions/mean_length": 147.21875,
      "completions/mean_terminated_length": 147.21875,
      "completions/min_length": 109.0,
      "completions/min_terminated_length": 109.0,
      "epoch": 0.19115307096637318,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08984375,
      "kl": 0.01696223858743906,
      "learning_rate": 7.2796e-06,
      "loss": 0.0007,
      "num_tokens": 83383480.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1802
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 834.0,
      "completions/max_terminated_length": 834.0,
      "completions/mean_length": 211.21875,
      "completions/mean_terminated_length": 211.21875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.1912591492521481,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.103515625,
      "kl": 0.02501624054275453,
      "learning_rate": 7.2792e-06,
      "loss": 0.001,
      "num_tokens": 83426655.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1803
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 858.0,
      "completions/max_terminated_length": 858.0,
      "completions/mean_length": 241.34375,
      "completions/mean_terminated_length": 241.34375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.19136522753792298,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1171875,
      "kl": 0.024438521591946483,
      "learning_rate": 7.2788e-06,
      "loss": 0.001,
      "num_tokens": 83454922.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1804
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 355.0,
      "completions/max_terminated_length": 355.0,
      "completions/mean_length": 107.0625,
      "completions/mean_terminated_length": 107.0625,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.1914713058236979,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1240234375,
      "kl": 0.01948395639192313,
      "learning_rate": 7.2784000000000005e-06,
      "loss": 0.0008,
      "num_tokens": 83491020.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1805
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1266.0,
      "completions/max_terminated_length": 1266.0,
      "completions/mean_length": 381.8125,
      "completions/mean_terminated_length": 381.8125,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.19157738410947278,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.96875,
      "kl": 0.025701815960928798,
      "learning_rate": 7.278e-06,
      "loss": -0.0646,
      "num_tokens": 83524998.0,
      "reward": 3.9303698539733887,
      "reward_std": 0.2739916145801544,
      "rewards/reward_fn/mean": 3.9303698539733887,
      "rewards/reward_fn/std": 0.2739916443824768,
      "step": 1806
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 860.0,
      "completions/max_terminated_length": 860.0,
      "completions/mean_length": 215.03125,
      "completions/mean_terminated_length": 215.03125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.1916834623952477,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08642578125,
      "kl": 0.0199962422484532,
      "learning_rate": 7.2775999999999996e-06,
      "loss": 0.0008,
      "num_tokens": 83564807.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1807
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 394.0,
      "completions/max_terminated_length": 394.0,
      "completions/mean_length": 207.875,
      "completions/mean_terminated_length": 207.875,
      "completions/min_length": 139.0,
      "completions/min_terminated_length": 139.0,
      "epoch": 0.1917895406810226,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.02291672769933939,
      "learning_rate": 7.2771999999999995e-06,
      "loss": -0.0238,
      "num_tokens": 83606563.0,
      "reward": 3.8847744464874268,
      "reward_std": 0.31120461225509644,
      "rewards/reward_fn/mean": 3.8847744464874268,
      "rewards/reward_fn/std": 0.31120461225509644,
      "step": 1808
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 95.0,
      "completions/max_terminated_length": 95.0,
      "completions/mean_length": 68.5,
      "completions/mean_terminated_length": 68.5,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.1918956189667975,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.193359375,
      "kl": 0.029097398975864053,
      "learning_rate": 7.2767999999999995e-06,
      "loss": 0.0012,
      "num_tokens": 83639059.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1809
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 353.0,
      "completions/max_terminated_length": 353.0,
      "completions/mean_length": 261.84375,
      "completions/mean_terminated_length": 261.84375,
      "completions/min_length": 203.0,
      "completions/min_terminated_length": 203.0,
      "epoch": 0.1920016972525724,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.02024500584229827,
      "learning_rate": 7.2763999999999995e-06,
      "loss": 0.0566,
      "num_tokens": 83690190.0,
      "reward": 3.8510398864746094,
      "reward_std": 0.40058434009552,
      "rewards/reward_fn/mean": 3.8510398864746094,
      "rewards/reward_fn/std": 0.4005843698978424,
      "step": 1810
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 936.0,
      "completions/max_terminated_length": 936.0,
      "completions/mean_length": 261.5,
      "completions/mean_terminated_length": 261.5,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.1921077755383473,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.02715472411364317,
      "learning_rate": 7.2759999999999995e-06,
      "loss": -0.0709,
      "num_tokens": 83734110.0,
      "reward": 3.7524542808532715,
      "reward_std": 0.5632277131080627,
      "rewards/reward_fn/mean": 3.7524542808532715,
      "rewards/reward_fn/std": 0.5632277131080627,
      "step": 1811
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 720.0,
      "completions/max_terminated_length": 720.0,
      "completions/mean_length": 153.375,
      "completions/mean_terminated_length": 153.375,
      "completions/min_length": 98.0,
      "completions/min_terminated_length": 98.0,
      "epoch": 0.1922138538241222,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0693359375,
      "kl": 0.014898709952831268,
      "learning_rate": 7.2755999999999994e-06,
      "loss": 0.0006,
      "num_tokens": 83774794.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1812
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 606.0,
      "completions/mean_length": 536.3125,
      "completions/mean_terminated_length": 435.5333557128906,
      "completions/min_length": 266.0,
      "completions/min_terminated_length": 266.0,
      "epoch": 0.1923199321098971,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.02957181097008288,
      "learning_rate": 7.275199999999999e-06,
      "loss": 0.2706,
      "num_tokens": 83851540.0,
      "reward": 3.250636100769043,
      "reward_std": 1.182026982307434,
      "rewards/reward_fn/mean": 3.250636100769043,
      "rewards/reward_fn/std": 1.182026982307434,
      "step": 1813
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1330.0,
      "completions/max_terminated_length": 1330.0,
      "completions/mean_length": 369.59375,
      "completions/mean_terminated_length": 369.59375,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.192426010395672,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.02410293696448207,
      "learning_rate": 7.274799999999999e-06,
      "loss": -0.0188,
      "num_tokens": 83894567.0,
      "reward": 3.713106870651245,
      "reward_std": 0.7775752544403076,
      "rewards/reward_fn/mean": 3.713106870651245,
      "rewards/reward_fn/std": 0.7775752544403076,
      "step": 1814
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1097.0,
      "completions/max_terminated_length": 1097.0,
      "completions/mean_length": 406.15625,
      "completions/mean_terminated_length": 406.15625,
      "completions/min_length": 188.0,
      "completions/min_terminated_length": 188.0,
      "epoch": 0.19253208868144692,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.02121006278321147,
      "learning_rate": 7.274399999999999e-06,
      "loss": 0.1567,
      "num_tokens": 83928780.0,
      "reward": 2.624467611312866,
      "reward_std": 0.3308447301387787,
      "rewards/reward_fn/mean": 2.624467611312866,
      "rewards/reward_fn/std": 0.3308447301387787,
      "step": 1815
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 889.0,
      "completions/max_terminated_length": 889.0,
      "completions/mean_length": 209.875,
      "completions/mean_terminated_length": 209.875,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.1926381669672218,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.02947010798379779,
      "learning_rate": 7.273999999999999e-06,
      "loss": 0.0666,
      "num_tokens": 83981352.0,
      "reward": 3.722154140472412,
      "reward_std": 0.3915632367134094,
      "rewards/reward_fn/mean": 3.722154140472412,
      "rewards/reward_fn/std": 0.3915632665157318,
      "step": 1816
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 865.0,
      "completions/max_terminated_length": 865.0,
      "completions/mean_length": 360.75,
      "completions/mean_terminated_length": 360.75,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.19274424525299672,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.022145352559164166,
      "learning_rate": 7.2736e-06,
      "loss": 0.0137,
      "num_tokens": 84012608.0,
      "reward": 3.703070640563965,
      "reward_std": 0.5241351127624512,
      "rewards/reward_fn/mean": 3.703070640563965,
      "rewards/reward_fn/std": 0.5241351127624512,
      "step": 1817
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1276.0,
      "completions/max_terminated_length": 1276.0,
      "completions/mean_length": 393.71875,
      "completions/mean_terminated_length": 393.71875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.1928503235387716,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.0181597942719236,
      "learning_rate": 7.2732e-06,
      "loss": -0.049,
      "num_tokens": 84062103.0,
      "reward": 3.3613734245300293,
      "reward_std": 0.6499727368354797,
      "rewards/reward_fn/mean": 3.3613734245300293,
      "rewards/reward_fn/std": 0.6499727964401245,
      "step": 1818
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 928.0,
      "completions/max_terminated_length": 928.0,
      "completions/mean_length": 246.6875,
      "completions/mean_terminated_length": 246.6875,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.19295640182454651,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1171875,
      "kl": 0.027381795225664973,
      "learning_rate": 7.2728e-06,
      "loss": 0.0011,
      "num_tokens": 84111693.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1819
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 941.0,
      "completions/max_terminated_length": 941.0,
      "completions/mean_length": 305.625,
      "completions/mean_terminated_length": 305.625,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.19306248011032143,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0712890625,
      "kl": 0.021608802489936352,
      "learning_rate": 7.2724e-06,
      "loss": 0.0009,
      "num_tokens": 84154113.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1820
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 925.0,
      "completions/mean_length": 409.59375,
      "completions/mean_terminated_length": 356.7419128417969,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.1931685583960963,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.025535868713632226,
      "learning_rate": 7.272e-06,
      "loss": 0.294,
      "num_tokens": 84195860.0,
      "reward": 2.834456443786621,
      "reward_std": 0.5542919635772705,
      "rewards/reward_fn/mean": 2.834456443786621,
      "rewards/reward_fn/std": 0.5542919635772705,
      "step": 1821
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1094.0,
      "completions/max_terminated_length": 1094.0,
      "completions/mean_length": 208.875,
      "completions/mean_terminated_length": 208.875,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.19327463668187123,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.46875,
      "kl": 0.015965044614858925,
      "learning_rate": 7.2716e-06,
      "loss": 0.0429,
      "num_tokens": 84235664.0,
      "reward": 3.87819242477417,
      "reward_std": 0.4338008165359497,
      "rewards/reward_fn/mean": 3.87819242477417,
      "rewards/reward_fn/std": 0.4338007867336273,
      "step": 1822
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 672.0,
      "completions/max_terminated_length": 672.0,
      "completions/mean_length": 215.90625,
      "completions/mean_terminated_length": 215.90625,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.1933807149676461,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07666015625,
      "kl": 0.020084471092559397,
      "learning_rate": 7.2712e-06,
      "loss": 0.0008,
      "num_tokens": 84294797.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1823
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1409.0,
      "completions/max_terminated_length": 1409.0,
      "completions/mean_length": 350.53125,
      "completions/mean_terminated_length": 350.53125,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.19348679325342102,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.022387655219063163,
      "learning_rate": 7.2708e-06,
      "loss": 0.1434,
      "num_tokens": 84348126.0,
      "reward": 3.8110899925231934,
      "reward_std": 0.44719943404197693,
      "rewards/reward_fn/mean": 3.8110899925231934,
      "rewards/reward_fn/std": 0.44719937443733215,
      "step": 1824
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1687.0,
      "completions/mean_length": 395.15625,
      "completions/mean_terminated_length": 341.8387145996094,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.19359287153919594,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.02443688898347318,
      "learning_rate": 7.2704e-06,
      "loss": 0.3221,
      "num_tokens": 84409091.0,
      "reward": 2.8401429653167725,
      "reward_std": 0.5243302583694458,
      "rewards/reward_fn/mean": 2.8401429653167725,
      "rewards/reward_fn/std": 0.5243302583694458,
      "step": 1825
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1016.0,
      "completions/max_terminated_length": 1016.0,
      "completions/mean_length": 218.15625,
      "completions/mean_terminated_length": 218.15625,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.19369894982497082,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.024313464295119047,
      "learning_rate": 7.269999999999999e-06,
      "loss": -0.1331,
      "num_tokens": 84437768.0,
      "reward": 3.7873826026916504,
      "reward_std": 0.6716558337211609,
      "rewards/reward_fn/mean": 3.7873826026916504,
      "rewards/reward_fn/std": 0.6716558337211609,
      "step": 1826
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1220.0,
      "completions/max_terminated_length": 1220.0,
      "completions/mean_length": 493.40625,
      "completions/mean_terminated_length": 493.40625,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.19380502811074574,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.020324668614193797,
      "learning_rate": 7.269599999999999e-06,
      "loss": -0.0033,
      "num_tokens": 84492021.0,
      "reward": 3.0298476219177246,
      "reward_std": 0.3211779296398163,
      "rewards/reward_fn/mean": 3.0298476219177246,
      "rewards/reward_fn/std": 0.3211778700351715,
      "step": 1827
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1439.0,
      "completions/mean_length": 569.59375,
      "completions/mean_terminated_length": 471.0333557128906,
      "completions/min_length": 201.0,
      "completions/min_terminated_length": 201.0,
      "epoch": 0.19391110639652062,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.022751206997781992,
      "learning_rate": 7.269199999999999e-06,
      "loss": 0.3061,
      "num_tokens": 84543784.0,
      "reward": 3.6765613555908203,
      "reward_std": 1.0499624013900757,
      "rewards/reward_fn/mean": 3.6765613555908203,
      "rewards/reward_fn/std": 1.0499624013900757,
      "step": 1828
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 447.0,
      "completions/max_terminated_length": 447.0,
      "completions/mean_length": 322.9375,
      "completions/mean_terminated_length": 322.9375,
      "completions/min_length": 263.0,
      "completions/min_terminated_length": 263.0,
      "epoch": 0.19401718468229553,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.083984375,
      "kl": 0.028194759273901582,
      "learning_rate": 7.2688e-06,
      "loss": 0.0011,
      "num_tokens": 84589094.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1829
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 222.0,
      "completions/max_terminated_length": 222.0,
      "completions/mean_length": 136.96875,
      "completions/mean_terminated_length": 136.96875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.19412326296807045,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09228515625,
      "kl": 0.022485103458166122,
      "learning_rate": 7.2684e-06,
      "loss": 0.0009,
      "num_tokens": 84616997.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1830
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 680.0,
      "completions/max_terminated_length": 680.0,
      "completions/mean_length": 452.59375,
      "completions/mean_terminated_length": 452.59375,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.19422934125384533,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.024805004009976983,
      "learning_rate": 7.268e-06,
      "loss": 0.0591,
      "num_tokens": 84664056.0,
      "reward": 2.991624355316162,
      "reward_std": 0.3909732401371002,
      "rewards/reward_fn/mean": 2.991624355316162,
      "rewards/reward_fn/std": 0.3909732699394226,
      "step": 1831
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 398.0,
      "completions/max_terminated_length": 398.0,
      "completions/mean_length": 270.65625,
      "completions/mean_terminated_length": 270.65625,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.19433541953962025,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.65625,
      "kl": 0.030655317706987262,
      "learning_rate": 7.2676e-06,
      "loss": 0.0186,
      "num_tokens": 84705997.0,
      "reward": 3.4060113430023193,
      "reward_std": 0.6430683135986328,
      "rewards/reward_fn/mean": 3.4060113430023193,
      "rewards/reward_fn/std": 0.643068253993988,
      "step": 1832
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 382.0,
      "completions/max_terminated_length": 382.0,
      "completions/mean_length": 215.375,
      "completions/mean_terminated_length": 215.375,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.19444149782539513,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.027888069627806544,
      "learning_rate": 7.2672e-06,
      "loss": -0.0243,
      "num_tokens": 84754777.0,
      "reward": 3.6079330444335938,
      "reward_std": 0.5912787914276123,
      "rewards/reward_fn/mean": 3.6079330444335938,
      "rewards/reward_fn/std": 0.5912788510322571,
      "step": 1833
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1301.0,
      "completions/max_terminated_length": 1301.0,
      "completions/mean_length": 343.625,
      "completions/mean_terminated_length": 343.625,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.19454757611117005,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.027522264514118433,
      "learning_rate": 7.2668e-06,
      "loss": 0.2485,
      "num_tokens": 84806573.0,
      "reward": 3.0881223678588867,
      "reward_std": 0.046560484915971756,
      "rewards/reward_fn/mean": 3.0881223678588867,
      "rewards/reward_fn/std": 0.04656045511364937,
      "step": 1834
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1224.0,
      "completions/max_terminated_length": 1224.0,
      "completions/mean_length": 256.75,
      "completions/mean_terminated_length": 256.75,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.19465365439694496,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10302734375,
      "kl": 0.0238818796351552,
      "learning_rate": 7.2664e-06,
      "loss": 0.001,
      "num_tokens": 84847717.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1835
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1020.0,
      "completions/max_terminated_length": 1020.0,
      "completions/mean_length": 346.59375,
      "completions/mean_terminated_length": 346.59375,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.19475973268271984,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.0209172077011317,
      "learning_rate": 7.2659999999999996e-06,
      "loss": 0.2055,
      "num_tokens": 84896376.0,
      "reward": 2.8978328704833984,
      "reward_std": 0.07092181593179703,
      "rewards/reward_fn/mean": 2.8978328704833984,
      "rewards/reward_fn/std": 0.07092180103063583,
      "step": 1836
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1739.0,
      "completions/max_terminated_length": 1739.0,
      "completions/mean_length": 639.03125,
      "completions/mean_terminated_length": 639.03125,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "epoch": 0.19486581096849476,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.125,
      "kl": 0.02236326946876943,
      "learning_rate": 7.2655999999999995e-06,
      "loss": 0.0086,
      "num_tokens": 84934841.0,
      "reward": 2.4415290355682373,
      "reward_std": 0.6754915714263916,
      "rewards/reward_fn/mean": 2.4415290355682373,
      "rewards/reward_fn/std": 0.6754916310310364,
      "step": 1837
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 352.0,
      "completions/mean_terminated_length": 352.0,
      "completions/min_length": 237.0,
      "completions/min_terminated_length": 237.0,
      "epoch": 0.19497188925426964,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.022676357068121433,
      "learning_rate": 7.2651999999999995e-06,
      "loss": 0.0294,
      "num_tokens": 84990361.0,
      "reward": 3.776266574859619,
      "reward_std": 0.7067487239837646,
      "rewards/reward_fn/mean": 3.776266574859619,
      "rewards/reward_fn/std": 0.7067488431930542,
      "step": 1838
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 696.0,
      "completions/max_terminated_length": 696.0,
      "completions/mean_length": 185.21875,
      "completions/mean_terminated_length": 185.21875,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.19507796754004456,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.018021252821199596,
      "learning_rate": 7.2647999999999995e-06,
      "loss": 0.0134,
      "num_tokens": 85050912.0,
      "reward": 3.879213571548462,
      "reward_std": 0.3250885605812073,
      "rewards/reward_fn/mean": 3.879213571548462,
      "rewards/reward_fn/std": 0.3250885307788849,
      "step": 1839
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1688.0,
      "completions/max_terminated_length": 1688.0,
      "completions/mean_length": 507.25,
      "completions/mean_terminated_length": 507.25,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.19518404582581944,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.026730315992608666,
      "learning_rate": 7.2644e-06,
      "loss": 0.1458,
      "num_tokens": 85098440.0,
      "reward": 2.9435012340545654,
      "reward_std": 0.4082188308238983,
      "rewards/reward_fn/mean": 2.9435012340545654,
      "rewards/reward_fn/std": 0.4082188010215759,
      "step": 1840
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1029.0,
      "completions/max_terminated_length": 1029.0,
      "completions/mean_length": 227.65625,
      "completions/mean_terminated_length": 227.65625,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.19529012411159435,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.025480588898062706,
      "learning_rate": 7.264e-06,
      "loss": 0.1826,
      "num_tokens": 85142173.0,
      "reward": 2.987659454345703,
      "reward_std": 0.13073208928108215,
      "rewards/reward_fn/mean": 2.987659454345703,
      "rewards/reward_fn/std": 0.13073207437992096,
      "step": 1841
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 761.0,
      "completions/max_terminated_length": 761.0,
      "completions/mean_length": 194.46875,
      "completions/mean_terminated_length": 194.46875,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.19539620239736927,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1181640625,
      "kl": 0.027264825999736786,
      "learning_rate": 7.2636e-06,
      "loss": 0.0011,
      "num_tokens": 85177772.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1842
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1085.0,
      "completions/max_terminated_length": 1085.0,
      "completions/mean_length": 367.625,
      "completions/mean_terminated_length": 367.625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.19550228068314415,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.027547943871468306,
      "learning_rate": 7.2632e-06,
      "loss": 0.0731,
      "num_tokens": 85233824.0,
      "reward": 3.5169026851654053,
      "reward_std": 0.6616706848144531,
      "rewards/reward_fn/mean": 3.5169026851654053,
      "rewards/reward_fn/std": 0.6616706848144531,
      "step": 1843
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1470.0,
      "completions/max_terminated_length": 1470.0,
      "completions/mean_length": 304.5625,
      "completions/mean_terminated_length": 304.5625,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.19560835896891907,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.02738300757482648,
      "learning_rate": 7.2628e-06,
      "loss": 0.1332,
      "num_tokens": 85276146.0,
      "reward": 3.798513889312744,
      "reward_std": 0.4765705466270447,
      "rewards/reward_fn/mean": 3.798513889312744,
      "rewards/reward_fn/std": 0.47657057642936707,
      "step": 1844
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1129.0,
      "completions/max_terminated_length": 1129.0,
      "completions/mean_length": 320.40625,
      "completions/mean_terminated_length": 320.40625,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.19571443725469395,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.02806469239294529,
      "learning_rate": 7.2624e-06,
      "loss": 0.0161,
      "num_tokens": 85323135.0,
      "reward": 3.9619522094726562,
      "reward_std": 0.21523013710975647,
      "rewards/reward_fn/mean": 3.9619522094726562,
      "rewards/reward_fn/std": 0.21523013710975647,
      "step": 1845
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 848.0,
      "completions/max_terminated_length": 848.0,
      "completions/mean_length": 312.78125,
      "completions/mean_terminated_length": 312.78125,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.19582051554046886,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4921875,
      "kl": 0.02015020337421447,
      "learning_rate": 7.261999999999999e-06,
      "loss": 0.0248,
      "num_tokens": 85371896.0,
      "reward": 3.5994532108306885,
      "reward_std": 0.672566294670105,
      "rewards/reward_fn/mean": 3.5994532108306885,
      "rewards/reward_fn/std": 0.672566294670105,
      "step": 1846
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 808.0,
      "completions/max_terminated_length": 808.0,
      "completions/mean_length": 294.375,
      "completions/mean_terminated_length": 294.375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.19592659382624378,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.02237825153861195,
      "learning_rate": 7.261599999999999e-06,
      "loss": 0.0013,
      "num_tokens": 85417892.0,
      "reward": 3.958686351776123,
      "reward_std": 0.23370474576950073,
      "rewards/reward_fn/mean": 3.958686351776123,
      "rewards/reward_fn/std": 0.23370479047298431,
      "step": 1847
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1311.0,
      "completions/max_terminated_length": 1311.0,
      "completions/mean_length": 368.375,
      "completions/mean_terminated_length": 368.375,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.19603267211201866,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.025957881240174174,
      "learning_rate": 7.261199999999999e-06,
      "loss": -0.0124,
      "num_tokens": 85469008.0,
      "reward": 2.98433256149292,
      "reward_std": 0.6673187017440796,
      "rewards/reward_fn/mean": 2.98433256149292,
      "rewards/reward_fn/std": 0.6673187017440796,
      "step": 1848
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 872.0,
      "completions/max_terminated_length": 872.0,
      "completions/mean_length": 221.5,
      "completions/mean_terminated_length": 221.5,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.19613875039779358,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.03066243208013475,
      "learning_rate": 7.260799999999999e-06,
      "loss": 0.0189,
      "num_tokens": 85520032.0,
      "reward": 3.3312742710113525,
      "reward_std": 0.5270886421203613,
      "rewards/reward_fn/mean": 3.3312742710113525,
      "rewards/reward_fn/std": 0.5270887017250061,
      "step": 1849
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 983.0,
      "completions/max_terminated_length": 983.0,
      "completions/mean_length": 292.875,
      "completions/mean_terminated_length": 292.875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.19624482868356846,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.1875,
      "kl": 0.02144060772843659,
      "learning_rate": 7.260399999999999e-06,
      "loss": 0.0602,
      "num_tokens": 85556412.0,
      "reward": 3.9658844470977783,
      "reward_std": 0.19298657774925232,
      "rewards/reward_fn/mean": 3.9658844470977783,
      "rewards/reward_fn/std": 0.19298657774925232,
      "step": 1850
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 564.0,
      "completions/max_terminated_length": 564.0,
      "completions/mean_length": 161.28125,
      "completions/mean_terminated_length": 161.28125,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.19635090696934338,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.021163585828617215,
      "learning_rate": 7.259999999999999e-06,
      "loss": -0.0845,
      "num_tokens": 85610405.0,
      "reward": 2.866489887237549,
      "reward_std": 0.5268675684928894,
      "rewards/reward_fn/mean": 2.866489887237549,
      "rewards/reward_fn/std": 0.5268676280975342,
      "step": 1851
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1304.0,
      "completions/max_terminated_length": 1304.0,
      "completions/mean_length": 469.71875,
      "completions/mean_terminated_length": 469.71875,
      "completions/min_length": 233.0,
      "completions/min_terminated_length": 233.0,
      "epoch": 0.1964569852551183,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.15625,
      "kl": 0.017452375264838338,
      "learning_rate": 7.2596e-06,
      "loss": 0.0485,
      "num_tokens": 85657788.0,
      "reward": 3.1726508140563965,
      "reward_std": 0.7422636151313782,
      "rewards/reward_fn/mean": 3.1726508140563965,
      "rewards/reward_fn/std": 0.7422636151313782,
      "step": 1852
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1580.0,
      "completions/max_terminated_length": 1580.0,
      "completions/mean_length": 435.03125,
      "completions/mean_terminated_length": 435.03125,
      "completions/min_length": 200.0,
      "completions/min_terminated_length": 200.0,
      "epoch": 0.19656306354089317,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.023819874972105026,
      "learning_rate": 7.2592e-06,
      "loss": -0.0031,
      "num_tokens": 85716285.0,
      "reward": 3.243497848510742,
      "reward_std": 0.48213231563568115,
      "rewards/reward_fn/mean": 3.243497848510742,
      "rewards/reward_fn/std": 0.48213231563568115,
      "step": 1853
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1349.0,
      "completions/max_terminated_length": 1349.0,
      "completions/mean_length": 244.375,
      "completions/mean_terminated_length": 244.375,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.1966691418266681,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0966796875,
      "kl": 0.02474185894243419,
      "learning_rate": 7.2588e-06,
      "loss": 0.001,
      "num_tokens": 85761929.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1854
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1524.0,
      "completions/max_terminated_length": 1524.0,
      "completions/mean_length": 437.03125,
      "completions/mean_terminated_length": 437.03125,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.19677522011244297,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.024578659562394023,
      "learning_rate": 7.2584e-06,
      "loss": -0.0169,
      "num_tokens": 85827050.0,
      "reward": 3.555436134338379,
      "reward_std": 0.7116384506225586,
      "rewards/reward_fn/mean": 3.555436134338379,
      "rewards/reward_fn/std": 0.7116385102272034,
      "step": 1855
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 849.0,
      "completions/max_terminated_length": 849.0,
      "completions/mean_length": 308.8125,
      "completions/mean_terminated_length": 308.8125,
      "completions/min_length": 224.0,
      "completions/min_terminated_length": 224.0,
      "epoch": 0.19688129839821789,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.02469022199511528,
      "learning_rate": 7.258e-06,
      "loss": 0.0686,
      "num_tokens": 85877028.0,
      "reward": 2.7643117904663086,
      "reward_std": 0.04094107821583748,
      "rewards/reward_fn/mean": 2.7643117904663086,
      "rewards/reward_fn/std": 0.0409410260617733,
      "step": 1856
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 950.0,
      "completions/max_terminated_length": 950.0,
      "completions/mean_length": 129.3125,
      "completions/mean_terminated_length": 129.3125,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.1969873766839928,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.115234375,
      "kl": 0.02429241011850536,
      "learning_rate": 7.2576e-06,
      "loss": 0.001,
      "num_tokens": 85896526.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1857
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 809.0,
      "completions/max_terminated_length": 809.0,
      "completions/mean_length": 231.03125,
      "completions/mean_terminated_length": 231.03125,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.19709345496976768,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08740234375,
      "kl": 0.02231363148894161,
      "learning_rate": 7.2572e-06,
      "loss": 0.0009,
      "num_tokens": 85946607.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1858
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1097.0,
      "completions/max_terminated_length": 1097.0,
      "completions/mean_length": 171.71875,
      "completions/mean_terminated_length": 171.71875,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.1971995332555426,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 4.34375,
      "kl": 0.02453322766814381,
      "learning_rate": 7.2568e-06,
      "loss": 0.2765,
      "num_tokens": 85989382.0,
      "reward": 3.923966646194458,
      "reward_std": 0.2992479205131531,
      "rewards/reward_fn/mean": 3.923966646194458,
      "rewards/reward_fn/std": 0.2992479205131531,
      "step": 1859
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 457.0,
      "completions/max_terminated_length": 457.0,
      "completions/mean_length": 283.9375,
      "completions/mean_terminated_length": 283.9375,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.19730561154131748,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.025952878408133984,
      "learning_rate": 7.2564e-06,
      "loss": 0.0263,
      "num_tokens": 86037284.0,
      "reward": 3.002805233001709,
      "reward_std": 0.48838910460472107,
      "rewards/reward_fn/mean": 3.002805233001709,
      "rewards/reward_fn/std": 0.4883890450000763,
      "step": 1860
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 683.0,
      "completions/max_terminated_length": 683.0,
      "completions/mean_length": 319.28125,
      "completions/mean_terminated_length": 319.28125,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.1974116898270924,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.02484931843355298,
      "learning_rate": 7.256e-06,
      "loss": 0.0074,
      "num_tokens": 86085517.0,
      "reward": 3.792180061340332,
      "reward_std": 0.5296205878257751,
      "rewards/reward_fn/mean": 3.792180061340332,
      "rewards/reward_fn/std": 0.5296205878257751,
      "step": 1861
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1432.0,
      "completions/mean_length": 391.53125,
      "completions/mean_terminated_length": 338.0967712402344,
      "completions/min_length": 153.0,
      "completions/min_terminated_length": 153.0,
      "epoch": 0.1975177681128673,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.0625,
      "kl": 0.023601802764460444,
      "learning_rate": 7.2556e-06,
      "loss": 0.3086,
      "num_tokens": 86129406.0,
      "reward": 3.803504228591919,
      "reward_std": 0.8031951189041138,
      "rewards/reward_fn/mean": 3.803504228591919,
      "rewards/reward_fn/std": 0.8031951785087585,
      "step": 1862
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 565.0,
      "completions/max_terminated_length": 565.0,
      "completions/mean_length": 215.875,
      "completions/mean_terminated_length": 215.875,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.1976238463986422,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12060546875,
      "kl": 0.028308047214522958,
      "learning_rate": 7.2552e-06,
      "loss": 0.0011,
      "num_tokens": 86176090.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1863
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1234.0,
      "completions/max_terminated_length": 1234.0,
      "completions/mean_length": 425.875,
      "completions/mean_terminated_length": 425.875,
      "completions/min_length": 213.0,
      "completions/min_terminated_length": 213.0,
      "epoch": 0.1977299246844171,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.022070118226110935,
      "learning_rate": 7.2548e-06,
      "loss": 0.0846,
      "num_tokens": 86221430.0,
      "reward": 3.93414306640625,
      "reward_std": 0.25952455401420593,
      "rewards/reward_fn/mean": 3.93414306640625,
      "rewards/reward_fn/std": 0.25952455401420593,
      "step": 1864
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1249.0,
      "completions/max_terminated_length": 1249.0,
      "completions/mean_length": 464.375,
      "completions/mean_terminated_length": 464.375,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.197836002970192,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.026702645933255553,
      "learning_rate": 7.2544e-06,
      "loss": 0.0719,
      "num_tokens": 86280162.0,
      "reward": 3.4960038661956787,
      "reward_std": 0.583372175693512,
      "rewards/reward_fn/mean": 3.4960038661956787,
      "rewards/reward_fn/std": 0.583372175693512,
      "step": 1865
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 789.0,
      "completions/max_terminated_length": 789.0,
      "completions/mean_length": 268.34375,
      "completions/mean_terminated_length": 268.34375,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.1979420812559669,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7421875,
      "kl": 0.03491222928278148,
      "learning_rate": 7.2539999999999995e-06,
      "loss": -0.0919,
      "num_tokens": 86320909.0,
      "reward": 3.5736351013183594,
      "reward_std": 0.4795069098472595,
      "rewards/reward_fn/mean": 3.5736351013183594,
      "rewards/reward_fn/std": 0.4795069098472595,
      "step": 1866
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 832.0,
      "completions/max_terminated_length": 832.0,
      "completions/mean_length": 301.21875,
      "completions/mean_terminated_length": 301.21875,
      "completions/min_length": 207.0,
      "completions/min_terminated_length": 207.0,
      "epoch": 0.1980481595417418,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.023877075407654047,
      "learning_rate": 7.2535999999999995e-06,
      "loss": -0.022,
      "num_tokens": 86362292.0,
      "reward": 3.648834228515625,
      "reward_std": 0.529570996761322,
      "rewards/reward_fn/mean": 3.648834228515625,
      "rewards/reward_fn/std": 0.5295709371566772,
      "step": 1867
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1631.0,
      "completions/max_terminated_length": 1631.0,
      "completions/mean_length": 284.46875,
      "completions/mean_terminated_length": 284.46875,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.1981542378275167,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.03326743561774492,
      "learning_rate": 7.2531999999999994e-06,
      "loss": 0.0016,
      "num_tokens": 86419203.0,
      "reward": 2.758133888244629,
      "reward_std": 0.042066995054483414,
      "rewards/reward_fn/mean": 2.758133888244629,
      "rewards/reward_fn/std": 0.04206700250506401,
      "step": 1868
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 645.0,
      "completions/max_terminated_length": 645.0,
      "completions/mean_length": 166.84375,
      "completions/mean_terminated_length": 166.84375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.19826031611329162,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1259765625,
      "kl": 0.023756607668474317,
      "learning_rate": 7.252799999999999e-06,
      "loss": 0.001,
      "num_tokens": 86455902.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1869
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 551.0,
      "completions/max_terminated_length": 551.0,
      "completions/mean_length": 290.03125,
      "completions/mean_terminated_length": 290.03125,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.1983663943990665,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.02618178352713585,
      "learning_rate": 7.252399999999999e-06,
      "loss": 0.0031,
      "num_tokens": 86495359.0,
      "reward": 2.5693161487579346,
      "reward_std": 0.526289165019989,
      "rewards/reward_fn/mean": 2.5693161487579346,
      "rewards/reward_fn/std": 0.526289165019989,
      "step": 1870
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1406.0,
      "completions/max_terminated_length": 1406.0,
      "completions/mean_length": 240.4375,
      "completions/mean_terminated_length": 240.4375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.19847247268484142,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9296875,
      "kl": 0.02834569150581956,
      "learning_rate": 7.251999999999999e-06,
      "loss": -0.0177,
      "num_tokens": 86530893.0,
      "reward": 3.391087055206299,
      "reward_std": 0.46350401639938354,
      "rewards/reward_fn/mean": 3.391087055206299,
      "rewards/reward_fn/std": 0.46350395679473877,
      "step": 1871
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 791.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 240.71875,
      "completions/mean_terminated_length": 240.71875,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.1985785509706163,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09228515625,
      "kl": 0.024594660149887204,
      "learning_rate": 7.251599999999999e-06,
      "loss": 0.001,
      "num_tokens": 86558980.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1872
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1009.0,
      "completions/max_terminated_length": 1009.0,
      "completions/mean_length": 278.96875,
      "completions/mean_terminated_length": 278.96875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.19868462925639122,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08544921875,
      "kl": 0.02399196708574891,
      "learning_rate": 7.251199999999999e-06,
      "loss": 0.001,
      "num_tokens": 86602883.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1873
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 518.0,
      "completions/max_terminated_length": 518.0,
      "completions/mean_length": 296.53125,
      "completions/mean_terminated_length": 296.53125,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.19879070754216613,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.029965325025841594,
      "learning_rate": 7.250799999999999e-06,
      "loss": 0.0653,
      "num_tokens": 86649364.0,
      "reward": 3.2196264266967773,
      "reward_std": 0.19695112109184265,
      "rewards/reward_fn/mean": 3.2196264266967773,
      "rewards/reward_fn/std": 0.19695109128952026,
      "step": 1874
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1055.0,
      "completions/max_terminated_length": 1055.0,
      "completions/mean_length": 279.03125,
      "completions/mean_terminated_length": 279.03125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.19889678582794101,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.015625,
      "kl": 0.02199955377727747,
      "learning_rate": 7.250399999999999e-06,
      "loss": -0.065,
      "num_tokens": 86696021.0,
      "reward": 2.7779619693756104,
      "reward_std": 0.1980944573879242,
      "rewards/reward_fn/mean": 2.7779619693756104,
      "rewards/reward_fn/std": 0.19809450209140778,
      "step": 1875
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 878.0,
      "completions/mean_length": 601.0,
      "completions/mean_terminated_length": 554.3225708007812,
      "completions/min_length": 334.0,
      "completions/min_terminated_length": 334.0,
      "epoch": 0.19900286411371593,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.026174088707193732,
      "learning_rate": 7.25e-06,
      "loss": 0.1704,
      "num_tokens": 86767861.0,
      "reward": 2.664578914642334,
      "reward_std": 0.6315154433250427,
      "rewards/reward_fn/mean": 2.664578914642334,
      "rewards/reward_fn/std": 0.6315154433250427,
      "step": 1876
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 292.0,
      "completions/max_terminated_length": 292.0,
      "completions/mean_length": 190.21875,
      "completions/mean_terminated_length": 190.21875,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.1991089423994908,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.02615090156905353,
      "learning_rate": 7.2496e-06,
      "loss": 0.001,
      "num_tokens": 86796092.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1877
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 410.0,
      "completions/max_terminated_length": 410.0,
      "completions/mean_length": 94.09375,
      "completions/mean_terminated_length": 94.09375,
      "completions/min_length": 57.0,
      "completions/min_terminated_length": 57.0,
      "epoch": 0.19921502068526573,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10791015625,
      "kl": 0.017111393972299993,
      "learning_rate": 7.2492e-06,
      "loss": 0.0007,
      "num_tokens": 86830815.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1878
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 822.0,
      "completions/max_terminated_length": 822.0,
      "completions/mean_length": 305.34375,
      "completions/mean_terminated_length": 305.34375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.19932109897104064,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.024205820402130485,
      "learning_rate": 7.2488e-06,
      "loss": 0.002,
      "num_tokens": 86879946.0,
      "reward": 3.9707565307617188,
      "reward_std": 0.165426567196846,
      "rewards/reward_fn/mean": 3.9707565307617188,
      "rewards/reward_fn/std": 0.16542655229568481,
      "step": 1879
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1539.0,
      "completions/max_terminated_length": 1539.0,
      "completions/mean_length": 450.59375,
      "completions/mean_terminated_length": 450.59375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.19942717725681552,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.021435604197904468,
      "learning_rate": 7.2484e-06,
      "loss": 0.0263,
      "num_tokens": 86929725.0,
      "reward": 3.7882189750671387,
      "reward_std": 0.4483034312725067,
      "rewards/reward_fn/mean": 3.7882189750671387,
      "rewards/reward_fn/std": 0.4483034312725067,
      "step": 1880
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.0,
      "completions/max_terminated_length": 486.0,
      "completions/mean_length": 262.28125,
      "completions/mean_terminated_length": 262.28125,
      "completions/min_length": 142.0,
      "completions/min_terminated_length": 142.0,
      "epoch": 0.19953325554259044,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.023225291399285197,
      "learning_rate": 7.248e-06,
      "loss": 0.0906,
      "num_tokens": 86988614.0,
      "reward": 3.082364559173584,
      "reward_std": 0.5728388428688049,
      "rewards/reward_fn/mean": 3.082364559173584,
      "rewards/reward_fn/std": 0.5728388428688049,
      "step": 1881
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1385.0,
      "completions/max_terminated_length": 1385.0,
      "completions/mean_length": 569.875,
      "completions/mean_terminated_length": 569.875,
      "completions/min_length": 367.0,
      "completions/min_terminated_length": 367.0,
      "epoch": 0.19963933382836532,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.265625,
      "kl": 0.021053237840533257,
      "learning_rate": 7.2476e-06,
      "loss": 0.1207,
      "num_tokens": 87042786.0,
      "reward": 2.95101261138916,
      "reward_std": 0.061616383492946625,
      "rewards/reward_fn/mean": 2.95101261138916,
      "rewards/reward_fn/std": 0.061616357415914536,
      "step": 1882
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1802.0,
      "completions/mean_length": 692.28125,
      "completions/mean_terminated_length": 648.54833984375,
      "completions/min_length": 214.0,
      "completions/min_terminated_length": 214.0,
      "epoch": 0.19974541211414024,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.234375,
      "kl": 0.014040675945580006,
      "learning_rate": 7.2472e-06,
      "loss": 0.2063,
      "num_tokens": 87110667.0,
      "reward": 3.5004072189331055,
      "reward_std": 1.0367085933685303,
      "rewards/reward_fn/mean": 3.5004072189331055,
      "rewards/reward_fn/std": 1.0367085933685303,
      "step": 1883
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 732.0,
      "completions/max_terminated_length": 732.0,
      "completions/mean_length": 233.75,
      "completions/mean_terminated_length": 233.75,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.19985149039991515,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9453125,
      "kl": 0.03067116648890078,
      "learning_rate": 7.2468e-06,
      "loss": 0.0167,
      "num_tokens": 87171843.0,
      "reward": 3.351804733276367,
      "reward_std": 0.448964923620224,
      "rewards/reward_fn/mean": 3.351804733276367,
      "rewards/reward_fn/std": 0.448964923620224,
      "step": 1884
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1385.0,
      "completions/mean_length": 567.3125,
      "completions/mean_terminated_length": 519.5484008789062,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.19995756868569003,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.0241457661613822,
      "learning_rate": 7.2464e-06,
      "loss": 0.0926,
      "num_tokens": 87223469.0,
      "reward": 2.813939094543457,
      "reward_std": 0.8173084855079651,
      "rewards/reward_fn/mean": 2.813939094543457,
      "rewards/reward_fn/std": 0.8173085451126099,
      "step": 1885
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1567.0,
      "completions/max_terminated_length": 1567.0,
      "completions/mean_length": 442.90625,
      "completions/mean_terminated_length": 442.90625,
      "completions/min_length": 219.0,
      "completions/min_terminated_length": 219.0,
      "epoch": 0.20006364697146495,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.024024329613894224,
      "learning_rate": 7.246e-06,
      "loss": 0.2072,
      "num_tokens": 87270762.0,
      "reward": 2.7583117485046387,
      "reward_std": 0.26737165451049805,
      "rewards/reward_fn/mean": 2.7583117485046387,
      "rewards/reward_fn/std": 0.26737165451049805,
      "step": 1886
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1191.0,
      "completions/max_terminated_length": 1191.0,
      "completions/mean_length": 361.5625,
      "completions/mean_terminated_length": 361.5625,
      "completions/min_length": 37.0,
      "completions/min_terminated_length": 37.0,
      "epoch": 0.20016972525723983,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.026753748068585992,
      "learning_rate": 7.245599999999999e-06,
      "loss": -0.1456,
      "num_tokens": 87316988.0,
      "reward": 2.71528959274292,
      "reward_std": 0.49664467573165894,
      "rewards/reward_fn/mean": 2.71528959274292,
      "rewards/reward_fn/std": 0.49664464592933655,
      "step": 1887
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 334.0,
      "completions/max_terminated_length": 334.0,
      "completions/mean_length": 196.3125,
      "completions/mean_terminated_length": 196.3125,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.20027580354301475,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1162109375,
      "kl": 0.02518186066299677,
      "learning_rate": 7.2452e-06,
      "loss": 0.001,
      "num_tokens": 87361126.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1888
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 482.0,
      "completions/max_terminated_length": 482.0,
      "completions/mean_length": 223.0,
      "completions/mean_terminated_length": 223.0,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.20038188182878966,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.03339630598202348,
      "learning_rate": 7.2448e-06,
      "loss": 0.0036,
      "num_tokens": 87409702.0,
      "reward": 3.3883249759674072,
      "reward_std": 0.5844486355781555,
      "rewards/reward_fn/mean": 3.3883249759674072,
      "rewards/reward_fn/std": 0.5844485759735107,
      "step": 1889
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1150.0,
      "completions/max_terminated_length": 1150.0,
      "completions/mean_length": 362.40625,
      "completions/mean_terminated_length": 362.40625,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.20048796011456455,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.03504353458993137,
      "learning_rate": 7.2444e-06,
      "loss": 0.0972,
      "num_tokens": 87458163.0,
      "reward": 3.851999282836914,
      "reward_std": 0.351296991109848,
      "rewards/reward_fn/mean": 3.851999282836914,
      "rewards/reward_fn/std": 0.35129696130752563,
      "step": 1890
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1037.0,
      "completions/max_terminated_length": 1037.0,
      "completions/mean_length": 273.3125,
      "completions/mean_terminated_length": 273.3125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.20059403840033946,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.028511138632893562,
      "learning_rate": 7.244e-06,
      "loss": 0.0735,
      "num_tokens": 87498813.0,
      "reward": 3.1870431900024414,
      "reward_std": 0.5579171776771545,
      "rewards/reward_fn/mean": 3.1870431900024414,
      "rewards/reward_fn/std": 0.5579171776771545,
      "step": 1891
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1480.0,
      "completions/max_terminated_length": 1480.0,
      "completions/mean_length": 343.09375,
      "completions/mean_terminated_length": 343.09375,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.20070011668611434,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.024244441650807858,
      "learning_rate": 7.2435999999999996e-06,
      "loss": 0.0012,
      "num_tokens": 87523360.0,
      "reward": 3.2999448776245117,
      "reward_std": 0.7095201015472412,
      "rewards/reward_fn/mean": 3.2999448776245117,
      "rewards/reward_fn/std": 0.7095201015472412,
      "step": 1892
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 760.0,
      "completions/max_terminated_length": 760.0,
      "completions/mean_length": 260.5,
      "completions/mean_terminated_length": 260.5,
      "completions/min_length": 164.0,
      "completions/min_terminated_length": 164.0,
      "epoch": 0.20080619497188926,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.027942111948505044,
      "learning_rate": 7.2431999999999995e-06,
      "loss": 0.0428,
      "num_tokens": 87573488.0,
      "reward": 2.9267218112945557,
      "reward_std": 0.04453163594007492,
      "rewards/reward_fn/mean": 2.9267218112945557,
      "rewards/reward_fn/std": 0.04453163221478462,
      "step": 1893
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 461.0,
      "completions/max_terminated_length": 461.0,
      "completions/mean_length": 259.25,
      "completions/mean_terminated_length": 259.25,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.20091227325766414,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.02555936831049621,
      "learning_rate": 7.2427999999999995e-06,
      "loss": 0.0033,
      "num_tokens": 87616728.0,
      "reward": 3.8891286849975586,
      "reward_std": 0.2994978129863739,
      "rewards/reward_fn/mean": 3.8891286849975586,
      "rewards/reward_fn/std": 0.2994977831840515,
      "step": 1894
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 133.0,
      "completions/max_terminated_length": 133.0,
      "completions/mean_length": 87.6875,
      "completions/mean_terminated_length": 87.6875,
      "completions/min_length": 66.0,
      "completions/min_terminated_length": 66.0,
      "epoch": 0.20101835154343906,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1533203125,
      "kl": 0.026342453667894006,
      "learning_rate": 7.2423999999999995e-06,
      "loss": 0.0011,
      "num_tokens": 87654158.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1895
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 767.0,
      "completions/mean_length": 492.625,
      "completions/mean_terminated_length": 442.45159912109375,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.20112442982921397,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.03021831950172782,
      "learning_rate": 7.2419999999999994e-06,
      "loss": 0.2815,
      "num_tokens": 87704802.0,
      "reward": 2.7129340171813965,
      "reward_std": 0.6130638718605042,
      "rewards/reward_fn/mean": 2.7129340171813965,
      "rewards/reward_fn/std": 0.6130638122558594,
      "step": 1896
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 329.0,
      "completions/max_terminated_length": 329.0,
      "completions/mean_length": 184.53125,
      "completions/mean_terminated_length": 184.53125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.20123050811498885,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.03523435001261532,
      "learning_rate": 7.241599999999999e-06,
      "loss": -0.0579,
      "num_tokens": 87740019.0,
      "reward": 2.7257957458496094,
      "reward_std": 0.22360388934612274,
      "rewards/reward_fn/mean": 2.7257957458496094,
      "rewards/reward_fn/std": 0.22360387444496155,
      "step": 1897
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 176.0,
      "completions/max_terminated_length": 176.0,
      "completions/mean_length": 96.75,
      "completions/mean_terminated_length": 96.75,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.20133658640076377,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.150390625,
      "kl": 0.02294772327877581,
      "learning_rate": 7.241199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 87785803.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1898
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 681.0,
      "completions/max_terminated_length": 681.0,
      "completions/mean_length": 138.9375,
      "completions/mean_terminated_length": 138.9375,
      "completions/min_length": 77.0,
      "completions/min_terminated_length": 77.0,
      "epoch": 0.20144266468653865,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.01800387806724757,
      "learning_rate": 7.2408e-06,
      "loss": 0.0354,
      "num_tokens": 87826473.0,
      "reward": 3.935486316680908,
      "reward_std": 0.25387680530548096,
      "rewards/reward_fn/mean": 3.935486316680908,
      "rewards/reward_fn/std": 0.25387680530548096,
      "step": 1899
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1057.0,
      "completions/max_terminated_length": 1057.0,
      "completions/mean_length": 369.71875,
      "completions/mean_terminated_length": 369.71875,
      "completions/min_length": 205.0,
      "completions/min_terminated_length": 205.0,
      "epoch": 0.20154874297231357,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.578125,
      "kl": 0.020978798624128103,
      "learning_rate": 7.2404e-06,
      "loss": -0.0053,
      "num_tokens": 87872256.0,
      "reward": 2.899190664291382,
      "reward_std": 0.29119160771369934,
      "rewards/reward_fn/mean": 2.899190664291382,
      "rewards/reward_fn/std": 0.29119154810905457,
      "step": 1900
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 553.0,
      "completions/max_terminated_length": 553.0,
      "completions/mean_length": 101.96875,
      "completions/mean_terminated_length": 101.96875,
      "completions/min_length": 56.0,
      "completions/min_terminated_length": 56.0,
      "epoch": 0.20165482125808848,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11181640625,
      "kl": 0.02071715716738254,
      "learning_rate": 7.24e-06,
      "loss": 0.0008,
      "num_tokens": 87902847.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1901
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 616.0,
      "completions/max_terminated_length": 616.0,
      "completions/mean_length": 192.15625,
      "completions/mean_terminated_length": 192.15625,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.20176089954386336,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.02114151930436492,
      "learning_rate": 7.2396e-06,
      "loss": 0.0038,
      "num_tokens": 87947396.0,
      "reward": 3.9619932174682617,
      "reward_std": 0.2149982750415802,
      "rewards/reward_fn/mean": 3.9619932174682617,
      "rewards/reward_fn/std": 0.2149982899427414,
      "step": 1902
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 858.0,
      "completions/max_terminated_length": 858.0,
      "completions/mean_length": 135.125,
      "completions/mean_terminated_length": 135.125,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.20186697782963828,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.020640159607864916,
      "learning_rate": 7.2392e-06,
      "loss": 0.1303,
      "num_tokens": 87990408.0,
      "reward": 2.981785774230957,
      "reward_std": 0.03771773725748062,
      "rewards/reward_fn/mean": 2.981785774230957,
      "rewards/reward_fn/std": 0.037717726081609726,
      "step": 1903
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1015.0,
      "completions/max_terminated_length": 1015.0,
      "completions/mean_length": 382.84375,
      "completions/mean_terminated_length": 382.84375,
      "completions/min_length": 258.0,
      "completions/min_terminated_length": 258.0,
      "epoch": 0.20197305611541316,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.022791220573708415,
      "learning_rate": 7.2388e-06,
      "loss": 0.0422,
      "num_tokens": 88035939.0,
      "reward": 3.544314384460449,
      "reward_std": 0.5268944501876831,
      "rewards/reward_fn/mean": 3.544314384460449,
      "rewards/reward_fn/std": 0.5268945097923279,
      "step": 1904
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1388.0,
      "completions/max_terminated_length": 1388.0,
      "completions/mean_length": 274.625,
      "completions/mean_terminated_length": 274.625,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.20207913440118808,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07763671875,
      "kl": 0.021082836901769042,
      "learning_rate": 7.2384e-06,
      "loss": 0.0008,
      "num_tokens": 88080631.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1905
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1928.0,
      "completions/max_terminated_length": 1928.0,
      "completions/mean_length": 536.375,
      "completions/mean_terminated_length": 536.375,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.202185212686963,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.023393918527290225,
      "learning_rate": 7.238e-06,
      "loss": -0.0174,
      "num_tokens": 88133123.0,
      "reward": 2.6614913940429688,
      "reward_std": 0.3483014404773712,
      "rewards/reward_fn/mean": 2.6614913940429688,
      "rewards/reward_fn/std": 0.34830138087272644,
      "step": 1906
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1456.0,
      "completions/mean_length": 763.9375,
      "completions/mean_terminated_length": 722.51611328125,
      "completions/min_length": 391.0,
      "completions/min_terminated_length": 391.0,
      "epoch": 0.20229129097273787,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.016707264934666455,
      "learning_rate": 7.237599999999999e-06,
      "loss": 0.0774,
      "num_tokens": 88201729.0,
      "reward": 2.7706775665283203,
      "reward_std": 0.7481005787849426,
      "rewards/reward_fn/mean": 2.7706775665283203,
      "rewards/reward_fn/std": 0.7481005787849426,
      "step": 1907
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 378.0,
      "completions/max_terminated_length": 378.0,
      "completions/mean_length": 193.75,
      "completions/mean_terminated_length": 193.75,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.2023973692585128,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5625,
      "kl": 0.026929725194349885,
      "learning_rate": 7.237199999999999e-06,
      "loss": 0.0431,
      "num_tokens": 88235385.0,
      "reward": 3.965723991394043,
      "reward_std": 0.19389450550079346,
      "rewards/reward_fn/mean": 3.965723991394043,
      "rewards/reward_fn/std": 0.19389450550079346,
      "step": 1908
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 242.0,
      "completions/max_terminated_length": 242.0,
      "completions/mean_length": 181.1875,
      "completions/mean_terminated_length": 181.1875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.20250344754428767,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.4375,
      "kl": 0.026674387976527214,
      "learning_rate": 7.236799999999999e-06,
      "loss": 0.02,
      "num_tokens": 88278111.0,
      "reward": 3.9655656814575195,
      "reward_std": 0.19478978216648102,
      "rewards/reward_fn/mean": 3.9655656814575195,
      "rewards/reward_fn/std": 0.19478978216648102,
      "step": 1909
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 834.0,
      "completions/max_terminated_length": 834.0,
      "completions/mean_length": 374.9375,
      "completions/mean_terminated_length": 374.9375,
      "completions/min_length": 291.0,
      "completions/min_terminated_length": 291.0,
      "epoch": 0.2026095258300626,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.01570185914169997,
      "learning_rate": 7.236399999999999e-06,
      "loss": 0.0236,
      "num_tokens": 88323005.0,
      "reward": 2.7527647018432617,
      "reward_std": 0.04668011888861656,
      "rewards/reward_fn/mean": 2.7527647018432617,
      "rewards/reward_fn/std": 0.04668007418513298,
      "step": 1910
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 450.0,
      "completions/max_terminated_length": 450.0,
      "completions/mean_length": 85.625,
      "completions/mean_terminated_length": 85.625,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.2027156041158375,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1025390625,
      "kl": 0.01357071875827387,
      "learning_rate": 7.236e-06,
      "loss": 0.0005,
      "num_tokens": 88352881.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1911
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1229.0,
      "completions/max_terminated_length": 1229.0,
      "completions/mean_length": 265.125,
      "completions/mean_terminated_length": 265.125,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.20282168240161239,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.02683391165919602,
      "learning_rate": 7.2356e-06,
      "loss": -0.0249,
      "num_tokens": 88376053.0,
      "reward": 2.970895290374756,
      "reward_std": 0.605861485004425,
      "rewards/reward_fn/mean": 2.970895290374756,
      "rewards/reward_fn/std": 0.605861485004425,
      "step": 1912
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 557.0,
      "completions/max_terminated_length": 557.0,
      "completions/mean_length": 226.9375,
      "completions/mean_terminated_length": 226.9375,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.2029277606873873,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10009765625,
      "kl": 0.018975378945469856,
      "learning_rate": 7.2352e-06,
      "loss": 0.0008,
      "num_tokens": 88404915.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1913
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 336.0,
      "completions/max_terminated_length": 336.0,
      "completions/mean_length": 235.1875,
      "completions/mean_terminated_length": 235.1875,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.20303383897316218,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07763671875,
      "kl": 0.021373262396082282,
      "learning_rate": 7.2348e-06,
      "loss": 0.0009,
      "num_tokens": 88457657.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1914
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 913.0,
      "completions/max_terminated_length": 913.0,
      "completions/mean_length": 377.4375,
      "completions/mean_terminated_length": 377.4375,
      "completions/min_length": 253.0,
      "completions/min_terminated_length": 253.0,
      "epoch": 0.2031399172589371,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.019720564829185605,
      "learning_rate": 7.2344e-06,
      "loss": -0.0058,
      "num_tokens": 88506119.0,
      "reward": 3.7221968173980713,
      "reward_std": 0.7467592358589172,
      "rewards/reward_fn/mean": 3.7221968173980713,
      "rewards/reward_fn/std": 0.7467593550682068,
      "step": 1915
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1589.0,
      "completions/max_terminated_length": 1589.0,
      "completions/mean_length": 450.9375,
      "completions/mean_terminated_length": 450.9375,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.203245995544712,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1875,
      "kl": 0.01790036354213953,
      "learning_rate": 7.234e-06,
      "loss": -0.0531,
      "num_tokens": 88541797.0,
      "reward": 2.7362747192382812,
      "reward_std": 0.4555523097515106,
      "rewards/reward_fn/mean": 2.7362747192382812,
      "rewards/reward_fn/std": 0.4555523693561554,
      "step": 1916
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1013.0,
      "completions/max_terminated_length": 1013.0,
      "completions/mean_length": 329.84375,
      "completions/mean_terminated_length": 329.84375,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.2033520738304869,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3984375,
      "kl": 0.017196921980939806,
      "learning_rate": 7.2336e-06,
      "loss": -0.0422,
      "num_tokens": 88603456.0,
      "reward": 3.38254451751709,
      "reward_std": 0.9729898571968079,
      "rewards/reward_fn/mean": 3.38254451751709,
      "rewards/reward_fn/std": 0.9729898571968079,
      "step": 1917
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 717.0,
      "completions/max_terminated_length": 717.0,
      "completions/mean_length": 220.875,
      "completions/mean_terminated_length": 220.875,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.2034581521162618,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7890625,
      "kl": 0.023815185064449906,
      "learning_rate": 7.2332e-06,
      "loss": -0.014,
      "num_tokens": 88651740.0,
      "reward": 3.157181739807129,
      "reward_std": 0.4949103593826294,
      "rewards/reward_fn/mean": 3.157181739807129,
      "rewards/reward_fn/std": 0.4949103593826294,
      "step": 1918
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 605.0,
      "completions/max_terminated_length": 605.0,
      "completions/mean_length": 202.375,
      "completions/mean_terminated_length": 202.375,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.2035642304020367,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.027365016983821988,
      "learning_rate": 7.2328e-06,
      "loss": 0.0196,
      "num_tokens": 88678088.0,
      "reward": 3.5471441745758057,
      "reward_std": 0.5224708914756775,
      "rewards/reward_fn/mean": 3.5471441745758057,
      "rewards/reward_fn/std": 0.5224708914756775,
      "step": 1919
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 885.0,
      "completions/mean_length": 690.8125,
      "completions/mean_terminated_length": 550.413818359375,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.2036703086878116,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.02398996870033443,
      "learning_rate": 7.2323999999999996e-06,
      "loss": 0.1143,
      "num_tokens": 88753698.0,
      "reward": 1.9489907026290894,
      "reward_std": 0.5881763696670532,
      "rewards/reward_fn/mean": 1.9489907026290894,
      "rewards/reward_fn/std": 0.5881763696670532,
      "step": 1920
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 931.0,
      "completions/max_terminated_length": 931.0,
      "completions/mean_length": 315.375,
      "completions/mean_terminated_length": 315.375,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.2037763869735865,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.024634240893647075,
      "learning_rate": 7.2319999999999995e-06,
      "loss": 0.1392,
      "num_tokens": 88810734.0,
      "reward": 3.686619281768799,
      "reward_std": 0.5119209289550781,
      "rewards/reward_fn/mean": 3.686619281768799,
      "rewards/reward_fn/std": 0.5119208693504333,
      "step": 1921
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1063.0,
      "completions/max_terminated_length": 1063.0,
      "completions/mean_length": 240.15625,
      "completions/mean_terminated_length": 240.15625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.2038824652593614,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.859375,
      "kl": 0.02241891936864704,
      "learning_rate": 7.2315999999999995e-06,
      "loss": 0.0191,
      "num_tokens": 88852499.0,
      "reward": 3.011032819747925,
      "reward_std": 0.3259943425655365,
      "rewards/reward_fn/mean": 3.011032819747925,
      "rewards/reward_fn/std": 0.3259943425655365,
      "step": 1922
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 485.0,
      "completions/max_terminated_length": 485.0,
      "completions/mean_length": 310.5,
      "completions/mean_terminated_length": 310.5,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.20398854354513632,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.022662291070446372,
      "learning_rate": 7.2312e-06,
      "loss": 0.0401,
      "num_tokens": 88901475.0,
      "reward": 3.343940258026123,
      "reward_std": 0.7196161150932312,
      "rewards/reward_fn/mean": 3.343940258026123,
      "rewards/reward_fn/std": 0.7196161150932312,
      "step": 1923
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 704.0,
      "completions/max_terminated_length": 704.0,
      "completions/mean_length": 229.6875,
      "completions/mean_terminated_length": 229.6875,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.2040946218309112,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.734375,
      "kl": 0.027691754046827555,
      "learning_rate": 7.2308e-06,
      "loss": 0.0728,
      "num_tokens": 88939737.0,
      "reward": 3.8904521465301514,
      "reward_std": 0.34605592489242554,
      "rewards/reward_fn/mean": 3.8904521465301514,
      "rewards/reward_fn/std": 0.34605586528778076,
      "step": 1924
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 197.0,
      "completions/max_terminated_length": 197.0,
      "completions/mean_length": 129.96875,
      "completions/mean_terminated_length": 129.96875,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.20420070011668612,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11865234375,
      "kl": 0.022279798751696944,
      "learning_rate": 7.2304e-06,
      "loss": 0.0009,
      "num_tokens": 88987640.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1925
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 517.0,
      "completions/max_terminated_length": 517.0,
      "completions/mean_length": 299.75,
      "completions/mean_terminated_length": 299.75,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.204306778402461,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.640625,
      "kl": 0.026795195881277323,
      "learning_rate": 7.23e-06,
      "loss": 0.0406,
      "num_tokens": 89030320.0,
      "reward": 2.822610378265381,
      "reward_std": 0.061767082661390305,
      "rewards/reward_fn/mean": 2.822610378265381,
      "rewards/reward_fn/std": 0.06176706776022911,
      "step": 1926
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 898.0,
      "completions/max_terminated_length": 898.0,
      "completions/mean_length": 260.1875,
      "completions/mean_terminated_length": 260.1875,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.20441285668823592,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.02193640125915408,
      "learning_rate": 7.229599999999999e-06,
      "loss": 0.0855,
      "num_tokens": 89073910.0,
      "reward": 3.5822935104370117,
      "reward_std": 0.5866038799285889,
      "rewards/reward_fn/mean": 3.5822935104370117,
      "rewards/reward_fn/std": 0.5866038799285889,
      "step": 1927
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1132.0,
      "completions/max_terminated_length": 1132.0,
      "completions/mean_length": 391.15625,
      "completions/mean_terminated_length": 391.15625,
      "completions/min_length": 176.0,
      "completions/min_terminated_length": 176.0,
      "epoch": 0.20451893497401083,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.02066147024743259,
      "learning_rate": 7.229199999999999e-06,
      "loss": 0.0274,
      "num_tokens": 89120123.0,
      "reward": 3.036647319793701,
      "reward_std": 0.44018828868865967,
      "rewards/reward_fn/mean": 3.036647319793701,
      "rewards/reward_fn/std": 0.4401882588863373,
      "step": 1928
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 718.0,
      "completions/max_terminated_length": 718.0,
      "completions/mean_length": 418.71875,
      "completions/mean_terminated_length": 418.71875,
      "completions/min_length": 269.0,
      "completions/min_terminated_length": 269.0,
      "epoch": 0.20462501325978572,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.140625,
      "kl": 0.018091494566760957,
      "learning_rate": 7.228799999999999e-06,
      "loss": 0.0708,
      "num_tokens": 89180338.0,
      "reward": 3.9663846492767334,
      "reward_std": 0.19015701115131378,
      "rewards/reward_fn/mean": 3.9663846492767334,
      "rewards/reward_fn/std": 0.19015701115131378,
      "step": 1929
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 228.0,
      "completions/max_terminated_length": 228.0,
      "completions/mean_length": 166.59375,
      "completions/mean_terminated_length": 166.59375,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.20473109154556063,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09033203125,
      "kl": 0.020806429674848914,
      "learning_rate": 7.228399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 89217669.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1930
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1150.0,
      "completions/max_terminated_length": 1150.0,
      "completions/mean_length": 289.3125,
      "completions/mean_terminated_length": 289.3125,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.2048371698313355,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.02973605995066464,
      "learning_rate": 7.227999999999999e-06,
      "loss": 0.0377,
      "num_tokens": 89254255.0,
      "reward": 2.971668243408203,
      "reward_std": 0.39661845564842224,
      "rewards/reward_fn/mean": 2.971668243408203,
      "rewards/reward_fn/std": 0.39661842584609985,
      "step": 1931
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 134.0,
      "completions/max_terminated_length": 134.0,
      "completions/mean_length": 73.0625,
      "completions/mean_terminated_length": 73.0625,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.20494324811711043,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.123046875,
      "kl": 0.01642139005707577,
      "learning_rate": 7.227599999999999e-06,
      "loss": 0.0007,
      "num_tokens": 89277937.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1932
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 309.0,
      "completions/max_terminated_length": 309.0,
      "completions/mean_length": 182.625,
      "completions/mean_terminated_length": 182.625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.20504932640288534,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10791015625,
      "kl": 0.022830116329714656,
      "learning_rate": 7.227199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 89323109.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1933
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1055.0,
      "completions/max_terminated_length": 1055.0,
      "completions/mean_length": 358.59375,
      "completions/mean_terminated_length": 358.59375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.20515540468866023,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.025236302288249135,
      "learning_rate": 7.226799999999999e-06,
      "loss": 0.0009,
      "num_tokens": 89368024.0,
      "reward": 3.8563036918640137,
      "reward_std": 0.48152342438697815,
      "rewards/reward_fn/mean": 3.8563036918640137,
      "rewards/reward_fn/std": 0.48152339458465576,
      "step": 1934
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 597.0,
      "completions/max_terminated_length": 597.0,
      "completions/mean_length": 113.4375,
      "completions/mean_terminated_length": 113.4375,
      "completions/min_length": 72.0,
      "completions/min_terminated_length": 72.0,
      "epoch": 0.20526148297443514,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.90625,
      "kl": 0.025299014407210052,
      "learning_rate": 7.2264e-06,
      "loss": -0.0658,
      "num_tokens": 89409446.0,
      "reward": 3.0979630947113037,
      "reward_std": 1.1084299087524414,
      "rewards/reward_fn/mean": 3.0979630947113037,
      "rewards/reward_fn/std": 1.1084297895431519,
      "step": 1935
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 647.0,
      "completions/max_terminated_length": 647.0,
      "completions/mean_length": 205.46875,
      "completions/mean_terminated_length": 205.46875,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.20536756126021002,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.022546561784110963,
      "learning_rate": 7.226e-06,
      "loss": 0.0005,
      "num_tokens": 89460885.0,
      "reward": 3.048456907272339,
      "reward_std": 0.3682403266429901,
      "rewards/reward_fn/mean": 3.048456907272339,
      "rewards/reward_fn/std": 0.3682402968406677,
      "step": 1936
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1415.0,
      "completions/max_terminated_length": 1415.0,
      "completions/mean_length": 530.9375,
      "completions/mean_terminated_length": 530.9375,
      "completions/min_length": 290.0,
      "completions/min_terminated_length": 290.0,
      "epoch": 0.20547363954598494,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2578125,
      "kl": 0.021520751295611262,
      "learning_rate": 7.2256e-06,
      "loss": -0.0159,
      "num_tokens": 89514739.0,
      "reward": 3.869535207748413,
      "reward_std": 0.31333673000335693,
      "rewards/reward_fn/mean": 3.869535207748413,
      "rewards/reward_fn/std": 0.31333670020103455,
      "step": 1937
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 342.0,
      "completions/max_terminated_length": 342.0,
      "completions/mean_length": 213.75,
      "completions/mean_terminated_length": 213.75,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.20557971783175985,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0859375,
      "kl": 0.01827068265993148,
      "learning_rate": 7.2252e-06,
      "loss": 0.0007,
      "num_tokens": 89556011.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1938
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 124.0,
      "completions/max_terminated_length": 124.0,
      "completions/mean_length": 70.53125,
      "completions/mean_terminated_length": 70.53125,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.20568579611753474,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 4.8125,
      "kl": 0.02340351662132889,
      "learning_rate": 7.2248e-06,
      "loss": -0.096,
      "num_tokens": 89607260.0,
      "reward": 3.724715232849121,
      "reward_std": 0.4149995446205139,
      "rewards/reward_fn/mean": 3.724715232849121,
      "rewards/reward_fn/std": 0.41499951481819153,
      "step": 1939
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 387.0,
      "completions/max_terminated_length": 387.0,
      "completions/mean_length": 94.125,
      "completions/mean_terminated_length": 94.125,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.20579187440330965,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1220703125,
      "kl": 0.017246187082491815,
      "learning_rate": 7.2244e-06,
      "loss": 0.0007,
      "num_tokens": 89646368.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1940
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 972.0,
      "completions/max_terminated_length": 972.0,
      "completions/mean_length": 359.59375,
      "completions/mean_terminated_length": 359.59375,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.20589795268908453,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.022477731574326754,
      "learning_rate": 7.224e-06,
      "loss": 0.0377,
      "num_tokens": 89695955.0,
      "reward": 3.152523994445801,
      "reward_std": 0.6828972697257996,
      "rewards/reward_fn/mean": 3.152523994445801,
      "rewards/reward_fn/std": 0.6828973293304443,
      "step": 1941
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 915.0,
      "completions/max_terminated_length": 915.0,
      "completions/mean_length": 238.0,
      "completions/mean_terminated_length": 238.0,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.20600403097485945,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.025746502447873354,
      "learning_rate": 7.2236e-06,
      "loss": -0.1531,
      "num_tokens": 89738867.0,
      "reward": 3.314828872680664,
      "reward_std": 0.5770388841629028,
      "rewards/reward_fn/mean": 3.314828872680664,
      "rewards/reward_fn/std": 0.5770388841629028,
      "step": 1942
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 764.0,
      "completions/max_terminated_length": 764.0,
      "completions/mean_length": 340.0625,
      "completions/mean_terminated_length": 340.0625,
      "completions/min_length": 217.0,
      "completions/min_terminated_length": 217.0,
      "epoch": 0.20611010926063436,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.017551672644913197,
      "learning_rate": 7.2232e-06,
      "loss": 0.1222,
      "num_tokens": 89787157.0,
      "reward": 3.962864875793457,
      "reward_std": 0.21006862819194794,
      "rewards/reward_fn/mean": 3.962864875793457,
      "rewards/reward_fn/std": 0.21006861329078674,
      "step": 1943
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1634.0,
      "completions/mean_length": 458.9375,
      "completions/mean_terminated_length": 407.6773986816406,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.20621618754640925,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.018971068551763892,
      "learning_rate": 7.2228e-06,
      "loss": 0.2706,
      "num_tokens": 89837971.0,
      "reward": 3.80379319190979,
      "reward_std": 0.8024195432662964,
      "rewards/reward_fn/mean": 3.80379319190979,
      "rewards/reward_fn/std": 0.8024195432662964,
      "step": 1944
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 769.0,
      "completions/max_terminated_length": 769.0,
      "completions/mean_length": 272.4375,
      "completions/mean_terminated_length": 272.4375,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.20632226583218416,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.026358928764238954,
      "learning_rate": 7.2224e-06,
      "loss": -0.0807,
      "num_tokens": 89877921.0,
      "reward": 3.8525662422180176,
      "reward_std": 0.39788663387298584,
      "rewards/reward_fn/mean": 3.8525662422180176,
      "rewards/reward_fn/std": 0.39788660407066345,
      "step": 1945
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1134.0,
      "completions/max_terminated_length": 1134.0,
      "completions/mean_length": 303.8125,
      "completions/mean_terminated_length": 303.8125,
      "completions/min_length": 162.0,
      "completions/min_terminated_length": 162.0,
      "epoch": 0.20642834411795905,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3828125,
      "kl": 0.02223000884987414,
      "learning_rate": 7.2220000000000005e-06,
      "loss": -0.1545,
      "num_tokens": 89947163.0,
      "reward": 3.1230030059814453,
      "reward_std": 0.41615304350852966,
      "rewards/reward_fn/mean": 3.1230030059814453,
      "rewards/reward_fn/std": 0.4161530137062073,
      "step": 1946
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 889.0,
      "completions/max_terminated_length": 889.0,
      "completions/mean_length": 252.90625,
      "completions/mean_terminated_length": 252.90625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.20653442240373396,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.026710605947300792,
      "learning_rate": 7.2216e-06,
      "loss": 0.0586,
      "num_tokens": 89984600.0,
      "reward": 3.95160174369812,
      "reward_std": 0.1915348619222641,
      "rewards/reward_fn/mean": 3.95160174369812,
      "rewards/reward_fn/std": 0.1915348470211029,
      "step": 1947
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 440.0,
      "completions/max_terminated_length": 440.0,
      "completions/mean_length": 299.71875,
      "completions/mean_terminated_length": 299.71875,
      "completions/min_length": 197.0,
      "completions/min_terminated_length": 197.0,
      "epoch": 0.20664050068950887,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5703125,
      "kl": 0.02253810246475041,
      "learning_rate": 7.2211999999999996e-06,
      "loss": 0.0526,
      "num_tokens": 90031375.0,
      "reward": 3.298675537109375,
      "reward_std": 0.590697169303894,
      "rewards/reward_fn/mean": 3.298675537109375,
      "rewards/reward_fn/std": 0.590697169303894,
      "step": 1948
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 946.0,
      "completions/max_terminated_length": 946.0,
      "completions/mean_length": 257.4375,
      "completions/mean_terminated_length": 257.4375,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.20674657897528376,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.02902632998302579,
      "learning_rate": 7.2207999999999995e-06,
      "loss": 0.0865,
      "num_tokens": 90083869.0,
      "reward": 3.1455907821655273,
      "reward_std": 0.08136258274316788,
      "rewards/reward_fn/mean": 3.1455907821655273,
      "rewards/reward_fn/std": 0.08136259019374847,
      "step": 1949
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 755.0,
      "completions/max_terminated_length": 755.0,
      "completions/mean_length": 172.09375,
      "completions/mean_terminated_length": 172.09375,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.20685265726105867,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07470703125,
      "kl": 0.018278813688084483,
      "learning_rate": 7.2203999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 90104640.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1950
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1162.0,
      "completions/max_terminated_length": 1162.0,
      "completions/mean_length": 359.125,
      "completions/mean_terminated_length": 359.125,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.20695873554683356,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02860428229905665,
      "learning_rate": 7.2199999999999995e-06,
      "loss": 0.048,
      "num_tokens": 90178148.0,
      "reward": 3.1251840591430664,
      "reward_std": 0.5875481367111206,
      "rewards/reward_fn/mean": 3.1251840591430664,
      "rewards/reward_fn/std": 0.5875481367111206,
      "step": 1951
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.0,
      "completions/max_terminated_length": 338.0,
      "completions/mean_length": 159.5625,
      "completions/mean_terminated_length": 159.5625,
      "completions/min_length": 106.0,
      "completions/min_terminated_length": 106.0,
      "epoch": 0.20706481383260847,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.025235574459657073,
      "learning_rate": 7.2195999999999995e-06,
      "loss": -0.0463,
      "num_tokens": 90223062.0,
      "reward": 3.6346235275268555,
      "reward_std": 0.5507158041000366,
      "rewards/reward_fn/mean": 3.6346235275268555,
      "rewards/reward_fn/std": 0.5507158041000366,
      "step": 1952
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 759.0,
      "completions/max_terminated_length": 759.0,
      "completions/mean_length": 256.8125,
      "completions/mean_terminated_length": 256.8125,
      "completions/min_length": 169.0,
      "completions/min_terminated_length": 169.0,
      "epoch": 0.20717089211838335,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07958984375,
      "kl": 0.020091851707547903,
      "learning_rate": 7.219199999999999e-06,
      "loss": 0.0008,
      "num_tokens": 90267120.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1953
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 217.0,
      "completions/max_terminated_length": 217.0,
      "completions/mean_length": 177.78125,
      "completions/mean_terminated_length": 177.78125,
      "completions/min_length": 111.0,
      "completions/min_terminated_length": 111.0,
      "epoch": 0.20727697040415827,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.16015625,
      "kl": 0.02827597805298865,
      "learning_rate": 7.218799999999999e-06,
      "loss": 0.0011,
      "num_tokens": 90325865.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1954
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1240.0,
      "completions/max_terminated_length": 1240.0,
      "completions/mean_length": 378.53125,
      "completions/mean_terminated_length": 378.53125,
      "completions/min_length": 240.0,
      "completions/min_terminated_length": 240.0,
      "epoch": 0.20738304868993318,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3515625,
      "kl": 0.02135020843707025,
      "learning_rate": 7.218399999999999e-06,
      "loss": 0.1212,
      "num_tokens": 90372186.0,
      "reward": 3.716845750808716,
      "reward_std": 0.5746200084686279,
      "rewards/reward_fn/mean": 3.716845750808716,
      "rewards/reward_fn/std": 0.5746200084686279,
      "step": 1955
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 989.0,
      "completions/max_terminated_length": 989.0,
      "completions/mean_length": 290.375,
      "completions/mean_terminated_length": 290.375,
      "completions/min_length": 191.0,
      "completions/min_terminated_length": 191.0,
      "epoch": 0.20748912697570807,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.022205424727872014,
      "learning_rate": 7.217999999999999e-06,
      "loss": 0.0699,
      "num_tokens": 90414950.0,
      "reward": 3.3851747512817383,
      "reward_std": 0.5178138017654419,
      "rewards/reward_fn/mean": 3.3851747512817383,
      "rewards/reward_fn/std": 0.5178138613700867,
      "step": 1956
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 616.0,
      "completions/max_terminated_length": 616.0,
      "completions/mean_length": 263.96875,
      "completions/mean_terminated_length": 263.96875,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.20759520526148298,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8203125,
      "kl": 0.024157197680324316,
      "learning_rate": 7.217599999999999e-06,
      "loss": 0.0051,
      "num_tokens": 90440677.0,
      "reward": 3.5730175971984863,
      "reward_std": 0.606890082359314,
      "rewards/reward_fn/mean": 3.5730175971984863,
      "rewards/reward_fn/std": 0.6068900227546692,
      "step": 1957
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 222.0,
      "completions/max_terminated_length": 222.0,
      "completions/mean_length": 158.15625,
      "completions/mean_terminated_length": 158.15625,
      "completions/min_length": 92.0,
      "completions/min_terminated_length": 92.0,
      "epoch": 0.20770128354725786,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1318359375,
      "kl": 0.028684925520792603,
      "learning_rate": 7.2172e-06,
      "loss": 0.0011,
      "num_tokens": 90494474.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1958
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1158.0,
      "completions/max_terminated_length": 1158.0,
      "completions/mean_length": 412.21875,
      "completions/mean_terminated_length": 412.21875,
      "completions/min_length": 228.0,
      "completions/min_terminated_length": 228.0,
      "epoch": 0.20780736183303278,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.01932144328020513,
      "learning_rate": 7.2168e-06,
      "loss": 0.0304,
      "num_tokens": 90545521.0,
      "reward": 3.859956741333008,
      "reward_std": 0.5511422157287598,
      "rewards/reward_fn/mean": 3.859956741333008,
      "rewards/reward_fn/std": 0.5511422157287598,
      "step": 1959
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 958.0,
      "completions/max_terminated_length": 958.0,
      "completions/mean_length": 437.4375,
      "completions/mean_terminated_length": 437.4375,
      "completions/min_length": 242.0,
      "completions/min_terminated_length": 242.0,
      "epoch": 0.2079134401188077,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.01740968832746148,
      "learning_rate": 7.2164e-06,
      "loss": -0.0076,
      "num_tokens": 90596639.0,
      "reward": 2.462031841278076,
      "reward_std": 0.5236942172050476,
      "rewards/reward_fn/mean": 2.462031841278076,
      "rewards/reward_fn/std": 0.5236942172050476,
      "step": 1960
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 766.0,
      "completions/max_terminated_length": 766.0,
      "completions/mean_length": 245.875,
      "completions/mean_terminated_length": 245.875,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.20801951840458258,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.328125,
      "kl": 0.021013896446675062,
      "learning_rate": 7.216e-06,
      "loss": 0.2187,
      "num_tokens": 90631643.0,
      "reward": 3.968956470489502,
      "reward_std": 0.17560802400112152,
      "rewards/reward_fn/mean": 3.968956470489502,
      "rewards/reward_fn/std": 0.17560799419879913,
      "step": 1961
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 372.0,
      "completions/max_terminated_length": 372.0,
      "completions/mean_length": 127.25,
      "completions/mean_terminated_length": 127.25,
      "completions/min_length": 81.0,
      "completions/min_terminated_length": 81.0,
      "epoch": 0.2081255966903575,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1240234375,
      "kl": 0.02872321312315762,
      "learning_rate": 7.2156e-06,
      "loss": 0.0011,
      "num_tokens": 90663715.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1962
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 454.0,
      "completions/max_terminated_length": 454.0,
      "completions/mean_length": 162.03125,
      "completions/mean_terminated_length": 162.03125,
      "completions/min_length": 123.0,
      "completions/min_terminated_length": 123.0,
      "epoch": 0.20823167497613237,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.890625,
      "kl": 0.022123705130070448,
      "learning_rate": 7.2152e-06,
      "loss": 0.0121,
      "num_tokens": 90700004.0,
      "reward": 3.959567070007324,
      "reward_std": 0.22872252762317657,
      "rewards/reward_fn/mean": 3.959567070007324,
      "rewards/reward_fn/std": 0.22872251272201538,
      "step": 1963
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1812.0,
      "completions/max_terminated_length": 1812.0,
      "completions/mean_length": 307.46875,
      "completions/mean_terminated_length": 307.46875,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.2083377532619073,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.029133395524695516,
      "learning_rate": 7.2148e-06,
      "loss": 0.1083,
      "num_tokens": 90749555.0,
      "reward": 3.5827994346618652,
      "reward_std": 0.5858627557754517,
      "rewards/reward_fn/mean": 3.5827994346618652,
      "rewards/reward_fn/std": 0.5858627557754517,
      "step": 1964
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1016.0,
      "completions/max_terminated_length": 1016.0,
      "completions/mean_length": 389.84375,
      "completions/mean_terminated_length": 389.84375,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.2084438315476822,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1484375,
      "kl": 0.018395462189801037,
      "learning_rate": 7.2144e-06,
      "loss": 0.0121,
      "num_tokens": 90804846.0,
      "reward": 2.98877215385437,
      "reward_std": 0.03333742171525955,
      "rewards/reward_fn/mean": 2.98877215385437,
      "rewards/reward_fn/std": 0.033337417989969254,
      "step": 1965
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 714.0,
      "completions/max_terminated_length": 714.0,
      "completions/mean_length": 160.375,
      "completions/mean_terminated_length": 160.375,
      "completions/min_length": 73.0,
      "completions/min_terminated_length": 73.0,
      "epoch": 0.2085499098334571,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.15234375,
      "kl": 0.01872719032689929,
      "learning_rate": 7.214e-06,
      "loss": 0.0007,
      "num_tokens": 90850298.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1966
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 206.0,
      "completions/max_terminated_length": 206.0,
      "completions/mean_length": 73.65625,
      "completions/mean_terminated_length": 73.65625,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.208655988119232,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11767578125,
      "kl": 0.015950615401379764,
      "learning_rate": 7.213599999999999e-06,
      "loss": 0.0006,
      "num_tokens": 90886063.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1967
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 653.0,
      "completions/max_terminated_length": 653.0,
      "completions/mean_length": 285.78125,
      "completions/mean_terminated_length": 285.78125,
      "completions/min_length": 171.0,
      "completions/min_terminated_length": 171.0,
      "epoch": 0.20876206640500689,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1171875,
      "kl": 0.020902880001813173,
      "learning_rate": 7.213199999999999e-06,
      "loss": 0.0817,
      "num_tokens": 90931080.0,
      "reward": 3.021613597869873,
      "reward_std": 0.18543782830238342,
      "rewards/reward_fn/mean": 3.021613597869873,
      "rewards/reward_fn/std": 0.18543781340122223,
      "step": 1968
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1107.0,
      "completions/max_terminated_length": 1107.0,
      "completions/mean_length": 282.34375,
      "completions/mean_terminated_length": 282.34375,
      "completions/min_length": 204.0,
      "completions/min_terminated_length": 204.0,
      "epoch": 0.2088681446907818,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.515625,
      "kl": 0.01968630903866142,
      "learning_rate": 7.212799999999999e-06,
      "loss": 0.0353,
      "num_tokens": 90989203.0,
      "reward": 2.8288135528564453,
      "reward_std": 0.04306629300117493,
      "rewards/reward_fn/mean": 2.8288135528564453,
      "rewards/reward_fn/std": 0.04306626692414284,
      "step": 1969
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1025.0,
      "completions/max_terminated_length": 1025.0,
      "completions/mean_length": 227.25,
      "completions/mean_terminated_length": 227.25,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.2089742229765567,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6875,
      "kl": 0.018828594125807285,
      "learning_rate": 7.2124e-06,
      "loss": 0.0222,
      "num_tokens": 91047163.0,
      "reward": 3.745974063873291,
      "reward_std": 0.4881126582622528,
      "rewards/reward_fn/mean": 3.745974063873291,
      "rewards/reward_fn/std": 0.4881126284599304,
      "step": 1970
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1225.0,
      "completions/max_terminated_length": 1225.0,
      "completions/mean_length": 414.4375,
      "completions/mean_terminated_length": 414.4375,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.2090803012623316,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5,
      "kl": 0.021128013264387846,
      "learning_rate": 7.212e-06,
      "loss": 0.0099,
      "num_tokens": 91107625.0,
      "reward": 3.6306121349334717,
      "reward_std": 0.7473952174186707,
      "rewards/reward_fn/mean": 3.6306121349334717,
      "rewards/reward_fn/std": 0.7473952770233154,
      "step": 1971
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1020.0,
      "completions/max_terminated_length": 1020.0,
      "completions/mean_length": 283.71875,
      "completions/mean_terminated_length": 283.71875,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.2091863795481065,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0654296875,
      "kl": 0.014698807732202113,
      "learning_rate": 7.2116e-06,
      "loss": 0.0006,
      "num_tokens": 91172608.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1972
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 832.0,
      "completions/max_terminated_length": 832.0,
      "completions/mean_length": 321.625,
      "completions/mean_terminated_length": 321.625,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.2092924578338814,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.03125,
      "kl": 0.021146057173609734,
      "learning_rate": 7.2112e-06,
      "loss": -0.0184,
      "num_tokens": 91230484.0,
      "reward": 3.395284414291382,
      "reward_std": 0.5098738074302673,
      "rewards/reward_fn/mean": 3.395284414291382,
      "rewards/reward_fn/std": 0.5098738074302673,
      "step": 1973
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 532.0,
      "completions/max_terminated_length": 532.0,
      "completions/mean_length": 100.03125,
      "completions/mean_terminated_length": 100.03125,
      "completions/min_length": 67.0,
      "completions/min_terminated_length": 67.0,
      "epoch": 0.2093985361196563,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1376953125,
      "kl": 0.0216621074359864,
      "learning_rate": 7.2108e-06,
      "loss": 0.0009,
      "num_tokens": 91264469.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1974
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1422.0,
      "completions/mean_length": 542.25,
      "completions/mean_terminated_length": 493.6773986816406,
      "completions/min_length": 333.0,
      "completions/min_terminated_length": 333.0,
      "epoch": 0.20950461440543122,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.01485793653409928,
      "learning_rate": 7.2104e-06,
      "loss": 0.1539,
      "num_tokens": 91328349.0,
      "reward": 3.7629165649414062,
      "reward_std": 0.7722904682159424,
      "rewards/reward_fn/mean": 3.7629165649414062,
      "rewards/reward_fn/std": 0.7722904682159424,
      "step": 1975
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 342.0,
      "completions/max_terminated_length": 342.0,
      "completions/mean_length": 108.21875,
      "completions/mean_terminated_length": 108.21875,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.2096106926912061,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.828125,
      "kl": 0.018597336602397263,
      "learning_rate": 7.21e-06,
      "loss": -0.0098,
      "num_tokens": 91363300.0,
      "reward": 3.804640293121338,
      "reward_std": 0.34462565183639526,
      "rewards/reward_fn/mean": 3.804640293121338,
      "rewards/reward_fn/std": 0.3446256220340729,
      "step": 1976
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 859.0,
      "completions/max_terminated_length": 859.0,
      "completions/mean_length": 279.78125,
      "completions/mean_terminated_length": 279.78125,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.20971677097698102,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.01667685038410127,
      "learning_rate": 7.2095999999999995e-06,
      "loss": 0.1173,
      "num_tokens": 91388605.0,
      "reward": 3.961299180984497,
      "reward_std": 0.2189248949289322,
      "rewards/reward_fn/mean": 3.961299180984497,
      "rewards/reward_fn/std": 0.2189248949289322,
      "step": 1977
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 900.0,
      "completions/max_terminated_length": 900.0,
      "completions/mean_length": 229.0,
      "completions/mean_terminated_length": 229.0,
      "completions/min_length": 127.0,
      "completions/min_terminated_length": 127.0,
      "epoch": 0.2098228492627559,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08203125,
      "kl": 0.020580741576850414,
      "learning_rate": 7.2091999999999995e-06,
      "loss": 0.0008,
      "num_tokens": 91426109.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1978
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 952.0,
      "completions/max_terminated_length": 952.0,
      "completions/mean_length": 310.21875,
      "completions/mean_terminated_length": 310.21875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.20992892754853082,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.02507057785987854,
      "learning_rate": 7.2087999999999995e-06,
      "loss": 0.1101,
      "num_tokens": 91482500.0,
      "reward": 3.840827465057373,
      "reward_std": 0.37968137860298157,
      "rewards/reward_fn/mean": 3.840827465057373,
      "rewards/reward_fn/std": 0.37968140840530396,
      "step": 1979
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1106.0,
      "completions/max_terminated_length": 1106.0,
      "completions/mean_length": 195.875,
      "completions/mean_terminated_length": 195.875,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.2100350058343057,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.4375,
      "kl": 0.02671630633994937,
      "learning_rate": 7.2083999999999995e-06,
      "loss": 0.0589,
      "num_tokens": 91522784.0,
      "reward": 2.8789358139038086,
      "reward_std": 0.2997475862503052,
      "rewards/reward_fn/mean": 2.8789358139038086,
      "rewards/reward_fn/std": 0.2997475862503052,
      "step": 1980
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 708.0,
      "completions/max_terminated_length": 708.0,
      "completions/mean_length": 149.78125,
      "completions/mean_terminated_length": 149.78125,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.21014108412008062,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.65625,
      "kl": 0.025148641783744097,
      "learning_rate": 7.208e-06,
      "loss": -0.0394,
      "num_tokens": 91563673.0,
      "reward": 3.7303476333618164,
      "reward_std": 0.26785701513290405,
      "rewards/reward_fn/mean": 3.7303476333618164,
      "rewards/reward_fn/std": 0.26785698533058167,
      "step": 1981
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 700.0,
      "completions/max_terminated_length": 700.0,
      "completions/mean_length": 207.4375,
      "completions/mean_terminated_length": 207.4375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.21024716240585553,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.025888599455356598,
      "learning_rate": 7.2076e-06,
      "loss": 0.1438,
      "num_tokens": 91597991.0,
      "reward": 3.4232587814331055,
      "reward_std": 0.546558678150177,
      "rewards/reward_fn/mean": 3.4232587814331055,
      "rewards/reward_fn/std": 0.546558678150177,
      "step": 1982
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1835.0,
      "completions/max_terminated_length": 1835.0,
      "completions/mean_length": 374.125,
      "completions/mean_terminated_length": 374.125,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.21035324069163042,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.984375,
      "kl": 0.02524533332325518,
      "learning_rate": 7.2072e-06,
      "loss": 0.051,
      "num_tokens": 91647627.0,
      "reward": 2.730729103088379,
      "reward_std": 0.4013659358024597,
      "rewards/reward_fn/mean": 2.730729103088379,
      "rewards/reward_fn/std": 0.4013659656047821,
      "step": 1983
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.09375,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1921.0,
      "completions/mean_length": 715.15625,
      "completions/mean_terminated_length": 577.27587890625,
      "completions/min_length": 320.0,
      "completions/min_terminated_length": 320.0,
      "epoch": 0.21045931897740533,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.02549780602566898,
      "learning_rate": 7.2068e-06,
      "loss": 0.1905,
      "num_tokens": 91701296.0,
      "reward": 2.3230574131011963,
      "reward_std": 0.7773017883300781,
      "rewards/reward_fn/mean": 2.3230574131011963,
      "rewards/reward_fn/std": 0.7773017883300781,
      "step": 1984
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1430.0,
      "completions/max_terminated_length": 1430.0,
      "completions/mean_length": 395.34375,
      "completions/mean_terminated_length": 395.34375,
      "completions/min_length": 179.0,
      "completions/min_terminated_length": 179.0,
      "epoch": 0.21056539726318022,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.021748070372268558,
      "learning_rate": 7.2064e-06,
      "loss": 0.0392,
      "num_tokens": 91755099.0,
      "reward": 3.6780052185058594,
      "reward_std": 0.551239013671875,
      "rewards/reward_fn/mean": 3.6780052185058594,
      "rewards/reward_fn/std": 0.551239013671875,
      "step": 1985
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1114.0,
      "completions/max_terminated_length": 1114.0,
      "completions/mean_length": 344.25,
      "completions/mean_terminated_length": 344.25,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.21067147554895513,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.71875,
      "kl": 0.021804936230182648,
      "learning_rate": 7.206e-06,
      "loss": 0.0594,
      "num_tokens": 91805603.0,
      "reward": 2.9031484127044678,
      "reward_std": 0.046194564551115036,
      "rewards/reward_fn/mean": 2.9031484127044678,
      "rewards/reward_fn/std": 0.04619458317756653,
      "step": 1986
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 526.0,
      "completions/max_terminated_length": 526.0,
      "completions/mean_length": 183.90625,
      "completions/mean_terminated_length": 183.90625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.21077755383473004,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1259765625,
      "kl": 0.028120714705437422,
      "learning_rate": 7.205599999999999e-06,
      "loss": 0.0011,
      "num_tokens": 91849088.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1987
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 945.0,
      "completions/max_terminated_length": 945.0,
      "completions/mean_length": 273.84375,
      "completions/mean_terminated_length": 273.84375,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.21088363212050493,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.15625,
      "kl": 0.02706411969847977,
      "learning_rate": 7.205199999999999e-06,
      "loss": 0.0943,
      "num_tokens": 91893915.0,
      "reward": 3.962301254272461,
      "reward_std": 0.21325629949569702,
      "rewards/reward_fn/mean": 3.962301254272461,
      "rewards/reward_fn/std": 0.21325626969337463,
      "step": 1988
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 301.0,
      "completions/max_terminated_length": 301.0,
      "completions/mean_length": 201.0,
      "completions/mean_terminated_length": 201.0,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.21098971040627984,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.020172378746792674,
      "learning_rate": 7.204799999999999e-06,
      "loss": 0.0691,
      "num_tokens": 91930811.0,
      "reward": 2.7958617210388184,
      "reward_std": 0.03389512747526169,
      "rewards/reward_fn/mean": 2.7958617210388184,
      "rewards/reward_fn/std": 0.033895138651132584,
      "step": 1989
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 258.0,
      "completions/max_terminated_length": 258.0,
      "completions/mean_length": 153.4375,
      "completions/mean_terminated_length": 153.4375,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.21109578869205473,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.875,
      "kl": 0.03439820581115782,
      "learning_rate": 7.204399999999999e-06,
      "loss": 0.1005,
      "num_tokens": 91970377.0,
      "reward": 3.9778530597686768,
      "reward_std": 0.12528198957443237,
      "rewards/reward_fn/mean": 3.9778530597686768,
      "rewards/reward_fn/std": 0.12528197467327118,
      "step": 1990
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1437.0,
      "completions/max_terminated_length": 1437.0,
      "completions/mean_length": 259.09375,
      "completions/mean_terminated_length": 259.09375,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.21120186697782964,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.022125726332888007,
      "learning_rate": 7.203999999999999e-06,
      "loss": -0.1815,
      "num_tokens": 92008268.0,
      "reward": 3.5986576080322266,
      "reward_std": 0.49440956115722656,
      "rewards/reward_fn/mean": 3.5986576080322266,
      "rewards/reward_fn/std": 0.4944095313549042,
      "step": 1991
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 590.0,
      "completions/max_terminated_length": 590.0,
      "completions/mean_length": 241.875,
      "completions/mean_terminated_length": 241.875,
      "completions/min_length": 94.0,
      "completions/min_terminated_length": 94.0,
      "epoch": 0.21130794526360455,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.022150580305606127,
      "learning_rate": 7.203599999999999e-06,
      "loss": 0.3028,
      "num_tokens": 92046408.0,
      "reward": 2.9095382690429688,
      "reward_std": 0.6566404104232788,
      "rewards/reward_fn/mean": 2.9095382690429688,
      "rewards/reward_fn/std": 0.6566404104232788,
      "step": 1992
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 536.0,
      "completions/max_terminated_length": 536.0,
      "completions/mean_length": 261.25,
      "completions/mean_terminated_length": 261.25,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.21141402354937944,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.140625,
      "kl": 0.02650432544760406,
      "learning_rate": 7.2032e-06,
      "loss": -0.0708,
      "num_tokens": 92098832.0,
      "reward": 3.028238296508789,
      "reward_std": 0.47540026903152466,
      "rewards/reward_fn/mean": 3.028238296508789,
      "rewards/reward_fn/std": 0.4754002094268799,
      "step": 1993
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 684.0,
      "completions/max_terminated_length": 684.0,
      "completions/mean_length": 246.09375,
      "completions/mean_terminated_length": 246.09375,
      "completions/min_length": 138.0,
      "completions/min_terminated_length": 138.0,
      "epoch": 0.21152010183515435,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.025201337644830346,
      "learning_rate": 7.2028e-06,
      "loss": 0.1415,
      "num_tokens": 92144115.0,
      "reward": 3.697462558746338,
      "reward_std": 0.6422297954559326,
      "rewards/reward_fn/mean": 3.697462558746338,
      "rewards/reward_fn/std": 0.6422297954559326,
      "step": 1994
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 711.0,
      "completions/max_terminated_length": 711.0,
      "completions/mean_length": 216.5,
      "completions/mean_terminated_length": 216.5,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.21162618012092924,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09228515625,
      "kl": 0.022127235773950815,
      "learning_rate": 7.2024e-06,
      "loss": 0.0009,
      "num_tokens": 92197027.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 1995
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1788.0,
      "completions/max_terminated_length": 1788.0,
      "completions/mean_length": 335.375,
      "completions/mean_terminated_length": 335.375,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.21173225840670415,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.84375,
      "kl": 0.027125931112095714,
      "learning_rate": 7.202e-06,
      "loss": 0.1132,
      "num_tokens": 92261455.0,
      "reward": 3.7107300758361816,
      "reward_std": 0.6581941246986389,
      "rewards/reward_fn/mean": 3.7107300758361816,
      "rewards/reward_fn/std": 0.6581941246986389,
      "step": 1996
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 956.0,
      "completions/max_terminated_length": 956.0,
      "completions/mean_length": 324.40625,
      "completions/mean_terminated_length": 324.40625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.21183833669247906,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.018547830171883106,
      "learning_rate": 7.2016e-06,
      "loss": -0.0218,
      "num_tokens": 92303356.0,
      "reward": 3.929755687713623,
      "reward_std": 0.2764107584953308,
      "rewards/reward_fn/mean": 3.929755687713623,
      "rewards/reward_fn/std": 0.2764107286930084,
      "step": 1997
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 761.0,
      "completions/max_terminated_length": 761.0,
      "completions/mean_length": 219.5625,
      "completions/mean_terminated_length": 219.5625,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.21194441497825395,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.016332231694832444,
      "learning_rate": 7.2012e-06,
      "loss": 0.0117,
      "num_tokens": 92341646.0,
      "reward": 2.746156692504883,
      "reward_std": 0.042948655784130096,
      "rewards/reward_fn/mean": 2.746156692504883,
      "rewards/reward_fn/std": 0.0429486408829689,
      "step": 1998
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1248.0,
      "completions/max_terminated_length": 1248.0,
      "completions/mean_length": 303.78125,
      "completions/mean_terminated_length": 303.78125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.21205049326402886,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.024832285940647125,
      "learning_rate": 7.2008e-06,
      "loss": 0.1743,
      "num_tokens": 92407335.0,
      "reward": 3.5415878295898438,
      "reward_std": 0.8036985993385315,
      "rewards/reward_fn/mean": 3.5415878295898438,
      "rewards/reward_fn/std": 0.8036985397338867,
      "step": 1999
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 619.0,
      "completions/max_terminated_length": 619.0,
      "completions/mean_length": 152.71875,
      "completions/mean_terminated_length": 152.71875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.21215657154980375,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.65625,
      "kl": 0.023261455935426056,
      "learning_rate": 7.2004e-06,
      "loss": 0.0307,
      "num_tokens": 92451390.0,
      "reward": 3.0803160667419434,
      "reward_std": 0.3557732403278351,
      "rewards/reward_fn/mean": 3.0803160667419434,
      "rewards/reward_fn/std": 0.3557732403278351,
      "step": 2000
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 757.0,
      "completions/max_terminated_length": 757.0,
      "completions/mean_length": 200.5,
      "completions/mean_terminated_length": 200.5,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.21226264983557866,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0693359375,
      "kl": 0.01706216251477599,
      "learning_rate": 7.2e-06,
      "loss": 0.0007,
      "num_tokens": 92487726.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2001
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 178.0,
      "completions/max_terminated_length": 178.0,
      "completions/mean_length": 110.90625,
      "completions/mean_terminated_length": 110.90625,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.21236872812135357,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.015625,
      "kl": 0.04754210542887449,
      "learning_rate": 7.1996e-06,
      "loss": 0.1082,
      "num_tokens": 92525099.0,
      "reward": 3.045430898666382,
      "reward_std": 0.03022829256951809,
      "rewards/reward_fn/mean": 3.045430898666382,
      "rewards/reward_fn/std": 0.030228327959775925,
      "step": 2002
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1771.0,
      "completions/mean_length": 633.5625,
      "completions/mean_terminated_length": 587.9354858398438,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.21247480640712846,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3671875,
      "kl": 0.02199251647107303,
      "learning_rate": 7.1992e-06,
      "loss": 0.0533,
      "num_tokens": 92581405.0,
      "reward": 2.586845874786377,
      "reward_std": 0.8533264994621277,
      "rewards/reward_fn/mean": 2.586845874786377,
      "rewards/reward_fn/std": 0.8533264994621277,
      "step": 2003
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1235.0,
      "completions/max_terminated_length": 1235.0,
      "completions/mean_length": 310.8125,
      "completions/mean_terminated_length": 310.8125,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.21258088469290337,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.02182422927580774,
      "learning_rate": 7.1988e-06,
      "loss": -0.0255,
      "num_tokens": 92610615.0,
      "reward": 2.3631041049957275,
      "reward_std": 0.5505119562149048,
      "rewards/reward_fn/mean": 2.3631041049957275,
      "rewards/reward_fn/std": 0.5505119562149048,
      "step": 2004
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 281.0,
      "completions/max_terminated_length": 281.0,
      "completions/mean_length": 203.15625,
      "completions/mean_terminated_length": 203.15625,
      "completions/min_length": 157.0,
      "completions/min_terminated_length": 157.0,
      "epoch": 0.21268696297867826,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.064453125,
      "kl": 0.01677056518383324,
      "learning_rate": 7.1984e-06,
      "loss": 0.0007,
      "num_tokens": 92649212.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2005
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 868.0,
      "completions/max_terminated_length": 868.0,
      "completions/mean_length": 271.21875,
      "completions/mean_terminated_length": 271.21875,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.21279304126445317,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6953125,
      "kl": 0.015512895653955638,
      "learning_rate": 7.198e-06,
      "loss": -0.0671,
      "num_tokens": 92696067.0,
      "reward": 3.7533555030822754,
      "reward_std": 0.6800351738929749,
      "rewards/reward_fn/mean": 3.7533555030822754,
      "rewards/reward_fn/std": 0.6800351142883301,
      "step": 2006
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 791.0,
      "completions/max_terminated_length": 791.0,
      "completions/mean_length": 485.8125,
      "completions/mean_terminated_length": 485.8125,
      "completions/min_length": 163.0,
      "completions/min_terminated_length": 163.0,
      "epoch": 0.21289911955022806,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.028621545527130365,
      "learning_rate": 7.1976e-06,
      "loss": 0.0727,
      "num_tokens": 92746141.0,
      "reward": 2.80375337600708,
      "reward_std": 0.4395216107368469,
      "rewards/reward_fn/mean": 2.80375337600708,
      "rewards/reward_fn/std": 0.43952158093452454,
      "step": 2007
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 972.0,
      "completions/max_terminated_length": 972.0,
      "completions/mean_length": 524.5,
      "completions/mean_terminated_length": 524.5,
      "completions/min_length": 245.0,
      "completions/min_terminated_length": 245.0,
      "epoch": 0.21300519783600297,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.21875,
      "kl": 0.02100277761928737,
      "learning_rate": 7.1971999999999995e-06,
      "loss": -0.0492,
      "num_tokens": 92799437.0,
      "reward": 2.993116855621338,
      "reward_std": 0.6083241701126099,
      "rewards/reward_fn/mean": 2.993116855621338,
      "rewards/reward_fn/std": 0.6083241701126099,
      "step": 2008
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1339.0,
      "completions/max_terminated_length": 1339.0,
      "completions/mean_length": 332.84375,
      "completions/mean_terminated_length": 332.84375,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.21311127612177788,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.028305693296715617,
      "learning_rate": 7.1967999999999994e-06,
      "loss": 0.0428,
      "num_tokens": 92822056.0,
      "reward": 3.8866019248962402,
      "reward_std": 0.35826677083969116,
      "rewards/reward_fn/mean": 3.8866019248962402,
      "rewards/reward_fn/std": 0.35826677083969116,
      "step": 2009
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1088.0,
      "completions/max_terminated_length": 1088.0,
      "completions/mean_length": 354.46875,
      "completions/mean_terminated_length": 354.46875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.21321735440755277,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.019336213706992567,
      "learning_rate": 7.196399999999999e-06,
      "loss": 0.0278,
      "num_tokens": 92879767.0,
      "reward": 3.6398813724517822,
      "reward_std": 0.5077115297317505,
      "rewards/reward_fn/mean": 3.6398813724517822,
      "rewards/reward_fn/std": 0.5077115297317505,
      "step": 2010
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2033.0,
      "completions/max_terminated_length": 2033.0,
      "completions/mean_length": 612.59375,
      "completions/mean_terminated_length": 612.59375,
      "completions/min_length": 262.0,
      "completions/min_terminated_length": 262.0,
      "epoch": 0.21332343269332768,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1796875,
      "kl": 0.015353482798673213,
      "learning_rate": 7.195999999999999e-06,
      "loss": -0.0099,
      "num_tokens": 92932458.0,
      "reward": 3.1320223808288574,
      "reward_std": 0.7826876640319824,
      "rewards/reward_fn/mean": 3.1320223808288574,
      "rewards/reward_fn/std": 0.7826876044273376,
      "step": 2011
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 215.0,
      "completions/max_terminated_length": 215.0,
      "completions/mean_length": 153.5625,
      "completions/mean_terminated_length": 153.5625,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.21342951097910257,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.021226009470410645,
      "learning_rate": 7.195599999999999e-06,
      "loss": -0.0176,
      "num_tokens": 92990620.0,
      "reward": 3.7923405170440674,
      "reward_std": 0.6559759974479675,
      "rewards/reward_fn/mean": 3.7923405170440674,
      "rewards/reward_fn/std": 0.6559760570526123,
      "step": 2012
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1211.0,
      "completions/max_terminated_length": 1211.0,
      "completions/mean_length": 419.5,
      "completions/mean_terminated_length": 419.5,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.21353558926487748,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.28125,
      "kl": 0.02267545904032886,
      "learning_rate": 7.195199999999999e-06,
      "loss": 0.1904,
      "num_tokens": 93033100.0,
      "reward": 3.1862945556640625,
      "reward_std": 0.47886648774147034,
      "rewards/reward_fn/mean": 3.1862945556640625,
      "rewards/reward_fn/std": 0.47886648774147034,
      "step": 2013
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 230.0,
      "completions/max_terminated_length": 230.0,
      "completions/mean_length": 165.3125,
      "completions/mean_terminated_length": 165.3125,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.2136416675506524,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.018245216575451195,
      "learning_rate": 7.194799999999999e-06,
      "loss": -0.0072,
      "num_tokens": 93074614.0,
      "reward": 3.9680566787719727,
      "reward_std": 0.18069864809513092,
      "rewards/reward_fn/mean": 3.9680566787719727,
      "rewards/reward_fn/std": 0.18069863319396973,
      "step": 2014
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 324.0,
      "completions/max_terminated_length": 324.0,
      "completions/mean_length": 83.25,
      "completions/mean_terminated_length": 83.25,
      "completions/min_length": 54.0,
      "completions/min_terminated_length": 54.0,
      "epoch": 0.21374774583642728,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11474609375,
      "kl": 0.01922210631892085,
      "learning_rate": 7.194399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 93115646.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2015
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 273.0,
      "completions/max_terminated_length": 273.0,
      "completions/mean_length": 195.34375,
      "completions/mean_terminated_length": 195.34375,
      "completions/min_length": 136.0,
      "completions/min_terminated_length": 136.0,
      "epoch": 0.2138538241222022,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09423828125,
      "kl": 0.0225376442540437,
      "learning_rate": 7.193999999999999e-06,
      "loss": 0.0009,
      "num_tokens": 93176233.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2016
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1295.0,
      "completions/max_terminated_length": 1295.0,
      "completions/mean_length": 311.3125,
      "completions/mean_terminated_length": 311.3125,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.21395990240797708,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.023441240657120943,
      "learning_rate": 7.1936e-06,
      "loss": 0.1198,
      "num_tokens": 93224051.0,
      "reward": 3.871459484100342,
      "reward_std": 0.3460574746131897,
      "rewards/reward_fn/mean": 3.871459484100342,
      "rewards/reward_fn/std": 0.3460574448108673,
      "step": 2017
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2015.0,
      "completions/max_terminated_length": 2015.0,
      "completions/mean_length": 281.15625,
      "completions/mean_terminated_length": 281.15625,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.214065980693752,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.023096083430573344,
      "learning_rate": 7.1932e-06,
      "loss": 0.0427,
      "num_tokens": 93295032.0,
      "reward": 3.9682388305664062,
      "reward_std": 0.17966748774051666,
      "rewards/reward_fn/mean": 3.9682388305664062,
      "rewards/reward_fn/std": 0.17966745793819427,
      "step": 2018
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 894.0,
      "completions/max_terminated_length": 894.0,
      "completions/mean_length": 342.625,
      "completions/mean_terminated_length": 342.625,
      "completions/min_length": 230.0,
      "completions/min_terminated_length": 230.0,
      "epoch": 0.2141720589795269,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.095703125,
      "kl": 0.02021972427610308,
      "learning_rate": 7.1928e-06,
      "loss": 0.0008,
      "num_tokens": 93340396.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2019
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1085.0,
      "completions/mean_length": 532.6875,
      "completions/mean_terminated_length": 483.8064270019531,
      "completions/min_length": 306.0,
      "completions/min_terminated_length": 306.0,
      "epoch": 0.2142781372653018,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.019356919452548027,
      "learning_rate": 7.1924e-06,
      "loss": 0.2521,
      "num_tokens": 93410210.0,
      "reward": 2.8118836879730225,
      "reward_std": 0.5149768590927124,
      "rewards/reward_fn/mean": 2.8118836879730225,
      "rewards/reward_fn/std": 0.5149767994880676,
      "step": 2020
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1524.0,
      "completions/max_terminated_length": 1524.0,
      "completions/mean_length": 535.75,
      "completions/mean_terminated_length": 535.75,
      "completions/min_length": 300.0,
      "completions/min_terminated_length": 300.0,
      "epoch": 0.2143842155510767,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4765625,
      "kl": 0.02323057595640421,
      "learning_rate": 7.192e-06,
      "loss": -0.1021,
      "num_tokens": 93456890.0,
      "reward": 2.6880881786346436,
      "reward_std": 0.6508941054344177,
      "rewards/reward_fn/mean": 2.6880881786346436,
      "rewards/reward_fn/std": 0.650894045829773,
      "step": 2021
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 346.0,
      "completions/max_terminated_length": 346.0,
      "completions/mean_length": 197.0625,
      "completions/mean_terminated_length": 197.0625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.2144902938368516,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.109375,
      "kl": 0.02640698431059718,
      "learning_rate": 7.1916e-06,
      "loss": 0.0011,
      "num_tokens": 93504572.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2022
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 895.0,
      "completions/max_terminated_length": 895.0,
      "completions/mean_length": 274.625,
      "completions/mean_terminated_length": 274.625,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.2145963721226265,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.109375,
      "kl": 0.023409150540828705,
      "learning_rate": 7.1912e-06,
      "loss": 0.05,
      "num_tokens": 93531216.0,
      "reward": 3.9796085357666016,
      "reward_std": 0.11535120010375977,
      "rewards/reward_fn/mean": 3.9796085357666016,
      "rewards/reward_fn/std": 0.11535115540027618,
      "step": 2023
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1389.0,
      "completions/max_terminated_length": 1389.0,
      "completions/mean_length": 379.875,
      "completions/mean_terminated_length": 379.875,
      "completions/min_length": 243.0,
      "completions/min_terminated_length": 243.0,
      "epoch": 0.2147024504084014,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.018924297066405416,
      "learning_rate": 7.1908e-06,
      "loss": 0.0261,
      "num_tokens": 93581708.0,
      "reward": 3.8608009815216064,
      "reward_std": 0.5477797389030457,
      "rewards/reward_fn/mean": 3.8608009815216064,
      "rewards/reward_fn/std": 0.5477797389030457,
      "step": 2024
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 798.0,
      "completions/max_terminated_length": 798.0,
      "completions/mean_length": 237.0625,
      "completions/mean_terminated_length": 237.0625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.2148085286941763,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.019628084031865,
      "learning_rate": 7.1904e-06,
      "loss": 0.0088,
      "num_tokens": 93624078.0,
      "reward": 3.351236581802368,
      "reward_std": 0.6228786110877991,
      "rewards/reward_fn/mean": 3.351236581802368,
      "rewards/reward_fn/std": 0.6228786110877991,
      "step": 2025
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1163.0,
      "completions/max_terminated_length": 1163.0,
      "completions/mean_length": 382.375,
      "completions/mean_terminated_length": 382.375,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.2149146069799512,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.375,
      "kl": 0.022442698711529374,
      "learning_rate": 7.19e-06,
      "loss": 0.0868,
      "num_tokens": 93690490.0,
      "reward": 3.7622103691101074,
      "reward_std": 0.5334495902061462,
      "rewards/reward_fn/mean": 3.7622103691101074,
      "rewards/reward_fn/std": 0.5334495902061462,
      "step": 2026
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 908.0,
      "completions/max_terminated_length": 908.0,
      "completions/mean_length": 258.0,
      "completions/mean_terminated_length": 258.0,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.2150206852657261,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9765625,
      "kl": 0.027412381023168564,
      "learning_rate": 7.1896e-06,
      "loss": -0.0866,
      "num_tokens": 93729818.0,
      "reward": 2.7926363945007324,
      "reward_std": 0.02799339033663273,
      "rewards/reward_fn/mean": 2.7926363945007324,
      "rewards/reward_fn/std": 0.027993371710181236,
      "step": 2027
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 990.0,
      "completions/max_terminated_length": 990.0,
      "completions/mean_length": 241.59375,
      "completions/mean_terminated_length": 241.59375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.215126763551501,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.02329367445781827,
      "learning_rate": 7.189199999999999e-06,
      "loss": -0.0132,
      "num_tokens": 93773933.0,
      "reward": 3.294184923171997,
      "reward_std": 0.3811061680316925,
      "rewards/reward_fn/mean": 3.294184923171997,
      "rewards/reward_fn/std": 0.3811061978340149,
      "step": 2028
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 788.0,
      "completions/max_terminated_length": 788.0,
      "completions/mean_length": 280.8125,
      "completions/mean_terminated_length": 280.8125,
      "completions/min_length": 170.0,
      "completions/min_terminated_length": 170.0,
      "epoch": 0.21523284183727592,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5,
      "kl": 0.030496369348838925,
      "learning_rate": 7.1888e-06,
      "loss": 0.0776,
      "num_tokens": 93813511.0,
      "reward": 3.894092082977295,
      "reward_std": 0.4451395869255066,
      "rewards/reward_fn/mean": 3.894092082977295,
      "rewards/reward_fn/std": 0.4451395571231842,
      "step": 2029
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 656.0,
      "completions/max_terminated_length": 656.0,
      "completions/mean_length": 210.0,
      "completions/mean_terminated_length": 210.0,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.2153389201230508,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10888671875,
      "kl": 0.026559143094345927,
      "learning_rate": 7.1884e-06,
      "loss": 0.0011,
      "num_tokens": 93862471.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2030
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1131.0,
      "completions/max_terminated_length": 1131.0,
      "completions/mean_length": 317.6875,
      "completions/mean_terminated_length": 317.6875,
      "completions/min_length": 167.0,
      "completions/min_terminated_length": 167.0,
      "epoch": 0.21544499840882572,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.02768648392520845,
      "learning_rate": 7.188e-06,
      "loss": -0.0168,
      "num_tokens": 93903325.0,
      "reward": 3.881580352783203,
      "reward_std": 0.4127897024154663,
      "rewards/reward_fn/mean": 3.881580352783203,
      "rewards/reward_fn/std": 0.4127897024154663,
      "step": 2031
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 284.0,
      "completions/max_terminated_length": 284.0,
      "completions/mean_length": 175.40625,
      "completions/mean_terminated_length": 175.40625,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.2155510766946006,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.019018501159735024,
      "learning_rate": 7.1876e-06,
      "loss": 0.0395,
      "num_tokens": 93927658.0,
      "reward": 3.96970534324646,
      "reward_std": 0.17137275636196136,
      "rewards/reward_fn/mean": 3.96970534324646,
      "rewards/reward_fn/std": 0.17137275636196136,
      "step": 2032
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 559.0,
      "completions/max_terminated_length": 559.0,
      "completions/mean_length": 173.28125,
      "completions/mean_terminated_length": 173.28125,
      "completions/min_length": 101.0,
      "completions/min_terminated_length": 101.0,
      "epoch": 0.21565715498037552,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.671875,
      "kl": 0.026485492940992117,
      "learning_rate": 7.1871999999999996e-06,
      "loss": -0.0462,
      "num_tokens": 93965459.0,
      "reward": 3.959859848022461,
      "reward_std": 0.227066308259964,
      "rewards/reward_fn/mean": 3.959859848022461,
      "rewards/reward_fn/std": 0.22706632316112518,
      "step": 2033
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1117.0,
      "completions/max_terminated_length": 1117.0,
      "completions/mean_length": 440.5625,
      "completions/mean_terminated_length": 440.5625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.2157632332661504,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.020580148906446993,
      "learning_rate": 7.1867999999999995e-06,
      "loss": 0.0985,
      "num_tokens": 94001541.0,
      "reward": 3.9648282527923584,
      "reward_std": 0.1989613175392151,
      "rewards/reward_fn/mean": 3.9648282527923584,
      "rewards/reward_fn/std": 0.1989613175392151,
      "step": 2034
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 565.0,
      "completions/max_terminated_length": 565.0,
      "completions/mean_length": 377.375,
      "completions/mean_terminated_length": 377.375,
      "completions/min_length": 277.0,
      "completions/min_terminated_length": 277.0,
      "epoch": 0.21586931155192532,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.296875,
      "kl": 0.020776059944182634,
      "learning_rate": 7.1863999999999995e-06,
      "loss": -0.0073,
      "num_tokens": 94051185.0,
      "reward": 3.9320802688598633,
      "reward_std": 0.3842128813266754,
      "rewards/reward_fn/mean": 3.9320802688598633,
      "rewards/reward_fn/std": 0.3842128813266754,
      "step": 2035
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1297.0,
      "completions/max_terminated_length": 1297.0,
      "completions/mean_length": 383.0625,
      "completions/mean_terminated_length": 383.0625,
      "completions/min_length": 143.0,
      "completions/min_terminated_length": 143.0,
      "epoch": 0.21597538983770023,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.96875,
      "kl": 0.03056110069155693,
      "learning_rate": 7.1859999999999995e-06,
      "loss": -0.0284,
      "num_tokens": 94094355.0,
      "reward": 2.9841325283050537,
      "reward_std": 0.7235788106918335,
      "rewards/reward_fn/mean": 2.9841325283050537,
      "rewards/reward_fn/std": 0.7235787510871887,
      "step": 2036
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1229.0,
      "completions/max_terminated_length": 1229.0,
      "completions/mean_length": 234.84375,
      "completions/mean_terminated_length": 234.84375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.21608146812347512,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.02781497361138463,
      "learning_rate": 7.1855999999999994e-06,
      "loss": 0.2453,
      "num_tokens": 94125326.0,
      "reward": 2.7703404426574707,
      "reward_std": 0.03106667473912239,
      "rewards/reward_fn/mean": 2.7703404426574707,
      "rewards/reward_fn/std": 0.03106665052473545,
      "step": 2037
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 921.0,
      "completions/max_terminated_length": 921.0,
      "completions/mean_length": 303.0625,
      "completions/mean_terminated_length": 303.0625,
      "completions/min_length": 165.0,
      "completions/min_terminated_length": 165.0,
      "epoch": 0.21618754640925003,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5078125,
      "kl": 0.020188409835100174,
      "learning_rate": 7.185199999999999e-06,
      "loss": 0.1097,
      "num_tokens": 94169200.0,
      "reward": 2.8137176036834717,
      "reward_std": 0.2147783488035202,
      "rewards/reward_fn/mean": 2.8137176036834717,
      "rewards/reward_fn/std": 0.21477839350700378,
      "step": 2038
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1176.0,
      "completions/max_terminated_length": 1176.0,
      "completions/mean_length": 250.71875,
      "completions/mean_terminated_length": 250.71875,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.21629362469502492,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.65625,
      "kl": 0.03112406632862985,
      "learning_rate": 7.184799999999999e-06,
      "loss": 0.0002,
      "num_tokens": 94212295.0,
      "reward": 3.95988130569458,
      "reward_std": 0.22694644331932068,
      "rewards/reward_fn/mean": 3.95988130569458,
      "rewards/reward_fn/std": 0.22694644331932068,
      "step": 2039
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 374.0,
      "completions/max_terminated_length": 374.0,
      "completions/mean_length": 257.5,
      "completions/mean_terminated_length": 257.5,
      "completions/min_length": 190.0,
      "completions/min_terminated_length": 190.0,
      "epoch": 0.21639970298079983,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0927734375,
      "kl": 0.02199523849412799,
      "learning_rate": 7.1844e-06,
      "loss": 0.0009,
      "num_tokens": 94274263.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2040
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1370.0,
      "completions/max_terminated_length": 1370.0,
      "completions/mean_length": 451.8125,
      "completions/mean_terminated_length": 451.8125,
      "completions/min_length": 250.0,
      "completions/min_terminated_length": 250.0,
      "epoch": 0.21650578126657474,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4375,
      "kl": 0.023585932329297066,
      "learning_rate": 7.184e-06,
      "loss": 0.1187,
      "num_tokens": 94341937.0,
      "reward": 2.8903353214263916,
      "reward_std": 0.4277820885181427,
      "rewards/reward_fn/mean": 2.8903353214263916,
      "rewards/reward_fn/std": 0.4277820587158203,
      "step": 2041
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1882.0,
      "completions/mean_length": 1021.90625,
      "completions/mean_terminated_length": 988.806396484375,
      "completions/min_length": 457.0,
      "completions/min_terminated_length": 457.0,
      "epoch": 0.21661185955234963,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.84765625,
      "kl": 0.01376344496384263,
      "learning_rate": 7.1836e-06,
      "loss": 0.1077,
      "num_tokens": 94416718.0,
      "reward": 2.3924713134765625,
      "reward_std": 0.48986151814460754,
      "rewards/reward_fn/mean": 2.3924713134765625,
      "rewards/reward_fn/std": 0.48986148834228516,
      "step": 2042
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 83.0,
      "completions/max_terminated_length": 83.0,
      "completions/mean_length": 71.8125,
      "completions/mean_terminated_length": 71.8125,
      "completions/min_length": 61.0,
      "completions/min_terminated_length": 61.0,
      "epoch": 0.21671793783812454,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1484375,
      "kl": 0.018146761576645076,
      "learning_rate": 7.1832e-06,
      "loss": 0.0007,
      "num_tokens": 94453000.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2043
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 180.0,
      "completions/max_terminated_length": 180.0,
      "completions/mean_length": 103.5625,
      "completions/mean_terminated_length": 103.5625,
      "completions/min_length": 70.0,
      "completions/min_terminated_length": 70.0,
      "epoch": 0.21682401612389943,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.138671875,
      "kl": 0.024427478667348623,
      "learning_rate": 7.1828e-06,
      "loss": 0.001,
      "num_tokens": 94487130.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2044
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1475.0,
      "completions/max_terminated_length": 1475.0,
      "completions/mean_length": 489.8125,
      "completions/mean_terminated_length": 489.8125,
      "completions/min_length": 229.0,
      "completions/min_terminated_length": 229.0,
      "epoch": 0.21693009440967434,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.0271578470710665,
      "learning_rate": 7.1824e-06,
      "loss": -0.0102,
      "num_tokens": 94531700.0,
      "reward": 3.384610176086426,
      "reward_std": 0.7715237736701965,
      "rewards/reward_fn/mean": 3.384610176086426,
      "rewards/reward_fn/std": 0.7715237140655518,
      "step": 2045
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1864.0,
      "completions/max_terminated_length": 1864.0,
      "completions/mean_length": 382.28125,
      "completions/mean_terminated_length": 382.28125,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.21703617269544925,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.0231085903942585,
      "learning_rate": 7.182e-06,
      "loss": 0.1366,
      "num_tokens": 94579197.0,
      "reward": 2.9709372520446777,
      "reward_std": 0.45013728737831116,
      "rewards/reward_fn/mean": 2.9709372520446777,
      "rewards/reward_fn/std": 0.45013728737831116,
      "step": 2046
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 736.0,
      "completions/max_terminated_length": 736.0,
      "completions/mean_length": 186.71875,
      "completions/mean_terminated_length": 186.71875,
      "completions/min_length": 100.0,
      "completions/min_terminated_length": 100.0,
      "epoch": 0.21714225098122414,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.578125,
      "kl": 0.02708746073767543,
      "learning_rate": 7.1816e-06,
      "loss": 0.0161,
      "num_tokens": 94622996.0,
      "reward": 3.984982967376709,
      "reward_std": 0.0849492996931076,
      "rewards/reward_fn/mean": 3.984982967376709,
      "rewards/reward_fn/std": 0.08494929224252701,
      "step": 2047
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1115.0,
      "completions/max_terminated_length": 1115.0,
      "completions/mean_length": 405.1875,
      "completions/mean_terminated_length": 405.1875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.21724832926699905,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.023749822983518243,
      "learning_rate": 7.181199999999999e-06,
      "loss": -0.0417,
      "num_tokens": 94664762.0,
      "reward": 3.4993603229522705,
      "reward_std": 0.578482985496521,
      "rewards/reward_fn/mean": 3.4993603229522705,
      "rewards/reward_fn/std": 0.578482985496521,
      "step": 2048
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1071.0,
      "completions/max_terminated_length": 1071.0,
      "completions/mean_length": 237.0625,
      "completions/mean_terminated_length": 237.0625,
      "completions/min_length": 150.0,
      "completions/min_terminated_length": 150.0,
      "epoch": 0.21735440755277394,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.021896290825679898,
      "learning_rate": 7.180799999999999e-06,
      "loss": 0.0248,
      "num_tokens": 94703196.0,
      "reward": 3.8218743801116943,
      "reward_std": 0.4205699861049652,
      "rewards/reward_fn/mean": 3.8218743801116943,
      "rewards/reward_fn/std": 0.4205699861049652,
      "step": 2049
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 430.0,
      "completions/max_terminated_length": 430.0,
      "completions/mean_length": 195.15625,
      "completions/mean_terminated_length": 195.15625,
      "completions/min_length": 122.0,
      "completions/min_terminated_length": 122.0,
      "epoch": 0.21746048583854885,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09521484375,
      "kl": 0.018337349290959537,
      "learning_rate": 7.180399999999999e-06,
      "loss": 0.0007,
      "num_tokens": 94753089.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2050
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1337.0,
      "completions/max_terminated_length": 1337.0,
      "completions/mean_length": 431.84375,
      "completions/mean_terminated_length": 431.84375,
      "completions/min_length": 218.0,
      "completions/min_terminated_length": 218.0,
      "epoch": 0.21756656412432376,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02290130709297955,
      "learning_rate": 7.179999999999999e-06,
      "loss": 0.081,
      "num_tokens": 94804060.0,
      "reward": 3.5846269130706787,
      "reward_std": 0.518695592880249,
      "rewards/reward_fn/mean": 3.5846269130706787,
      "rewards/reward_fn/std": 0.518695592880249,
      "step": 2051
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 121.0,
      "completions/max_terminated_length": 121.0,
      "completions/mean_length": 85.78125,
      "completions/mean_terminated_length": 85.78125,
      "completions/min_length": 69.0,
      "completions/min_terminated_length": 69.0,
      "epoch": 0.21767264241009865,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10205078125,
      "kl": 0.017568445531651378,
      "learning_rate": 7.1796e-06,
      "loss": 0.0007,
      "num_tokens": 94839189.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2052
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 925.0,
      "completions/max_terminated_length": 925.0,
      "completions/mean_length": 312.46875,
      "completions/mean_terminated_length": 312.46875,
      "completions/min_length": 172.0,
      "completions/min_terminated_length": 172.0,
      "epoch": 0.21777872069587356,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.059326171875,
      "kl": 0.01560823933687061,
      "learning_rate": 7.1792e-06,
      "loss": 0.0006,
      "num_tokens": 94891268.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2053
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 889.0,
      "completions/max_terminated_length": 889.0,
      "completions/mean_length": 170.53125,
      "completions/mean_terminated_length": 170.53125,
      "completions/min_length": 83.0,
      "completions/min_terminated_length": 83.0,
      "epoch": 0.21788479898164845,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.46875,
      "kl": 0.024878250900655985,
      "learning_rate": 7.1788e-06,
      "loss": 0.0492,
      "num_tokens": 94935125.0,
      "reward": 2.791635513305664,
      "reward_std": 0.030824407935142517,
      "rewards/reward_fn/mean": 2.791635513305664,
      "rewards/reward_fn/std": 0.03082440234720707,
      "step": 2054
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 592.0,
      "completions/max_terminated_length": 592.0,
      "completions/mean_length": 110.625,
      "completions/mean_terminated_length": 110.625,
      "completions/min_length": 55.0,
      "completions/min_terminated_length": 55.0,
      "epoch": 0.21799087726742336,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.2431640625,
      "kl": 0.0337254130281508,
      "learning_rate": 7.1784e-06,
      "loss": 0.0013,
      "num_tokens": 94962089.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2055
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 699.0,
      "completions/max_terminated_length": 699.0,
      "completions/mean_length": 230.375,
      "completions/mean_terminated_length": 230.375,
      "completions/min_length": 132.0,
      "completions/min_terminated_length": 132.0,
      "epoch": 0.21809695555319827,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06494140625,
      "kl": 0.016936297761276364,
      "learning_rate": 7.178e-06,
      "loss": 0.0007,
      "num_tokens": 95006325.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2056
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 867.0,
      "completions/max_terminated_length": 867.0,
      "completions/mean_length": 189.65625,
      "completions/mean_terminated_length": 189.65625,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.21820303383897316,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.017722343327477574,
      "learning_rate": 7.1776e-06,
      "loss": -0.0566,
      "num_tokens": 95052170.0,
      "reward": 3.965939998626709,
      "reward_std": 0.19267311692237854,
      "rewards/reward_fn/mean": 3.965939998626709,
      "rewards/reward_fn/std": 0.19267308712005615,
      "step": 2057
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1031.0,
      "completions/max_terminated_length": 1031.0,
      "completions/mean_length": 290.84375,
      "completions/mean_terminated_length": 290.84375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.21830911212474807,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.171875,
      "kl": 0.021622674306854606,
      "learning_rate": 7.1772e-06,
      "loss": -0.0281,
      "num_tokens": 95087685.0,
      "reward": 3.966918468475342,
      "reward_std": 0.18713752925395966,
      "rewards/reward_fn/mean": 3.966918468475342,
      "rewards/reward_fn/std": 0.18713752925395966,
      "step": 2058
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 215.75,
      "completions/mean_terminated_length": 215.75,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.21841519041052296,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.028689004946500063,
      "learning_rate": 7.1768e-06,
      "loss": -0.0264,
      "num_tokens": 95133725.0,
      "reward": 3.931462287902832,
      "reward_std": 0.27030280232429504,
      "rewards/reward_fn/mean": 3.931462287902832,
      "rewards/reward_fn/std": 0.27030277252197266,
      "step": 2059
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1146.0,
      "completions/max_terminated_length": 1146.0,
      "completions/mean_length": 359.40625,
      "completions/mean_terminated_length": 359.40625,
      "completions/min_length": 152.0,
      "completions/min_terminated_length": 152.0,
      "epoch": 0.21852126869629787,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5546875,
      "kl": 0.02633265615440905,
      "learning_rate": 7.1764e-06,
      "loss": -0.0755,
      "num_tokens": 95182442.0,
      "reward": 2.791104793548584,
      "reward_std": 0.3357614576816559,
      "rewards/reward_fn/mean": 2.791104793548584,
      "rewards/reward_fn/std": 0.3357614576816559,
      "step": 2060
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 445.0,
      "completions/max_terminated_length": 445.0,
      "completions/mean_length": 236.09375,
      "completions/mean_terminated_length": 236.09375,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.21862734698207276,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.022103465860709548,
      "learning_rate": 7.1759999999999996e-06,
      "loss": 0.0616,
      "num_tokens": 95224621.0,
      "reward": 3.220750331878662,
      "reward_std": 0.6474551558494568,
      "rewards/reward_fn/mean": 3.220750331878662,
      "rewards/reward_fn/std": 0.6474552154541016,
      "step": 2061
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1164.0,
      "completions/mean_length": 473.78125,
      "completions/mean_terminated_length": 423.0,
      "completions/min_length": 104.0,
      "completions/min_terminated_length": 104.0,
      "epoch": 0.21873342526784767,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.703125,
      "kl": 0.02473957440815866,
      "learning_rate": 7.1755999999999995e-06,
      "loss": 0.1878,
      "num_tokens": 95274918.0,
      "reward": 2.2360482215881348,
      "reward_std": 0.6540963649749756,
      "rewards/reward_fn/mean": 2.2360482215881348,
      "rewards/reward_fn/std": 0.6540964245796204,
      "step": 2062
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1755.0,
      "completions/mean_length": 770.78125,
      "completions/mean_terminated_length": 685.6333618164062,
      "completions/min_length": 287.0,
      "completions/min_terminated_length": 287.0,
      "epoch": 0.21883950355362258,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.953125,
      "kl": 0.014348611701279879,
      "learning_rate": 7.1751999999999995e-06,
      "loss": 0.0931,
      "num_tokens": 95336959.0,
      "reward": 2.4014182090759277,
      "reward_std": 0.6035107970237732,
      "rewards/reward_fn/mean": 2.4014182090759277,
      "rewards/reward_fn/std": 0.6035107970237732,
      "step": 2063
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 437.0,
      "completions/max_terminated_length": 437.0,
      "completions/mean_length": 306.75,
      "completions/mean_terminated_length": 306.75,
      "completions/min_length": 174.0,
      "completions/min_terminated_length": 174.0,
      "epoch": 0.21894558183939747,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02311077411286533,
      "learning_rate": 7.1748e-06,
      "loss": -0.0083,
      "num_tokens": 95382743.0,
      "reward": 3.9660825729370117,
      "reward_std": 0.1918664574623108,
      "rewards/reward_fn/mean": 3.9660825729370117,
      "rewards/reward_fn/std": 0.1918664425611496,
      "step": 2064
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 793.0,
      "completions/max_terminated_length": 793.0,
      "completions/mean_length": 231.59375,
      "completions/mean_terminated_length": 231.59375,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.21905166012517238,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.022033887798897922,
      "learning_rate": 7.1744e-06,
      "loss": -0.0387,
      "num_tokens": 95426218.0,
      "reward": 3.723904609680176,
      "reward_std": 0.6886054873466492,
      "rewards/reward_fn/mean": 3.723904609680176,
      "rewards/reward_fn/std": 0.6886054277420044,
      "step": 2065
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 395.0,
      "completions/max_terminated_length": 395.0,
      "completions/mean_length": 185.28125,
      "completions/mean_terminated_length": 185.28125,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.21915773841094727,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.234375,
      "kl": 0.01918771117925644,
      "learning_rate": 7.174e-06,
      "loss": 0.0791,
      "num_tokens": 95467795.0,
      "reward": 3.837489128112793,
      "reward_std": 0.3440697491168976,
      "rewards/reward_fn/mean": 3.837489128112793,
      "rewards/reward_fn/std": 0.34406977891921997,
      "step": 2066
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1059.0,
      "completions/max_terminated_length": 1059.0,
      "completions/mean_length": 264.125,
      "completions/mean_terminated_length": 264.125,
      "completions/min_length": 120.0,
      "completions/min_terminated_length": 120.0,
      "epoch": 0.21926381669672218,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.0323160660918802,
      "learning_rate": 7.1736e-06,
      "loss": 0.1329,
      "num_tokens": 95510327.0,
      "reward": 3.0511176586151123,
      "reward_std": 0.36487215757369995,
      "rewards/reward_fn/mean": 3.0511176586151123,
      "rewards/reward_fn/std": 0.36487212777137756,
      "step": 2067
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1123.0,
      "completions/mean_length": 561.3125,
      "completions/mean_terminated_length": 513.3547973632812,
      "completions/min_length": 259.0,
      "completions/min_terminated_length": 259.0,
      "epoch": 0.2193698949824971,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.017476799665018916,
      "learning_rate": 7.173199999999999e-06,
      "loss": 0.2184,
      "num_tokens": 95564385.0,
      "reward": 2.6805789470672607,
      "reward_std": 0.25595468282699585,
      "rewards/reward_fn/mean": 2.6805789470672607,
      "rewards/reward_fn/std": 0.25595468282699585,
      "step": 2068
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 713.0,
      "completions/max_terminated_length": 713.0,
      "completions/mean_length": 273.28125,
      "completions/mean_terminated_length": 273.28125,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.21947597326827198,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.125,
      "kl": 0.03495682845823467,
      "learning_rate": 7.172799999999999e-06,
      "loss": 0.0014,
      "num_tokens": 95619082.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2069
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 509.0,
      "completions/max_terminated_length": 509.0,
      "completions/mean_length": 180.8125,
      "completions/mean_terminated_length": 180.8125,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.2195820515540469,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.016302260337397456,
      "learning_rate": 7.172399999999999e-06,
      "loss": -0.0412,
      "num_tokens": 95660580.0,
      "reward": 3.9653358459472656,
      "reward_std": 0.19608987867832184,
      "rewards/reward_fn/mean": 3.9653358459472656,
      "rewards/reward_fn/std": 0.19608986377716064,
      "step": 2070
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 818.0,
      "completions/max_terminated_length": 818.0,
      "completions/mean_length": 289.3125,
      "completions/mean_terminated_length": 289.3125,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.21968812983982178,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06982421875,
      "kl": 0.02007239032536745,
      "learning_rate": 7.171999999999999e-06,
      "loss": 0.0008,
      "num_tokens": 95722414.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2071
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 861.0,
      "completions/max_terminated_length": 861.0,
      "completions/mean_length": 212.625,
      "completions/mean_terminated_length": 212.625,
      "completions/min_length": 130.0,
      "completions/min_terminated_length": 130.0,
      "epoch": 0.2197942081255967,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.203125,
      "kl": 0.027552237967029214,
      "learning_rate": 7.171599999999999e-06,
      "loss": -0.0198,
      "num_tokens": 95752738.0,
      "reward": 2.9689650535583496,
      "reward_std": 0.0429152250289917,
      "rewards/reward_fn/mean": 2.9689650535583496,
      "rewards/reward_fn/std": 0.04291524365544319,
      "step": 2072
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 256.0,
      "completions/max_terminated_length": 256.0,
      "completions/mean_length": 167.78125,
      "completions/mean_terminated_length": 167.78125,
      "completions/min_length": 121.0,
      "completions/min_terminated_length": 121.0,
      "epoch": 0.2199002864113716,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.171875,
      "kl": 0.022559367353096604,
      "learning_rate": 7.171199999999999e-06,
      "loss": 0.0009,
      "num_tokens": 95815675.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2073
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 856.0,
      "completions/max_terminated_length": 856.0,
      "completions/mean_length": 212.5625,
      "completions/mean_terminated_length": 212.5625,
      "completions/min_length": 147.0,
      "completions/min_terminated_length": 147.0,
      "epoch": 0.2200063646971465,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.010360506421420723,
      "learning_rate": 7.170799999999999e-06,
      "loss": -0.0001,
      "num_tokens": 95860493.0,
      "reward": 3.929622173309326,
      "reward_std": 0.3981178402900696,
      "rewards/reward_fn/mean": 3.929622173309326,
      "rewards/reward_fn/std": 0.3981178402900696,
      "step": 2074
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 270.0,
      "completions/max_terminated_length": 270.0,
      "completions/mean_length": 206.3125,
      "completions/mean_terminated_length": 206.3125,
      "completions/min_length": 118.0,
      "completions/min_terminated_length": 118.0,
      "epoch": 0.2201124429829214,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0712890625,
      "kl": 0.01717807969544083,
      "learning_rate": 7.170399999999999e-06,
      "loss": 0.0007,
      "num_tokens": 95918807.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2075
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1029.0,
      "completions/max_terminated_length": 1029.0,
      "completions/mean_length": 389.65625,
      "completions/mean_terminated_length": 389.65625,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.2202185212686963,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.02313116961158812,
      "learning_rate": 7.17e-06,
      "loss": 0.0968,
      "num_tokens": 95967660.0,
      "reward": 3.746159553527832,
      "reward_std": 0.6335774660110474,
      "rewards/reward_fn/mean": 3.746159553527832,
      "rewards/reward_fn/std": 0.6335774064064026,
      "step": 2076
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 528.0,
      "completions/max_terminated_length": 528.0,
      "completions/mean_length": 192.6875,
      "completions/mean_terminated_length": 192.6875,
      "completions/min_length": 126.0,
      "completions/min_terminated_length": 126.0,
      "epoch": 0.2203245995544712,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.09375,
      "kl": 0.029190136585384607,
      "learning_rate": 7.1696e-06,
      "loss": 0.0691,
      "num_tokens": 96007010.0,
      "reward": 3.521986484527588,
      "reward_std": 0.6271064877510071,
      "rewards/reward_fn/mean": 3.521986484527588,
      "rewards/reward_fn/std": 0.6271064877510071,
      "step": 2077
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 749.0,
      "completions/max_terminated_length": 749.0,
      "completions/mean_length": 256.9375,
      "completions/mean_terminated_length": 256.9375,
      "completions/min_length": 155.0,
      "completions/min_terminated_length": 155.0,
      "epoch": 0.22043067784024611,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.765625,
      "kl": 0.031511508859694004,
      "learning_rate": 7.1692e-06,
      "loss": -0.0353,
      "num_tokens": 96050592.0,
      "reward": 3.8938238620758057,
      "reward_std": 0.43997421860694885,
      "rewards/reward_fn/mean": 3.8938238620758057,
      "rewards/reward_fn/std": 0.43997427821159363,
      "step": 2078
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 819.0,
      "completions/max_terminated_length": 819.0,
      "completions/mean_length": 457.96875,
      "completions/mean_terminated_length": 457.96875,
      "completions/min_length": 248.0,
      "completions/min_terminated_length": 248.0,
      "epoch": 0.220536756126021,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.01874492526985705,
      "learning_rate": 7.1688e-06,
      "loss": 0.0453,
      "num_tokens": 96117151.0,
      "reward": 3.6167984008789062,
      "reward_std": 0.5801927447319031,
      "rewards/reward_fn/mean": 3.6167984008789062,
      "rewards/reward_fn/std": 0.5801927447319031,
      "step": 2079
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 419.0,
      "completions/max_terminated_length": 419.0,
      "completions/mean_length": 271.625,
      "completions/mean_terminated_length": 271.625,
      "completions/min_length": 208.0,
      "completions/min_terminated_length": 208.0,
      "epoch": 0.2206428344117959,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.015837123501114547,
      "learning_rate": 7.1684e-06,
      "loss": 0.0119,
      "num_tokens": 96158739.0,
      "reward": 3.959514617919922,
      "reward_std": 0.22902005910873413,
      "rewards/reward_fn/mean": 3.959514617919922,
      "rewards/reward_fn/std": 0.22902007400989532,
      "step": 2080
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1087.0,
      "completions/max_terminated_length": 1087.0,
      "completions/mean_length": 333.1875,
      "completions/mean_terminated_length": 333.1875,
      "completions/min_length": 178.0,
      "completions/min_terminated_length": 178.0,
      "epoch": 0.2207489126975708,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07861328125,
      "kl": 0.020457167527638376,
      "learning_rate": 7.168e-06,
      "loss": 0.0008,
      "num_tokens": 96208665.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2081
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 716.0,
      "completions/max_terminated_length": 716.0,
      "completions/mean_length": 225.65625,
      "completions/mean_terminated_length": 225.65625,
      "completions/min_length": 99.0,
      "completions/min_terminated_length": 99.0,
      "epoch": 0.2208549909833457,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.024195005418732762,
      "learning_rate": 7.1676e-06,
      "loss": -0.1019,
      "num_tokens": 96244942.0,
      "reward": 3.6277449131011963,
      "reward_std": 0.4575171172618866,
      "rewards/reward_fn/mean": 3.6277449131011963,
      "rewards/reward_fn/std": 0.4575170576572418,
      "step": 2082
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 755.0,
      "completions/max_terminated_length": 755.0,
      "completions/mean_length": 251.9375,
      "completions/mean_terminated_length": 251.9375,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.22096106926912062,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8359375,
      "kl": 0.02725498448126018,
      "learning_rate": 7.1672e-06,
      "loss": 0.0831,
      "num_tokens": 96268908.0,
      "reward": 3.8278117179870605,
      "reward_std": 0.5053116083145142,
      "rewards/reward_fn/mean": 3.8278117179870605,
      "rewards/reward_fn/std": 0.5053115487098694,
      "step": 2083
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 278.0,
      "completions/max_terminated_length": 278.0,
      "completions/mean_length": 206.4375,
      "completions/mean_terminated_length": 206.4375,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.2210671475548955,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6328125,
      "kl": 0.01674318127334118,
      "learning_rate": 7.1668e-06,
      "loss": -0.03,
      "num_tokens": 96305498.0,
      "reward": 2.9250006675720215,
      "reward_std": 0.04684029147028923,
      "rewards/reward_fn/mean": 2.9250006675720215,
      "rewards/reward_fn/std": 0.04684024676680565,
      "step": 2084
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 209.0,
      "completions/max_terminated_length": 209.0,
      "completions/mean_length": 122.78125,
      "completions/mean_terminated_length": 122.78125,
      "completions/min_length": 79.0,
      "completions/min_terminated_length": 79.0,
      "epoch": 0.22117322584067042,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10888671875,
      "kl": 0.026960970601066947,
      "learning_rate": 7.1664e-06,
      "loss": 0.0011,
      "num_tokens": 96357139.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2085
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1214.0,
      "completions/max_terminated_length": 1214.0,
      "completions/mean_length": 359.6875,
      "completions/mean_terminated_length": 359.6875,
      "completions/min_length": 209.0,
      "completions/min_terminated_length": 209.0,
      "epoch": 0.2212793041264453,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.021832972299307585,
      "learning_rate": 7.166e-06,
      "loss": 0.0165,
      "num_tokens": 96402345.0,
      "reward": 2.866878032684326,
      "reward_std": 0.3685334324836731,
      "rewards/reward_fn/mean": 2.866878032684326,
      "rewards/reward_fn/std": 0.3685334324836731,
      "step": 2086
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 633.0,
      "completions/max_terminated_length": 633.0,
      "completions/mean_length": 120.90625,
      "completions/mean_terminated_length": 120.90625,
      "completions/min_length": 53.0,
      "completions/min_terminated_length": 53.0,
      "epoch": 0.22138538241222022,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.022863602731376886,
      "learning_rate": 7.1656000000000005e-06,
      "loss": 0.1065,
      "num_tokens": 96439302.0,
      "reward": 2.8354334831237793,
      "reward_std": 0.03567254915833473,
      "rewards/reward_fn/mean": 2.8354334831237793,
      "rewards/reward_fn/std": 0.035672519356012344,
      "step": 2087
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 937.0,
      "completions/max_terminated_length": 937.0,
      "completions/mean_length": 245.25,
      "completions/mean_terminated_length": 245.25,
      "completions/min_length": 133.0,
      "completions/min_terminated_length": 133.0,
      "epoch": 0.2214914606979951,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.171875,
      "kl": 0.02509408933110535,
      "learning_rate": 7.1652e-06,
      "loss": 0.093,
      "num_tokens": 96492078.0,
      "reward": 3.8152360916137695,
      "reward_std": 0.3649226725101471,
      "rewards/reward_fn/mean": 3.8152360916137695,
      "rewards/reward_fn/std": 0.3649226725101471,
      "step": 2088
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 495.0,
      "completions/max_terminated_length": 495.0,
      "completions/mean_length": 195.0,
      "completions/mean_terminated_length": 195.0,
      "completions/min_length": 135.0,
      "completions/min_terminated_length": 135.0,
      "epoch": 0.22159753898377002,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.078125,
      "kl": 0.020710675860755146,
      "learning_rate": 7.1647999999999996e-06,
      "loss": -0.0253,
      "num_tokens": 96516622.0,
      "reward": 3.013934850692749,
      "reward_std": 0.325973778963089,
      "rewards/reward_fn/mean": 3.013934850692749,
      "rewards/reward_fn/std": 0.325973778963089,
      "step": 2089
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 890.0,
      "completions/max_terminated_length": 890.0,
      "completions/mean_length": 322.78125,
      "completions/mean_terminated_length": 322.78125,
      "completions/min_length": 148.0,
      "completions/min_terminated_length": 148.0,
      "epoch": 0.22170361726954493,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.34375,
      "kl": 0.01796165155246854,
      "learning_rate": 7.1643999999999995e-06,
      "loss": 0.1965,
      "num_tokens": 96562535.0,
      "reward": 3.9826741218566895,
      "reward_std": 0.0980101004242897,
      "rewards/reward_fn/mean": 3.9826741218566895,
      "rewards/reward_fn/std": 0.0980100929737091,
      "step": 2090
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 242.0,
      "completions/max_terminated_length": 242.0,
      "completions/mean_length": 142.25,
      "completions/mean_terminated_length": 142.25,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.22180969555531982,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.609375,
      "kl": 0.0245153047144413,
      "learning_rate": 7.1639999999999995e-06,
      "loss": 0.0613,
      "num_tokens": 96599823.0,
      "reward": 3.8469858169555664,
      "reward_std": 0.41139575839042664,
      "rewards/reward_fn/mean": 3.8469858169555664,
      "rewards/reward_fn/std": 0.4113958179950714,
      "step": 2091
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 271.0,
      "completions/max_terminated_length": 271.0,
      "completions/mean_length": 126.0625,
      "completions/mean_terminated_length": 126.0625,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.22191577384109473,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.84375,
      "kl": 0.030944793485105038,
      "learning_rate": 7.1635999999999995e-06,
      "loss": 0.1047,
      "num_tokens": 96639345.0,
      "reward": 2.86065936088562,
      "reward_std": 0.05229390040040016,
      "rewards/reward_fn/mean": 2.86065936088562,
      "rewards/reward_fn/std": 0.05229390785098076,
      "step": 2092
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 740.0,
      "completions/max_terminated_length": 740.0,
      "completions/mean_length": 242.9375,
      "completions/mean_terminated_length": 242.9375,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.22202185212686962,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.28125,
      "kl": 0.024946002522483468,
      "learning_rate": 7.1631999999999995e-06,
      "loss": 0.0677,
      "num_tokens": 96661999.0,
      "reward": 3.1001062393188477,
      "reward_std": 0.3169058561325073,
      "rewards/reward_fn/mean": 3.1001062393188477,
      "rewards/reward_fn/std": 0.31690582633018494,
      "step": 2093
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 806.0,
      "completions/max_terminated_length": 806.0,
      "completions/mean_length": 145.46875,
      "completions/mean_terminated_length": 145.46875,
      "completions/min_length": 76.0,
      "completions/min_terminated_length": 76.0,
      "epoch": 0.22212793041264453,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1416015625,
      "kl": 0.03213479835540056,
      "learning_rate": 7.162799999999999e-06,
      "loss": 0.0013,
      "num_tokens": 96683358.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2094
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 428.0,
      "completions/max_terminated_length": 428.0,
      "completions/mean_length": 239.59375,
      "completions/mean_terminated_length": 239.59375,
      "completions/min_length": 175.0,
      "completions/min_terminated_length": 175.0,
      "epoch": 0.22223400869841944,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.90625,
      "kl": 0.014876898960210383,
      "learning_rate": 7.162399999999999e-06,
      "loss": 0.0037,
      "num_tokens": 96730929.0,
      "reward": 3.8969430923461914,
      "reward_std": 0.4309411346912384,
      "rewards/reward_fn/mean": 3.8969430923461914,
      "rewards/reward_fn/std": 0.430941104888916,
      "step": 2095
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1064.0,
      "completions/max_terminated_length": 1064.0,
      "completions/mean_length": 305.5625,
      "completions/mean_terminated_length": 305.5625,
      "completions/min_length": 193.0,
      "completions/min_terminated_length": 193.0,
      "epoch": 0.22234008698419433,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.59375,
      "kl": 0.01991373603232205,
      "learning_rate": 7.161999999999999e-06,
      "loss": 0.0078,
      "num_tokens": 96776515.0,
      "reward": 3.0914957523345947,
      "reward_std": 0.5341657996177673,
      "rewards/reward_fn/mean": 3.0914957523345947,
      "rewards/reward_fn/std": 0.5341657996177673,
      "step": 2096
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1050.0,
      "completions/max_terminated_length": 1050.0,
      "completions/mean_length": 309.96875,
      "completions/mean_terminated_length": 309.96875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.22244616526996924,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.21875,
      "kl": 0.022031590808182955,
      "learning_rate": 7.161599999999999e-06,
      "loss": 0.0249,
      "num_tokens": 96829954.0,
      "reward": 3.9301846027374268,
      "reward_std": 0.3949355185031891,
      "rewards/reward_fn/mean": 3.9301846027374268,
      "rewards/reward_fn/std": 0.3949355185031891,
      "step": 2097
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1887.0,
      "completions/max_terminated_length": 1887.0,
      "completions/mean_length": 511.59375,
      "completions/mean_terminated_length": 511.59375,
      "completions/min_length": 226.0,
      "completions/min_terminated_length": 226.0,
      "epoch": 0.22255224355574413,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.390625,
      "kl": 0.023883348098024726,
      "learning_rate": 7.161199999999999e-06,
      "loss": 0.0523,
      "num_tokens": 96860949.0,
      "reward": 2.677259922027588,
      "reward_std": 0.08000855147838593,
      "rewards/reward_fn/mean": 2.677259922027588,
      "rewards/reward_fn/std": 0.08000854402780533,
      "step": 2098
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1283.0,
      "completions/max_terminated_length": 1283.0,
      "completions/mean_length": 352.71875,
      "completions/mean_terminated_length": 352.71875,
      "completions/min_length": 192.0,
      "completions/min_terminated_length": 192.0,
      "epoch": 0.22265832184151904,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.023541218601167202,
      "learning_rate": 7.1608e-06,
      "loss": -0.0193,
      "num_tokens": 96929548.0,
      "reward": 3.930210590362549,
      "reward_std": 0.27486422657966614,
      "rewards/reward_fn/mean": 3.930210590362549,
      "rewards/reward_fn/std": 0.27486422657966614,
      "step": 2099
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 945.0,
      "completions/max_terminated_length": 945.0,
      "completions/mean_length": 254.5625,
      "completions/mean_terminated_length": 254.5625,
      "completions/min_length": 117.0,
      "completions/min_terminated_length": 117.0,
      "epoch": 0.22276440012729395,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.921875,
      "kl": 0.028475441271439195,
      "learning_rate": 7.1604e-06,
      "loss": -0.0486,
      "num_tokens": 96967934.0,
      "reward": 3.4316561222076416,
      "reward_std": 0.6160090565681458,
      "rewards/reward_fn/mean": 3.4316561222076416,
      "rewards/reward_fn/std": 0.6160091161727905,
      "step": 2100
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 224.0,
      "completions/max_terminated_length": 224.0,
      "completions/mean_length": 158.09375,
      "completions/mean_terminated_length": 158.09375,
      "completions/min_length": 116.0,
      "completions/min_terminated_length": 116.0,
      "epoch": 0.22287047841306884,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0869140625,
      "kl": 0.01883817312773317,
      "learning_rate": 7.16e-06,
      "loss": 0.0008,
      "num_tokens": 97000769.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2101
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 894.0,
      "completions/max_terminated_length": 894.0,
      "completions/mean_length": 325.4375,
      "completions/mean_terminated_length": 325.4375,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.22297655669884375,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.02302585169672966,
      "learning_rate": 7.1596e-06,
      "loss": 0.0672,
      "num_tokens": 97046383.0,
      "reward": 3.923642158508301,
      "reward_std": 0.3004699647426605,
      "rewards/reward_fn/mean": 3.923642158508301,
      "rewards/reward_fn/std": 0.3004699647426605,
      "step": 2102
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1747.0,
      "completions/max_terminated_length": 1747.0,
      "completions/mean_length": 518.75,
      "completions/mean_terminated_length": 518.75,
      "completions/min_length": 247.0,
      "completions/min_terminated_length": 247.0,
      "epoch": 0.22308263498461864,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2109375,
      "kl": 0.020775122102349997,
      "learning_rate": 7.1592e-06,
      "loss": -0.0671,
      "num_tokens": 97085383.0,
      "reward": 3.2577528953552246,
      "reward_std": 0.5909585356712341,
      "rewards/reward_fn/mean": 3.2577528953552246,
      "rewards/reward_fn/std": 0.5909585356712341,
      "step": 2103
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 419.0,
      "completions/max_terminated_length": 419.0,
      "completions/mean_length": 133.34375,
      "completions/mean_terminated_length": 133.34375,
      "completions/min_length": 68.0,
      "completions/min_terminated_length": 68.0,
      "epoch": 0.22318871327039355,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11328125,
      "kl": 0.021738857380114496,
      "learning_rate": 7.1588e-06,
      "loss": 0.0009,
      "num_tokens": 97141842.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2104
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 264.0,
      "completions/max_terminated_length": 264.0,
      "completions/mean_length": 170.125,
      "completions/mean_terminated_length": 170.125,
      "completions/min_length": 112.0,
      "completions/min_terminated_length": 112.0,
      "epoch": 0.22329479155616846,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.033207230269908905,
      "learning_rate": 7.1584e-06,
      "loss": -0.0047,
      "num_tokens": 97176086.0,
      "reward": 2.8362083435058594,
      "reward_std": 0.036612384021282196,
      "rewards/reward_fn/mean": 2.8362083435058594,
      "rewards/reward_fn/std": 0.03661240264773369,
      "step": 2105
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1838.0,
      "completions/max_terminated_length": 1838.0,
      "completions/mean_length": 596.125,
      "completions/mean_terminated_length": 596.125,
      "completions/min_length": 273.0,
      "completions/min_terminated_length": 273.0,
      "epoch": 0.22340086984194335,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.1875,
      "kl": 0.018431765493005514,
      "learning_rate": 7.158e-06,
      "loss": 0.1009,
      "num_tokens": 97241338.0,
      "reward": 2.9607906341552734,
      "reward_std": 0.35934340953826904,
      "rewards/reward_fn/mean": 2.9607906341552734,
      "rewards/reward_fn/std": 0.35934343934059143,
      "step": 2106
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1573.0,
      "completions/mean_length": 785.53125,
      "completions/mean_terminated_length": 744.8064575195312,
      "completions/min_length": 337.0,
      "completions/min_terminated_length": 337.0,
      "epoch": 0.22350694812771826,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.125,
      "kl": 0.01531498518306762,
      "learning_rate": 7.1576e-06,
      "loss": 0.1756,
      "num_tokens": 97316107.0,
      "reward": 3.421172618865967,
      "reward_std": 0.9520739316940308,
      "rewards/reward_fn/mean": 3.421172618865967,
      "rewards/reward_fn/std": 0.9520739316940308,
      "step": 2107
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.0,
      "completions/max_terminated_length": 486.0,
      "completions/mean_length": 183.09375,
      "completions/mean_terminated_length": 183.09375,
      "completions/min_length": 108.0,
      "completions/min_terminated_length": 108.0,
      "epoch": 0.22361302641349315,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08349609375,
      "kl": 0.019659267854876816,
      "learning_rate": 7.157199999999999e-06,
      "loss": 0.0008,
      "num_tokens": 97373774.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2108
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1686.0,
      "completions/max_terminated_length": 1686.0,
      "completions/mean_length": 378.09375,
      "completions/mean_terminated_length": 378.09375,
      "completions/min_length": 151.0,
      "completions/min_terminated_length": 151.0,
      "epoch": 0.22371910469926806,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02354878233745694,
      "learning_rate": 7.156799999999999e-06,
      "loss": -0.1435,
      "num_tokens": 97416305.0,
      "reward": 3.2668161392211914,
      "reward_std": 0.6438294053077698,
      "rewards/reward_fn/mean": 3.2668161392211914,
      "rewards/reward_fn/std": 0.6438294053077698,
      "step": 2109
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1249.0,
      "completions/max_terminated_length": 1249.0,
      "completions/mean_length": 371.375,
      "completions/mean_terminated_length": 371.375,
      "completions/min_length": 251.0,
      "completions/min_terminated_length": 251.0,
      "epoch": 0.22382518298504298,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.8359375,
      "kl": 0.023293010191991925,
      "learning_rate": 7.156399999999999e-06,
      "loss": -0.08,
      "num_tokens": 97471517.0,
      "reward": 3.9675302505493164,
      "reward_std": 0.18367597460746765,
      "rewards/reward_fn/mean": 3.9675302505493164,
      "rewards/reward_fn/std": 0.18367597460746765,
      "step": 2110
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1040.0,
      "completions/max_terminated_length": 1040.0,
      "completions/mean_length": 250.875,
      "completions/mean_terminated_length": 250.875,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.22393126127081786,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.0269605559296906,
      "learning_rate": 7.156e-06,
      "loss": 0.0463,
      "num_tokens": 97513113.0,
      "reward": 3.773740291595459,
      "reward_std": 0.4349633753299713,
      "rewards/reward_fn/mean": 3.773740291595459,
      "rewards/reward_fn/std": 0.4349633753299713,
      "step": 2111
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1635.0,
      "completions/max_terminated_length": 1635.0,
      "completions/mean_length": 382.4375,
      "completions/mean_terminated_length": 382.4375,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.22403733955659277,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.546875,
      "kl": 0.030054514296352863,
      "learning_rate": 7.1556e-06,
      "loss": 0.092,
      "num_tokens": 97554151.0,
      "reward": 3.541625499725342,
      "reward_std": 0.634077250957489,
      "rewards/reward_fn/mean": 3.541625499725342,
      "rewards/reward_fn/std": 0.634077250957489,
      "step": 2112
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1189.0,
      "completions/mean_length": 433.3125,
      "completions/mean_terminated_length": 381.2257995605469,
      "completions/min_length": 194.0,
      "completions/min_terminated_length": 194.0,
      "epoch": 0.22414341784236766,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.019980568438768387,
      "learning_rate": 7.1552e-06,
      "loss": 0.2043,
      "num_tokens": 97603313.0,
      "reward": 2.8600192070007324,
      "reward_std": 0.5243455171585083,
      "rewards/reward_fn/mean": 2.8600192070007324,
      "rewards/reward_fn/std": 0.5243453979492188,
      "step": 2113
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1545.0,
      "completions/max_terminated_length": 1545.0,
      "completions/mean_length": 422.5,
      "completions/mean_terminated_length": 422.5,
      "completions/min_length": 222.0,
      "completions/min_terminated_length": 222.0,
      "epoch": 0.22424949612814257,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.53125,
      "kl": 0.023464223137125373,
      "learning_rate": 7.1548e-06,
      "loss": -0.0462,
      "num_tokens": 97652833.0,
      "reward": 2.905588150024414,
      "reward_std": 0.43429967761039734,
      "rewards/reward_fn/mean": 2.905588150024414,
      "rewards/reward_fn/std": 0.43429967761039734,
      "step": 2114
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 628.0,
      "completions/max_terminated_length": 628.0,
      "completions/mean_length": 110.65625,
      "completions/mean_terminated_length": 110.65625,
      "completions/min_length": 60.0,
      "completions/min_terminated_length": 60.0,
      "epoch": 0.22435557441391746,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07421875,
      "kl": 0.016824107500724494,
      "learning_rate": 7.1544e-06,
      "loss": 0.0007,
      "num_tokens": 97702038.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2115
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1145.0,
      "completions/max_terminated_length": 1145.0,
      "completions/mean_length": 490.8125,
      "completions/mean_terminated_length": 490.8125,
      "completions/min_length": 301.0,
      "completions/min_terminated_length": 301.0,
      "epoch": 0.22446165269969237,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.203125,
      "kl": 0.019860751694068313,
      "learning_rate": 7.154e-06,
      "loss": 0.1159,
      "num_tokens": 97761872.0,
      "reward": 2.950417995452881,
      "reward_std": 0.4983111023902893,
      "rewards/reward_fn/mean": 2.950417995452881,
      "rewards/reward_fn/std": 0.4983111023902893,
      "step": 2116
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1101.0,
      "completions/max_terminated_length": 1101.0,
      "completions/mean_length": 337.09375,
      "completions/mean_terminated_length": 337.09375,
      "completions/min_length": 177.0,
      "completions/min_terminated_length": 177.0,
      "epoch": 0.22456773098546728,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.023477735929191113,
      "learning_rate": 7.1535999999999996e-06,
      "loss": -0.0293,
      "num_tokens": 97814899.0,
      "reward": 2.9934606552124023,
      "reward_std": 0.7055239677429199,
      "rewards/reward_fn/mean": 2.9934606552124023,
      "rewards/reward_fn/std": 0.7055239081382751,
      "step": 2117
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 338.0,
      "completions/max_terminated_length": 338.0,
      "completions/mean_length": 79.625,
      "completions/mean_terminated_length": 79.625,
      "completions/min_length": 51.0,
      "completions/min_terminated_length": 51.0,
      "epoch": 0.22467380927124217,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1083984375,
      "kl": 0.016976277576759458,
      "learning_rate": 7.1531999999999995e-06,
      "loss": 0.0007,
      "num_tokens": 97852359.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2118
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 702.0,
      "completions/max_terminated_length": 702.0,
      "completions/mean_length": 207.28125,
      "completions/mean_terminated_length": 207.28125,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.22477988755701708,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.10400390625,
      "kl": 0.024817738914862275,
      "learning_rate": 7.1527999999999995e-06,
      "loss": 0.001,
      "num_tokens": 97893552.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2119
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 814.0,
      "completions/max_terminated_length": 814.0,
      "completions/mean_length": 339.375,
      "completions/mean_terminated_length": 339.375,
      "completions/min_length": 202.0,
      "completions/min_terminated_length": 202.0,
      "epoch": 0.22488596584279197,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.484375,
      "kl": 0.02061704732477665,
      "learning_rate": 7.1523999999999995e-06,
      "loss": 0.0577,
      "num_tokens": 97941532.0,
      "reward": 3.6477723121643066,
      "reward_std": 0.603849470615387,
      "rewards/reward_fn/mean": 3.6477723121643066,
      "rewards/reward_fn/std": 0.603849470615387,
      "step": 2120
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1074.0,
      "completions/max_terminated_length": 1074.0,
      "completions/mean_length": 389.875,
      "completions/mean_terminated_length": 389.875,
      "completions/min_length": 271.0,
      "completions/min_terminated_length": 271.0,
      "epoch": 0.22499204412856688,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.016808875952847302,
      "learning_rate": 7.1519999999999995e-06,
      "loss": 0.0569,
      "num_tokens": 97989560.0,
      "reward": 3.6947927474975586,
      "reward_std": 0.5374994874000549,
      "rewards/reward_fn/mean": 3.6947927474975586,
      "rewards/reward_fn/std": 0.5374994277954102,
      "step": 2121
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1265.0,
      "completions/max_terminated_length": 1265.0,
      "completions/mean_length": 301.03125,
      "completions/mean_terminated_length": 301.03125,
      "completions/min_length": 145.0,
      "completions/min_terminated_length": 145.0,
      "epoch": 0.2250981224143418,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6484375,
      "kl": 0.017114053131081164,
      "learning_rate": 7.1516e-06,
      "loss": -0.0851,
      "num_tokens": 98029145.0,
      "reward": 3.0186710357666016,
      "reward_std": 0.19123917818069458,
      "rewards/reward_fn/mean": 3.0186710357666016,
      "rewards/reward_fn/std": 0.1912391483783722,
      "step": 2122
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1113.0,
      "completions/max_terminated_length": 1113.0,
      "completions/mean_length": 243.0,
      "completions/mean_terminated_length": 243.0,
      "completions/min_length": 91.0,
      "completions/min_terminated_length": 91.0,
      "epoch": 0.22520420070011668,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.6875,
      "kl": 0.02709133573807776,
      "learning_rate": 7.1512e-06,
      "loss": 0.06,
      "num_tokens": 98067161.0,
      "reward": 3.966747760772705,
      "reward_std": 0.18810324370861053,
      "rewards/reward_fn/mean": 3.966747760772705,
      "rewards/reward_fn/std": 0.18810328841209412,
      "step": 2123
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1021.0,
      "completions/max_terminated_length": 1021.0,
      "completions/mean_length": 588.46875,
      "completions/mean_terminated_length": 588.46875,
      "completions/min_length": 336.0,
      "completions/min_terminated_length": 336.0,
      "epoch": 0.2253102789858916,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.02302650804631412,
      "learning_rate": 7.1508e-06,
      "loss": 0.1045,
      "num_tokens": 98148168.0,
      "reward": 2.512251853942871,
      "reward_std": 0.5429190397262573,
      "rewards/reward_fn/mean": 2.512251853942871,
      "rewards/reward_fn/std": 0.5429189801216125,
      "step": 2124
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 598.0,
      "completions/max_terminated_length": 598.0,
      "completions/mean_length": 286.03125,
      "completions/mean_terminated_length": 286.03125,
      "completions/min_length": 198.0,
      "completions/min_terminated_length": 198.0,
      "epoch": 0.22541635727166648,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.024617045186460018,
      "learning_rate": 7.1504e-06,
      "loss": 0.1288,
      "num_tokens": 98196681.0,
      "reward": 3.893162727355957,
      "reward_std": 0.3376566171646118,
      "rewards/reward_fn/mean": 3.893162727355957,
      "rewards/reward_fn/std": 0.3376566171646118,
      "step": 2125
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 486.0,
      "completions/max_terminated_length": 486.0,
      "completions/mean_length": 219.75,
      "completions/mean_terminated_length": 219.75,
      "completions/min_length": 128.0,
      "completions/min_terminated_length": 128.0,
      "epoch": 0.2255224355574414,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.0329362649936229,
      "learning_rate": 7.15e-06,
      "loss": 0.0216,
      "num_tokens": 98247457.0,
      "reward": 2.987175703048706,
      "reward_std": 0.47789204120635986,
      "rewards/reward_fn/mean": 2.987175703048706,
      "rewards/reward_fn/std": 0.47789207100868225,
      "step": 2126
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 697.0,
      "completions/max_terminated_length": 697.0,
      "completions/mean_length": 213.40625,
      "completions/mean_terminated_length": 213.40625,
      "completions/min_length": 105.0,
      "completions/min_terminated_length": 105.0,
      "epoch": 0.2256285138432163,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.057373046875,
      "kl": 0.011680109717417508,
      "learning_rate": 7.1496e-06,
      "loss": 0.0005,
      "num_tokens": 98285070.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2127
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 613.0,
      "completions/max_terminated_length": 613.0,
      "completions/mean_length": 163.03125,
      "completions/mean_terminated_length": 163.03125,
      "completions/min_length": 102.0,
      "completions/min_terminated_length": 102.0,
      "epoch": 0.2257345921289912,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.078125,
      "kl": 0.015980440541170537,
      "learning_rate": 7.1492e-06,
      "loss": 0.0006,
      "num_tokens": 98311599.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2128
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1539.0,
      "completions/max_terminated_length": 1539.0,
      "completions/mean_length": 355.4375,
      "completions/mean_terminated_length": 355.4375,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.2258406704147661,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8515625,
      "kl": 0.023469509556889534,
      "learning_rate": 7.148799999999999e-06,
      "loss": -0.051,
      "num_tokens": 98361501.0,
      "reward": 3.1205215454101562,
      "reward_std": 0.9047970175743103,
      "rewards/reward_fn/mean": 3.1205215454101562,
      "rewards/reward_fn/std": 0.9047970771789551,
      "step": 2129
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1518.0,
      "completions/max_terminated_length": 1518.0,
      "completions/mean_length": 397.71875,
      "completions/mean_terminated_length": 397.71875,
      "completions/min_length": 234.0,
      "completions/min_terminated_length": 234.0,
      "epoch": 0.225946748700541,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4140625,
      "kl": 0.019150591921061277,
      "learning_rate": 7.148399999999999e-06,
      "loss": -0.0415,
      "num_tokens": 98412372.0,
      "reward": 2.7703003883361816,
      "reward_std": 0.2596660852432251,
      "rewards/reward_fn/mean": 2.7703003883361816,
      "rewards/reward_fn/std": 0.2596660554409027,
      "step": 2130
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1542.0,
      "completions/max_terminated_length": 1542.0,
      "completions/mean_length": 377.90625,
      "completions/mean_terminated_length": 377.90625,
      "completions/min_length": 225.0,
      "completions/min_terminated_length": 225.0,
      "epoch": 0.2260528269863159,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.022556321462616324,
      "learning_rate": 7.147999999999999e-06,
      "loss": 0.0785,
      "num_tokens": 98456241.0,
      "reward": 3.0584633350372314,
      "reward_std": 0.5075932145118713,
      "rewards/reward_fn/mean": 3.0584633350372314,
      "rewards/reward_fn/std": 0.5075931549072266,
      "step": 2131
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 722.0,
      "completions/max_terminated_length": 722.0,
      "completions/mean_length": 190.125,
      "completions/mean_terminated_length": 190.125,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.22615890527209082,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 3.390625,
      "kl": 0.01705359760671854,
      "learning_rate": 7.147599999999999e-06,
      "loss": 0.1622,
      "num_tokens": 98508533.0,
      "reward": 3.8904531002044678,
      "reward_std": 0.34638121724128723,
      "rewards/reward_fn/mean": 3.8904531002044678,
      "rewards/reward_fn/std": 0.34638121724128723,
      "step": 2132
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 519.0,
      "completions/max_terminated_length": 519.0,
      "completions/mean_length": 332.03125,
      "completions/mean_terminated_length": 332.03125,
      "completions/min_length": 244.0,
      "completions/min_terminated_length": 244.0,
      "epoch": 0.2262649835578657,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.023051244905218482,
      "learning_rate": 7.147199999999999e-06,
      "loss": 0.0897,
      "num_tokens": 98553238.0,
      "reward": 3.1788926124572754,
      "reward_std": 0.6480764746665955,
      "rewards/reward_fn/mean": 3.1788926124572754,
      "rewards/reward_fn/std": 0.6480764746665955,
      "step": 2133
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 586.0,
      "completions/max_terminated_length": 586.0,
      "completions/mean_length": 230.8125,
      "completions/mean_terminated_length": 230.8125,
      "completions/min_length": 158.0,
      "completions/min_terminated_length": 158.0,
      "epoch": 0.22637106184364061,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.01907302311155945,
      "learning_rate": 7.1468e-06,
      "loss": -0.031,
      "num_tokens": 98602416.0,
      "reward": 3.8189072608947754,
      "reward_std": 0.5166525840759277,
      "rewards/reward_fn/mean": 3.8189072608947754,
      "rewards/reward_fn/std": 0.516652524471283,
      "step": 2134
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 2044.0,
      "completions/max_terminated_length": 2044.0,
      "completions/mean_length": 471.53125,
      "completions/mean_terminated_length": 471.53125,
      "completions/min_length": 238.0,
      "completions/min_terminated_length": 238.0,
      "epoch": 0.2264771401294155,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3359375,
      "kl": 0.016809441964142025,
      "learning_rate": 7.1464e-06,
      "loss": -0.1404,
      "num_tokens": 98653633.0,
      "reward": 3.647747039794922,
      "reward_std": 0.5732264518737793,
      "rewards/reward_fn/mean": 3.647747039794922,
      "rewards/reward_fn/std": 0.5732264518737793,
      "step": 2135
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1298.0,
      "completions/max_terminated_length": 1298.0,
      "completions/mean_length": 260.28125,
      "completions/mean_terminated_length": 260.28125,
      "completions/min_length": 140.0,
      "completions/min_terminated_length": 140.0,
      "epoch": 0.2265832184151904,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.026241691317409277,
      "learning_rate": 7.146e-06,
      "loss": 0.0298,
      "num_tokens": 98678858.0,
      "reward": 3.641641616821289,
      "reward_std": 0.47242069244384766,
      "rewards/reward_fn/mean": 3.641641616821289,
      "rewards/reward_fn/std": 0.47242069244384766,
      "step": 2136
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0625,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 1598.0,
      "completions/mean_length": 695.40625,
      "completions/mean_terminated_length": 605.2333374023438,
      "completions/min_length": 393.0,
      "completions/min_terminated_length": 393.0,
      "epoch": 0.22668929670096533,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.018082533963024616,
      "learning_rate": 7.1456e-06,
      "loss": 0.1919,
      "num_tokens": 98741495.0,
      "reward": 2.9328463077545166,
      "reward_std": 0.5077850222587585,
      "rewards/reward_fn/mean": 2.9328463077545166,
      "rewards/reward_fn/std": 0.5077849626541138,
      "step": 2137
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1250.0,
      "completions/max_terminated_length": 1250.0,
      "completions/mean_length": 345.21875,
      "completions/mean_terminated_length": 345.21875,
      "completions/min_length": 186.0,
      "completions/min_terminated_length": 186.0,
      "epoch": 0.2267953749867402,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.453125,
      "kl": 0.020768756279721856,
      "learning_rate": 7.1452e-06,
      "loss": 0.1444,
      "num_tokens": 98782814.0,
      "reward": 2.7692275047302246,
      "reward_std": 0.04734927415847778,
      "rewards/reward_fn/mean": 2.7692275047302246,
      "rewards/reward_fn/std": 0.047349270433187485,
      "step": 2138
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 807.0,
      "completions/max_terminated_length": 807.0,
      "completions/mean_length": 259.0,
      "completions/mean_terminated_length": 259.0,
      "completions/min_length": 137.0,
      "completions/min_terminated_length": 137.0,
      "epoch": 0.22690145327251512,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7734375,
      "kl": 0.025864448165521026,
      "learning_rate": 7.1448e-06,
      "loss": 0.1333,
      "num_tokens": 98819966.0,
      "reward": 2.8633437156677246,
      "reward_std": 0.04574419930577278,
      "rewards/reward_fn/mean": 2.8633437156677246,
      "rewards/reward_fn/std": 0.04574418067932129,
      "step": 2139
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 208.0,
      "completions/max_terminated_length": 208.0,
      "completions/mean_length": 105.78125,
      "completions/mean_terminated_length": 105.78125,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.22700753155829,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.09912109375,
      "kl": 0.018404418835416436,
      "learning_rate": 7.1444e-06,
      "loss": 0.0007,
      "num_tokens": 98846903.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2140
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 434.0,
      "completions/max_terminated_length": 434.0,
      "completions/mean_length": 285.21875,
      "completions/mean_terminated_length": 285.21875,
      "completions/min_length": 196.0,
      "completions/min_terminated_length": 196.0,
      "epoch": 0.22711360984406492,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.828125,
      "kl": 0.017287316382862628,
      "learning_rate": 7.144e-06,
      "loss": -0.0023,
      "num_tokens": 98902142.0,
      "reward": 2.7961578369140625,
      "reward_std": 0.4452827572822571,
      "rewards/reward_fn/mean": 2.7961578369140625,
      "rewards/reward_fn/std": 0.4452826976776123,
      "step": 2141
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 953.0,
      "completions/max_terminated_length": 953.0,
      "completions/mean_length": 233.21875,
      "completions/mean_terminated_length": 233.21875,
      "completions/min_length": 90.0,
      "completions/min_terminated_length": 90.0,
      "epoch": 0.2272196881298398,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.515625,
      "kl": 0.025570286670699716,
      "learning_rate": 7.1436e-06,
      "loss": 0.2669,
      "num_tokens": 98946053.0,
      "reward": 3.322685956954956,
      "reward_std": 0.10418742150068283,
      "rewards/reward_fn/mean": 3.322685956954956,
      "rewards/reward_fn/std": 0.10418742895126343,
      "step": 2142
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1006.0,
      "completions/max_terminated_length": 1006.0,
      "completions/mean_length": 340.65625,
      "completions/mean_terminated_length": 340.65625,
      "completions/min_length": 156.0,
      "completions/min_terminated_length": 156.0,
      "epoch": 0.22732576641561472,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06591796875,
      "kl": 0.01869728649035096,
      "learning_rate": 7.1432e-06,
      "loss": 0.0007,
      "num_tokens": 98999642.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2143
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1734.0,
      "completions/max_terminated_length": 1734.0,
      "completions/mean_length": 447.5,
      "completions/mean_terminated_length": 447.5,
      "completions/min_length": 305.0,
      "completions/min_terminated_length": 305.0,
      "epoch": 0.22743184470138963,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.4296875,
      "kl": 0.020166749833151698,
      "learning_rate": 7.1428e-06,
      "loss": 0.0329,
      "num_tokens": 99053162.0,
      "reward": 2.868180274963379,
      "reward_std": 0.04937407374382019,
      "rewards/reward_fn/mean": 2.868180274963379,
      "rewards/reward_fn/std": 0.049374066293239594,
      "step": 2144
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 739.0,
      "completions/max_terminated_length": 739.0,
      "completions/mean_length": 207.625,
      "completions/mean_terminated_length": 207.625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.22753792298716452,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07080078125,
      "kl": 0.016309529077261686,
      "learning_rate": 7.1424e-06,
      "loss": 0.0007,
      "num_tokens": 99096958.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2145
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 945.0,
      "completions/max_terminated_length": 945.0,
      "completions/mean_length": 257.5625,
      "completions/mean_terminated_length": 257.5625,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.22764400127293943,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.796875,
      "kl": 0.02131958887912333,
      "learning_rate": 7.142e-06,
      "loss": -0.0234,
      "num_tokens": 99143504.0,
      "reward": 3.061922788619995,
      "reward_std": 0.41329920291900635,
      "rewards/reward_fn/mean": 3.061922788619995,
      "rewards/reward_fn/std": 0.41329917311668396,
      "step": 2146
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 800.0,
      "completions/max_terminated_length": 800.0,
      "completions/mean_length": 179.21875,
      "completions/mean_terminated_length": 179.21875,
      "completions/min_length": 78.0,
      "completions/min_terminated_length": 78.0,
      "epoch": 0.22775007955871432,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.421875,
      "kl": 0.03266157838515937,
      "learning_rate": 7.1416e-06,
      "loss": 0.1967,
      "num_tokens": 99180919.0,
      "reward": 2.9364829063415527,
      "reward_std": 0.05752362683415413,
      "rewards/reward_fn/mean": 2.9364829063415527,
      "rewards/reward_fn/std": 0.05752362310886383,
      "step": 2147
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 443.0,
      "completions/max_terminated_length": 443.0,
      "completions/mean_length": 163.40625,
      "completions/mean_terminated_length": 163.40625,
      "completions/min_length": 89.0,
      "completions/min_terminated_length": 89.0,
      "epoch": 0.22785615784448923,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.734375,
      "kl": 0.02107630728278309,
      "learning_rate": 7.1412e-06,
      "loss": 0.0386,
      "num_tokens": 99222948.0,
      "reward": 3.933260440826416,
      "reward_std": 0.26269760727882385,
      "rewards/reward_fn/mean": 3.933260440826416,
      "rewards/reward_fn/std": 0.26269757747650146,
      "step": 2148
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1169.0,
      "completions/max_terminated_length": 1169.0,
      "completions/mean_length": 490.1875,
      "completions/mean_terminated_length": 490.1875,
      "completions/min_length": 239.0,
      "completions/min_terminated_length": 239.0,
      "epoch": 0.22796223613026415,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3125,
      "kl": 0.020313676446676254,
      "learning_rate": 7.1407999999999995e-06,
      "loss": 0.0864,
      "num_tokens": 99298218.0,
      "reward": 2.649317979812622,
      "reward_std": 0.5141263604164124,
      "rewards/reward_fn/mean": 2.649317979812622,
      "rewards/reward_fn/std": 0.5141263604164124,
      "step": 2149
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1038.0,
      "completions/max_terminated_length": 1038.0,
      "completions/mean_length": 312.34375,
      "completions/mean_terminated_length": 312.34375,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.22806831441603903,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.75,
      "kl": 0.02623810595832765,
      "learning_rate": 7.1403999999999994e-06,
      "loss": -0.079,
      "num_tokens": 99346709.0,
      "reward": 3.2548115253448486,
      "reward_std": 0.5868596434593201,
      "rewards/reward_fn/mean": 3.2548115253448486,
      "rewards/reward_fn/std": 0.5868596434593201,
      "step": 2150
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1001.0,
      "completions/max_terminated_length": 1001.0,
      "completions/mean_length": 285.4375,
      "completions/mean_terminated_length": 285.4375,
      "completions/min_length": 144.0,
      "completions/min_terminated_length": 144.0,
      "epoch": 0.22817439270181394,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8984375,
      "kl": 0.027033630991354585,
      "learning_rate": 7.139999999999999e-06,
      "loss": 0.1689,
      "num_tokens": 99391395.0,
      "reward": 3.732773780822754,
      "reward_std": 0.5501604676246643,
      "rewards/reward_fn/mean": 3.732773780822754,
      "rewards/reward_fn/std": 0.5501604676246643,
      "step": 2151
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 883.0,
      "completions/max_terminated_length": 883.0,
      "completions/mean_length": 210.59375,
      "completions/mean_terminated_length": 210.59375,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.22828047098758883,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.015625,
      "kl": 0.01814991922583431,
      "learning_rate": 7.139599999999999e-06,
      "loss": -0.0006,
      "num_tokens": 99410710.0,
      "reward": 2.9454665184020996,
      "reward_std": 0.04778565838932991,
      "rewards/reward_fn/mean": 2.9454665184020996,
      "rewards/reward_fn/std": 0.04778566583991051,
      "step": 2152
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 987.0,
      "completions/max_terminated_length": 987.0,
      "completions/mean_length": 308.875,
      "completions/mean_terminated_length": 308.875,
      "completions/min_length": 187.0,
      "completions/min_terminated_length": 187.0,
      "epoch": 0.22838654927336374,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.0947265625,
      "kl": 0.024135290645062923,
      "learning_rate": 7.139199999999999e-06,
      "loss": 0.001,
      "num_tokens": 99458034.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2153
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1181.0,
      "completions/max_terminated_length": 1181.0,
      "completions/mean_length": 292.5625,
      "completions/mean_terminated_length": 292.5625,
      "completions/min_length": 131.0,
      "completions/min_terminated_length": 131.0,
      "epoch": 0.22849262755913866,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8125,
      "kl": 0.03052612068131566,
      "learning_rate": 7.138799999999999e-06,
      "loss": -0.0475,
      "num_tokens": 99498948.0,
      "reward": 3.8826375007629395,
      "reward_std": 0.3714655637741089,
      "rewards/reward_fn/mean": 3.8826375007629395,
      "rewards/reward_fn/std": 0.3714655637741089,
      "step": 2154
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1912.0,
      "completions/max_terminated_length": 1912.0,
      "completions/mean_length": 348.375,
      "completions/mean_terminated_length": 348.375,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.22859870584491354,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.02576355915516615,
      "learning_rate": 7.138399999999999e-06,
      "loss": -0.0272,
      "num_tokens": 99553680.0,
      "reward": 3.7404799461364746,
      "reward_std": 0.5951921939849854,
      "rewards/reward_fn/mean": 3.7404799461364746,
      "rewards/reward_fn/std": 0.5951921343803406,
      "step": 2155
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 833.0,
      "completions/max_terminated_length": 833.0,
      "completions/mean_length": 297.3125,
      "completions/mean_terminated_length": 297.3125,
      "completions/min_length": 129.0,
      "completions/min_terminated_length": 129.0,
      "epoch": 0.22870478413068845,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5234375,
      "kl": 0.02024422027170658,
      "learning_rate": 7.137999999999999e-06,
      "loss": 0.0165,
      "num_tokens": 99598522.0,
      "reward": 2.861987352371216,
      "reward_std": 0.38427045941352844,
      "rewards/reward_fn/mean": 2.861987352371216,
      "rewards/reward_fn/std": 0.38427045941352844,
      "step": 2156
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 503.0,
      "completions/max_terminated_length": 503.0,
      "completions/mean_length": 166.09375,
      "completions/mean_terminated_length": 166.09375,
      "completions/min_length": 86.0,
      "completions/min_terminated_length": 86.0,
      "epoch": 0.22881086241646334,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.421875,
      "kl": 0.02221654006280005,
      "learning_rate": 7.137599999999999e-06,
      "loss": -0.0167,
      "num_tokens": 99634173.0,
      "reward": 3.8790369033813477,
      "reward_std": 0.28946876525878906,
      "rewards/reward_fn/mean": 3.8790369033813477,
      "rewards/reward_fn/std": 0.28946876525878906,
      "step": 2157
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1931.0,
      "completions/max_terminated_length": 1931.0,
      "completions/mean_length": 596.8125,
      "completions/mean_terminated_length": 596.8125,
      "completions/min_length": 342.0,
      "completions/min_terminated_length": 342.0,
      "epoch": 0.22891694070223825,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.25,
      "kl": 0.022596941329538822,
      "learning_rate": 7.1372e-06,
      "loss": 0.0232,
      "num_tokens": 99696119.0,
      "reward": 2.7338013648986816,
      "reward_std": 0.1886308789253235,
      "rewards/reward_fn/mean": 2.7338013648986816,
      "rewards/reward_fn/std": 0.1886308640241623,
      "step": 2158
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1288.0,
      "completions/max_terminated_length": 1288.0,
      "completions/mean_length": 437.3125,
      "completions/mean_terminated_length": 437.3125,
      "completions/min_length": 173.0,
      "completions/min_terminated_length": 173.0,
      "epoch": 0.22902301898801317,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.8671875,
      "kl": 0.028475699247792363,
      "learning_rate": 7.1368e-06,
      "loss": -0.198,
      "num_tokens": 99739841.0,
      "reward": 3.0553183555603027,
      "reward_std": 0.39695262908935547,
      "rewards/reward_fn/mean": 3.0553183555603027,
      "rewards/reward_fn/std": 0.3969525992870331,
      "step": 2159
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 152.0,
      "completions/max_terminated_length": 152.0,
      "completions/mean_length": 102.15625,
      "completions/mean_terminated_length": 102.15625,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.22912909727378805,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08642578125,
      "kl": 0.013394350535236299,
      "learning_rate": 7.1364e-06,
      "loss": 0.0005,
      "num_tokens": 99773542.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2160
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 942.0,
      "completions/max_terminated_length": 942.0,
      "completions/mean_length": 370.6875,
      "completions/mean_terminated_length": 370.6875,
      "completions/min_length": 215.0,
      "completions/min_terminated_length": 215.0,
      "epoch": 0.22923517555956296,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.3203125,
      "kl": 0.01727902633138001,
      "learning_rate": 7.136e-06,
      "loss": 0.1644,
      "num_tokens": 99804604.0,
      "reward": 2.8176543712615967,
      "reward_std": 0.04095921292901039,
      "rewards/reward_fn/mean": 2.8176543712615967,
      "rewards/reward_fn/std": 0.04095920920372009,
      "step": 2161
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 426.0,
      "completions/max_terminated_length": 426.0,
      "completions/mean_length": 149.78125,
      "completions/mean_terminated_length": 149.78125,
      "completions/min_length": 96.0,
      "completions/min_terminated_length": 96.0,
      "epoch": 0.22934125384533785,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.091796875,
      "kl": 0.021210170816630125,
      "learning_rate": 7.1356e-06,
      "loss": 0.0008,
      "num_tokens": 99853013.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2162
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1352.0,
      "completions/max_terminated_length": 1352.0,
      "completions/mean_length": 299.90625,
      "completions/mean_terminated_length": 299.90625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.22944733213111276,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7109375,
      "kl": 0.028875578893348575,
      "learning_rate": 7.1352e-06,
      "loss": 0.0038,
      "num_tokens": 99914418.0,
      "reward": 2.7917895317077637,
      "reward_std": 0.2923561930656433,
      "rewards/reward_fn/mean": 2.7917895317077637,
      "rewards/reward_fn/std": 0.2923561930656433,
      "step": 2163
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 369.0,
      "completions/max_terminated_length": 369.0,
      "completions/mean_length": 156.875,
      "completions/mean_terminated_length": 156.875,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.22955341041688768,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.1083984375,
      "kl": 0.02055112540256232,
      "learning_rate": 7.1348e-06,
      "loss": 0.0008,
      "num_tokens": 99960398.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2164
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 991.0,
      "completions/max_terminated_length": 991.0,
      "completions/mean_length": 149.875,
      "completions/mean_terminated_length": 149.875,
      "completions/min_length": 75.0,
      "completions/min_terminated_length": 75.0,
      "epoch": 0.22965948870266256,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.953125,
      "kl": 0.02863681223243475,
      "learning_rate": 7.1344e-06,
      "loss": -0.0067,
      "num_tokens": 99982122.0,
      "reward": 3.969954013824463,
      "reward_std": 0.1699649542570114,
      "rewards/reward_fn/mean": 3.969954013824463,
      "rewards/reward_fn/std": 0.1699649542570114,
      "step": 2165
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1111.0,
      "completions/max_terminated_length": 1111.0,
      "completions/mean_length": 504.25,
      "completions/mean_terminated_length": 504.25,
      "completions/min_length": 328.0,
      "completions/min_terminated_length": 328.0,
      "epoch": 0.22976556698843748,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2734375,
      "kl": 0.01761721633374691,
      "learning_rate": 7.134e-06,
      "loss": 0.0124,
      "num_tokens": 100038514.0,
      "reward": 3.1369893550872803,
      "reward_std": 0.5092772841453552,
      "rewards/reward_fn/mean": 3.1369893550872803,
      "rewards/reward_fn/std": 0.5092772841453552,
      "step": 2166
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1461.0,
      "completions/max_terminated_length": 1461.0,
      "completions/mean_length": 400.40625,
      "completions/mean_terminated_length": 400.40625,
      "completions/min_length": 227.0,
      "completions/min_terminated_length": 227.0,
      "epoch": 0.22987164527421236,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 0.8671875,
      "kl": 0.02728833886794746,
      "learning_rate": 7.1336e-06,
      "loss": 0.1206,
      "num_tokens": 100080255.0,
      "reward": 2.9163427352905273,
      "reward_std": 0.20467211306095123,
      "rewards/reward_fn/mean": 2.9163427352905273,
      "rewards/reward_fn/std": 0.20467209815979004,
      "step": 2167
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 770.0,
      "completions/max_terminated_length": 770.0,
      "completions/mean_length": 252.90625,
      "completions/mean_terminated_length": 252.90625,
      "completions/min_length": 134.0,
      "completions/min_terminated_length": 134.0,
      "epoch": 0.22997772355998727,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.25,
      "kl": 0.026255525881424546,
      "learning_rate": 7.1332e-06,
      "loss": 0.1577,
      "num_tokens": 100104924.0,
      "reward": 3.8455944061279297,
      "reward_std": 0.3646887540817261,
      "rewards/reward_fn/mean": 3.8455944061279297,
      "rewards/reward_fn/std": 0.3646887540817261,
      "step": 2168
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 459.0,
      "completions/max_terminated_length": 459.0,
      "completions/mean_length": 268.25,
      "completions/mean_terminated_length": 268.25,
      "completions/min_length": 189.0,
      "completions/min_terminated_length": 189.0,
      "epoch": 0.23008380184576216,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.625,
      "kl": 0.020109534729272127,
      "learning_rate": 7.132799999999999e-06,
      "loss": 0.0003,
      "num_tokens": 100135012.0,
      "reward": 3.9615554809570312,
      "reward_std": 0.2174752801656723,
      "rewards/reward_fn/mean": 3.9615554809570312,
      "rewards/reward_fn/std": 0.2174752801656723,
      "step": 2169
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1004.0,
      "completions/max_terminated_length": 1004.0,
      "completions/mean_length": 283.25,
      "completions/mean_terminated_length": 283.25,
      "completions/min_length": 182.0,
      "completions/min_terminated_length": 182.0,
      "epoch": 0.23018988013153707,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.046875,
      "kl": 0.020035719266161323,
      "learning_rate": 7.1324e-06,
      "loss": 0.0479,
      "num_tokens": 100157420.0,
      "reward": 3.928600788116455,
      "reward_std": 0.4038942754268646,
      "rewards/reward_fn/mean": 3.928600788116455,
      "rewards/reward_fn/std": 0.4038942754268646,
      "step": 2170
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1563.0,
      "completions/max_terminated_length": 1563.0,
      "completions/mean_length": 414.53125,
      "completions/mean_terminated_length": 414.53125,
      "completions/min_length": 168.0,
      "completions/min_terminated_length": 168.0,
      "epoch": 0.23029595841731199,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.34375,
      "kl": 0.027303512208163738,
      "learning_rate": 7.132e-06,
      "loss": -0.0721,
      "num_tokens": 100210237.0,
      "reward": 3.4726829528808594,
      "reward_std": 0.6791224479675293,
      "rewards/reward_fn/mean": 3.4726829528808594,
      "rewards/reward_fn/std": 0.6791225075721741,
      "step": 2171
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 640.0,
      "completions/max_terminated_length": 640.0,
      "completions/mean_length": 204.09375,
      "completions/mean_terminated_length": 204.09375,
      "completions/min_length": 113.0,
      "completions/min_terminated_length": 113.0,
      "epoch": 0.23040203670308687,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9609375,
      "kl": 0.02836342342197895,
      "learning_rate": 7.1316e-06,
      "loss": -0.026,
      "num_tokens": 100255296.0,
      "reward": 3.934906005859375,
      "reward_std": 0.25615838170051575,
      "rewards/reward_fn/mean": 3.934906005859375,
      "rewards/reward_fn/std": 0.25615841150283813,
      "step": 2172
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1028.0,
      "completions/max_terminated_length": 1028.0,
      "completions/mean_length": 283.34375,
      "completions/mean_terminated_length": 283.34375,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.23050811498886178,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.028128183213993907,
      "learning_rate": 7.1312e-06,
      "loss": 0.1033,
      "num_tokens": 100299659.0,
      "reward": 3.6705162525177,
      "reward_std": 0.551688551902771,
      "rewards/reward_fn/mean": 3.6705162525177,
      "rewards/reward_fn/std": 0.5516886115074158,
      "step": 2173
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1181.0,
      "completions/max_terminated_length": 1181.0,
      "completions/mean_length": 352.8125,
      "completions/mean_terminated_length": 352.8125,
      "completions/min_length": 211.0,
      "completions/min_terminated_length": 211.0,
      "epoch": 0.23061419327463667,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2890625,
      "kl": 0.01739080680999905,
      "learning_rate": 7.1307999999999996e-06,
      "loss": 0.1207,
      "num_tokens": 100346725.0,
      "reward": 2.7642221450805664,
      "reward_std": 0.028661344200372696,
      "rewards/reward_fn/mean": 2.7642221450805664,
      "rewards/reward_fn/std": 0.028661338612437248,
      "step": 2174
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 415.0,
      "completions/max_terminated_length": 415.0,
      "completions/mean_length": 126.09375,
      "completions/mean_terminated_length": 126.09375,
      "completions/min_length": 74.0,
      "completions/min_terminated_length": 74.0,
      "epoch": 0.23072027156041158,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.06591796875,
      "kl": 0.011620030330959707,
      "learning_rate": 7.1303999999999995e-06,
      "loss": 0.0005,
      "num_tokens": 100413096.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2175
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1259.0,
      "completions/max_terminated_length": 1259.0,
      "completions/mean_length": 360.71875,
      "completions/mean_terminated_length": 360.71875,
      "completions/min_length": 195.0,
      "completions/min_terminated_length": 195.0,
      "epoch": 0.2308263498461865,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6015625,
      "kl": 0.024960935348644853,
      "learning_rate": 7.1299999999999995e-06,
      "loss": 0.0453,
      "num_tokens": 100461247.0,
      "reward": 3.6098623275756836,
      "reward_std": 0.7507240176200867,
      "rewards/reward_fn/mean": 3.6098623275756836,
      "rewards/reward_fn/std": 0.7507238984107971,
      "step": 2176
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 847.0,
      "completions/max_terminated_length": 847.0,
      "completions/mean_length": 261.90625,
      "completions/mean_terminated_length": 261.90625,
      "completions/min_length": 146.0,
      "completions/min_terminated_length": 146.0,
      "epoch": 0.23093242813196138,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.02353836433030665,
      "learning_rate": 7.1295999999999995e-06,
      "loss": 0.0189,
      "num_tokens": 100510204.0,
      "reward": 2.9872453212738037,
      "reward_std": 0.39124536514282227,
      "rewards/reward_fn/mean": 2.9872453212738037,
      "rewards/reward_fn/std": 0.3912453353404999,
      "step": 2177
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 986.0,
      "completions/max_terminated_length": 986.0,
      "completions/mean_length": 328.5625,
      "completions/mean_terminated_length": 328.5625,
      "completions/min_length": 185.0,
      "completions/min_terminated_length": 185.0,
      "epoch": 0.2310385064177363,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.9375,
      "kl": 0.026427945122122765,
      "learning_rate": 7.1291999999999994e-06,
      "loss": 0.0886,
      "num_tokens": 100564046.0,
      "reward": 3.81813645362854,
      "reward_std": 0.5137379169464111,
      "rewards/reward_fn/mean": 3.81813645362854,
      "rewards/reward_fn/std": 0.5137379169464111,
      "step": 2178
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1475.0,
      "completions/max_terminated_length": 1475.0,
      "completions/mean_length": 349.96875,
      "completions/mean_terminated_length": 349.96875,
      "completions/min_length": 154.0,
      "completions/min_terminated_length": 154.0,
      "epoch": 0.23114458470351118,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.5625,
      "kl": 0.02832777169533074,
      "learning_rate": 7.128799999999999e-06,
      "loss": -0.0493,
      "num_tokens": 100610381.0,
      "reward": 2.8107922077178955,
      "reward_std": 0.21972812712192535,
      "rewards/reward_fn/mean": 2.8107922077178955,
      "rewards/reward_fn/std": 0.21972811222076416,
      "step": 2179
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 964.0,
      "completions/max_terminated_length": 964.0,
      "completions/mean_length": 290.75,
      "completions/mean_terminated_length": 290.75,
      "completions/min_length": 141.0,
      "completions/min_terminated_length": 141.0,
      "epoch": 0.2312506629892861,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.078125,
      "kl": 0.021952015929855406,
      "learning_rate": 7.128399999999999e-06,
      "loss": 0.0009,
      "num_tokens": 100650533.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2180
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.03125,
      "completions/max_length": 2048.0,
      "completions/max_terminated_length": 966.0,
      "completions/mean_length": 441.8125,
      "completions/mean_terminated_length": 390.0,
      "completions/min_length": 199.0,
      "completions/min_terminated_length": 199.0,
      "epoch": 0.231356741275061,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.029917727690190077,
      "learning_rate": 7.128e-06,
      "loss": 0.2161,
      "num_tokens": 100676063.0,
      "reward": 2.702650547027588,
      "reward_std": 0.7632204294204712,
      "rewards/reward_fn/mean": 2.702650547027588,
      "rewards/reward_fn/std": 0.7632204294204712,
      "step": 2181
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1366.0,
      "completions/max_terminated_length": 1366.0,
      "completions/mean_length": 250.1875,
      "completions/mean_terminated_length": 250.1875,
      "completions/min_length": 125.0,
      "completions/min_terminated_length": 125.0,
      "epoch": 0.2314628195608359,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0,
      "kl": 0.030789189273491502,
      "learning_rate": 7.1276e-06,
      "loss": -0.0116,
      "num_tokens": 100717029.0,
      "reward": 3.1781158447265625,
      "reward_std": 0.33881837129592896,
      "rewards/reward_fn/mean": 3.1781158447265625,
      "rewards/reward_fn/std": 0.33881837129592896,
      "step": 2182
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 750.0,
      "completions/max_terminated_length": 750.0,
      "completions/mean_length": 170.90625,
      "completions/mean_terminated_length": 170.90625,
      "completions/min_length": 63.0,
      "completions/min_terminated_length": 63.0,
      "epoch": 0.2315688978466108,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.12060546875,
      "kl": 0.02682259352877736,
      "learning_rate": 7.1272e-06,
      "loss": 0.0011,
      "num_tokens": 100746018.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2183
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 917.0,
      "completions/max_terminated_length": 917.0,
      "completions/mean_length": 286.375,
      "completions/mean_terminated_length": 286.375,
      "completions/min_length": 159.0,
      "completions/min_terminated_length": 159.0,
      "epoch": 0.2316749761323857,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.08544921875,
      "kl": 0.022002801997587085,
      "learning_rate": 7.1268e-06,
      "loss": 0.0009,
      "num_tokens": 100793678.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2184
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1891.0,
      "completions/max_terminated_length": 1891.0,
      "completions/mean_length": 431.5625,
      "completions/mean_terminated_length": 431.5625,
      "completions/min_length": 180.0,
      "completions/min_terminated_length": 180.0,
      "epoch": 0.2317810544181606,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5390625,
      "kl": 0.02914230595342815,
      "learning_rate": 7.1264e-06,
      "loss": 0.0501,
      "num_tokens": 100838336.0,
      "reward": 3.2587783336639404,
      "reward_std": 0.5467434525489807,
      "rewards/reward_fn/mean": 3.2587783336639404,
      "rewards/reward_fn/std": 0.5467433929443359,
      "step": 2185
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 978.0,
      "completions/max_terminated_length": 978.0,
      "completions/mean_length": 211.625,
      "completions/mean_terminated_length": 211.625,
      "completions/min_length": 115.0,
      "completions/min_terminated_length": 115.0,
      "epoch": 0.23188713270393552,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.3125,
      "kl": 0.033715502824634314,
      "learning_rate": 7.126e-06,
      "loss": 0.1925,
      "num_tokens": 100882452.0,
      "reward": 3.87423038482666,
      "reward_std": 0.43363064527511597,
      "rewards/reward_fn/mean": 3.87423038482666,
      "rewards/reward_fn/std": 0.43363064527511597,
      "step": 2186
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1048.0,
      "completions/max_terminated_length": 1048.0,
      "completions/mean_length": 257.4375,
      "completions/mean_terminated_length": 257.4375,
      "completions/min_length": 82.0,
      "completions/min_terminated_length": 82.0,
      "epoch": 0.2319932109897104,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.125,
      "kl": 0.020584039855748415,
      "learning_rate": 7.1256e-06,
      "loss": -0.0418,
      "num_tokens": 100914338.0,
      "reward": 3.1321568489074707,
      "reward_std": 0.38132020831108093,
      "rewards/reward_fn/mean": 3.1321568489074707,
      "rewards/reward_fn/std": 0.3813202381134033,
      "step": 2187
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 137.0,
      "completions/max_terminated_length": 137.0,
      "completions/mean_length": 105.65625,
      "completions/mean_terminated_length": 105.65625,
      "completions/min_length": 45.0,
      "completions/min_terminated_length": 45.0,
      "epoch": 0.23209928927548532,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.609375,
      "kl": 0.021333031821995974,
      "learning_rate": 7.1252e-06,
      "loss": -0.0669,
      "num_tokens": 100957143.0,
      "reward": 3.848611831665039,
      "reward_std": 0.7179643511772156,
      "rewards/reward_fn/mean": 3.848611831665039,
      "rewards/reward_fn/std": 0.7179643511772156,
      "step": 2188
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 413.0,
      "completions/max_terminated_length": 413.0,
      "completions/mean_length": 154.25,
      "completions/mean_terminated_length": 154.25,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.2322053675612602,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.0625,
      "kl": 0.02006891486234963,
      "learning_rate": 7.124799999999999e-06,
      "loss": 0.1186,
      "num_tokens": 100992351.0,
      "reward": 2.937816619873047,
      "reward_std": 0.04478609934449196,
      "rewards/reward_fn/mean": 2.937816619873047,
      "rewards/reward_fn/std": 0.04478614032268524,
      "step": 2189
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1383.0,
      "completions/max_terminated_length": 1383.0,
      "completions/mean_length": 438.84375,
      "completions/mean_terminated_length": 438.84375,
      "completions/min_length": 216.0,
      "completions/min_terminated_length": 216.0,
      "epoch": 0.23231144584703511,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.07470703125,
      "kl": 0.02082824590615928,
      "learning_rate": 7.124399999999999e-06,
      "loss": 0.0008,
      "num_tokens": 101040506.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2190
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 870.0,
      "completions/max_terminated_length": 870.0,
      "completions/mean_length": 199.46875,
      "completions/mean_terminated_length": 199.46875,
      "completions/min_length": 107.0,
      "completions/min_terminated_length": 107.0,
      "epoch": 0.23241752413281003,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.11767578125,
      "kl": 0.028772379737347364,
      "learning_rate": 7.123999999999999e-06,
      "loss": 0.0012,
      "num_tokens": 101063753.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2191
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 197.0,
      "completions/max_terminated_length": 197.0,
      "completions/mean_length": 133.25,
      "completions/mean_terminated_length": 133.25,
      "completions/min_length": 95.0,
      "completions/min_terminated_length": 95.0,
      "epoch": 0.2325236024185849,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 2.984375,
      "kl": 0.022556824376806617,
      "learning_rate": 7.123599999999999e-06,
      "loss": 0.0406,
      "num_tokens": 101085489.0,
      "reward": 3.968625068664551,
      "reward_std": 0.17748311161994934,
      "rewards/reward_fn/mean": 3.968625068664551,
      "rewards/reward_fn/std": 0.17748311161994934,
      "step": 2192
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 788.0,
      "completions/max_terminated_length": 788.0,
      "completions/mean_length": 243.8125,
      "completions/mean_terminated_length": 243.8125,
      "completions/min_length": 149.0,
      "completions/min_terminated_length": 149.0,
      "epoch": 0.23262968070435983,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.7578125,
      "kl": 0.027054782956838608,
      "learning_rate": 7.1232e-06,
      "loss": 0.0451,
      "num_tokens": 101123755.0,
      "reward": 2.9340295791625977,
      "reward_std": 0.03773088380694389,
      "rewards/reward_fn/mean": 2.9340295791625977,
      "rewards/reward_fn/std": 0.03773083910346031,
      "step": 2193
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 676.0,
      "completions/max_terminated_length": 676.0,
      "completions/mean_length": 197.21875,
      "completions/mean_terminated_length": 197.21875,
      "completions/min_length": 119.0,
      "completions/min_terminated_length": 119.0,
      "epoch": 0.2327357589901347,
      "frac_reward_zero_std": 1.0,
      "grad_norm": 0.109375,
      "kl": 0.031393368961289525,
      "learning_rate": 7.1228e-06,
      "loss": 0.0013,
      "num_tokens": 101164114.0,
      "reward": 4.0,
      "reward_std": 0.0,
      "rewards/reward_fn/mean": 4.0,
      "rewards/reward_fn/std": 0.0,
      "step": 2194
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 896.0,
      "completions/max_terminated_length": 896.0,
      "completions/mean_length": 533.09375,
      "completions/mean_terminated_length": 533.09375,
      "completions/min_length": 270.0,
      "completions/min_terminated_length": 270.0,
      "epoch": 0.23284183727590962,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.2421875,
      "kl": 0.022313715890049934,
      "learning_rate": 7.1224e-06,
      "loss": -0.0249,
      "num_tokens": 101220981.0,
      "reward": 3.169848918914795,
      "reward_std": 0.4511135220527649,
      "rewards/reward_fn/mean": 3.169848918914795,
      "rewards/reward_fn/std": 0.4511135220527649,
      "step": 2195
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1520.0,
      "completions/max_terminated_length": 1520.0,
      "completions/mean_length": 453.90625,
      "completions/mean_terminated_length": 453.90625,
      "completions/min_length": 160.0,
      "completions/min_terminated_length": 160.0,
      "epoch": 0.2329479155616845,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.5625,
      "kl": 0.02297700964845717,
      "learning_rate": 7.122e-06,
      "loss": -0.101,
      "num_tokens": 101275314.0,
      "reward": 2.5342376232147217,
      "reward_std": 0.5728961229324341,
      "rewards/reward_fn/mean": 2.5342376232147217,
      "rewards/reward_fn/std": 0.5728961229324341,
      "step": 2196
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1759.0,
      "completions/max_terminated_length": 1759.0,
      "completions/mean_length": 361.46875,
      "completions/mean_terminated_length": 361.46875,
      "completions/min_length": 221.0,
      "completions/min_terminated_length": 221.0,
      "epoch": 0.23305399384745942,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.78125,
      "kl": 0.034721347503364086,
      "learning_rate": 7.1216e-06,
      "loss": -0.0032,
      "num_tokens": 101320385.0,
      "reward": 2.7689619064331055,
      "reward_std": 0.25961360335350037,
      "rewards/reward_fn/mean": 2.7689619064331055,
      "rewards/reward_fn/std": 0.259613573551178,
      "step": 2197
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1031.0,
      "completions/max_terminated_length": 1031.0,
      "completions/mean_length": 448.03125,
      "completions/mean_terminated_length": 448.03125,
      "completions/min_length": 220.0,
      "completions/min_terminated_length": 220.0,
      "epoch": 0.23316007213323434,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.6640625,
      "kl": 0.034088447922840714,
      "learning_rate": 7.1212e-06,
      "loss": -0.0266,
      "num_tokens": 101363330.0,
      "reward": 3.3539974689483643,
      "reward_std": 0.6181737780570984,
      "rewards/reward_fn/mean": 3.3539974689483643,
      "rewards/reward_fn/std": 0.6181737780570984,
      "step": 2198
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 921.0,
      "completions/max_terminated_length": 921.0,
      "completions/mean_length": 352.78125,
      "completions/mean_terminated_length": 352.78125,
      "completions/min_length": 166.0,
      "completions/min_terminated_length": 166.0,
      "epoch": 0.23326615041900922,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.328125,
      "kl": 0.02180984802544117,
      "learning_rate": 7.1208e-06,
      "loss": 0.0872,
      "num_tokens": 101414651.0,
      "reward": 2.8594231605529785,
      "reward_std": 0.05167490243911743,
      "rewards/reward_fn/mean": 2.8594231605529785,
      "rewards/reward_fn/std": 0.05167488753795624,
      "step": 2199
    },
    {
      "clip_ratio/high_max": 0.0,
      "clip_ratio/high_mean": 0.0,
      "clip_ratio/low_mean": 0.0,
      "clip_ratio/low_min": 0.0,
      "clip_ratio/region_mean": 0.0,
      "completions/clipped_ratio": 0.0,
      "completions/max_length": 1237.0,
      "completions/max_terminated_length": 1237.0,
      "completions/mean_length": 328.75,
      "completions/mean_terminated_length": 328.75,
      "completions/min_length": 124.0,
      "completions/min_terminated_length": 124.0,
      "epoch": 0.23337222870478413,
      "frac_reward_zero_std": 0.0,
      "grad_norm": 1.875,
      "kl": 0.026791174663230777,
      "learning_rate": 7.1204e-06,
      "loss": 0.1349,
      "num_tokens": 101459891.0,
      "reward": 3.7417798042297363,
      "reward_std": 0.6406286358833313,
      "rewards/reward_fn/mean": 3.7417798042297363,
      "rewards/reward_fn/std": 0.6406285762786865,
      "step": 2200
    }
  ],
  "logging_steps": 1,
  "max_steps": 20000,
  "num_input_tokens_seen": 101459891,
  "num_train_epochs": 3,
  "save_steps": 200,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}