vdos commited on
Commit
ad4a4b7
·
verified ·
1 Parent(s): 3bed19f

Training in progress, step 924, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6054a3043a2252d65accea00f3df482df99a933a12b83ee27371d506aeeaa435
3
  size 36981072
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d99dfa9dc8ec55384a509cc9a41908d90fafd842a14dd02b11bf7b7074c07a24
3
  size 36981072
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fb1f22eee6ee8428eecd43780c426545dd1bd27217911a85f08fba9e27b16740
3
  size 19859524
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fd82f1e3bf2a5481710ae38d8a2b2b0f60086e696181e9a53c6549945d070af4
3
  size 19859524
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:808276282f4e1bf1f6ebb2b595d77dd95c04b4e9a6565c652115420f7a26f3da
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5d5626f20f4887880412e5765d6a94fb3bda487f4042d645008a5a43f5b57a54
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4cd42e7a2cc2a143c8ba780cecec69e71d8a1ef7d27038a837632decc36c51a5
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f17baaf11712018bcd93c3c83131030be15eda40b492a4ba976ae40fa1493a70
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5013989927252378,
5
  "eval_steps": 308,
6
- "global_step": 616,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4335,6 +4335,2170 @@
4335
  "eval_samples_per_second": 36.959,
4336
  "eval_steps_per_second": 18.48,
4337
  "step": 616
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4338
  }
4339
  ],
4340
  "logging_steps": 1,
@@ -4354,7 +6518,7 @@
4354
  "attributes": {}
4355
  }
4356
  },
4357
- "total_flos": 1.8810055440728064e+17,
4358
  "train_batch_size": 2,
4359
  "trial_name": null,
4360
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7520984890878567,
5
  "eval_steps": 308,
6
+ "global_step": 924,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4335
  "eval_samples_per_second": 36.959,
4336
  "eval_steps_per_second": 18.48,
4337
  "step": 616
4338
+ },
4339
+ {
4340
+ "epoch": 0.5022129521290125,
4341
+ "grad_norm": 54.6148567199707,
4342
+ "learning_rate": 0.00010064429264111319,
4343
+ "loss": 0.6069,
4344
+ "step": 617
4345
+ },
4346
+ {
4347
+ "epoch": 0.5030269115327873,
4348
+ "grad_norm": 66.37954711914062,
4349
+ "learning_rate": 0.00010038657729640585,
4350
+ "loss": 0.5773,
4351
+ "step": 618
4352
+ },
4353
+ {
4354
+ "epoch": 0.503840870936562,
4355
+ "grad_norm": 17.30975341796875,
4356
+ "learning_rate": 0.0001001288593840922,
4357
+ "loss": 0.1075,
4358
+ "step": 619
4359
+ },
4360
+ {
4361
+ "epoch": 0.5046548303403368,
4362
+ "grad_norm": 50.25879669189453,
4363
+ "learning_rate": 9.987114061590783e-05,
4364
+ "loss": 0.4438,
4365
+ "step": 620
4366
+ },
4367
+ {
4368
+ "epoch": 0.5054687897441115,
4369
+ "grad_norm": 64.25674438476562,
4370
+ "learning_rate": 9.961342270359416e-05,
4371
+ "loss": 0.6031,
4372
+ "step": 621
4373
+ },
4374
+ {
4375
+ "epoch": 0.5062827491478863,
4376
+ "grad_norm": 58.72089385986328,
4377
+ "learning_rate": 9.935570735888682e-05,
4378
+ "loss": 0.492,
4379
+ "step": 622
4380
+ },
4381
+ {
4382
+ "epoch": 0.507096708551661,
4383
+ "grad_norm": 57.73633575439453,
4384
+ "learning_rate": 9.909799629350442e-05,
4385
+ "loss": 0.5827,
4386
+ "step": 623
4387
+ },
4388
+ {
4389
+ "epoch": 0.5079106679554357,
4390
+ "grad_norm": 71.54435729980469,
4391
+ "learning_rate": 9.884029121913714e-05,
4392
+ "loss": 0.7005,
4393
+ "step": 624
4394
+ },
4395
+ {
4396
+ "epoch": 0.5087246273592104,
4397
+ "grad_norm": 56.86555099487305,
4398
+ "learning_rate": 9.858259384743536e-05,
4399
+ "loss": 0.5519,
4400
+ "step": 625
4401
+ },
4402
+ {
4403
+ "epoch": 0.5095385867629852,
4404
+ "grad_norm": 48.708370208740234,
4405
+ "learning_rate": 9.832490588999838e-05,
4406
+ "loss": 0.4539,
4407
+ "step": 626
4408
+ },
4409
+ {
4410
+ "epoch": 0.51035254616676,
4411
+ "grad_norm": 72.07743072509766,
4412
+ "learning_rate": 9.806722905836281e-05,
4413
+ "loss": 0.8002,
4414
+ "step": 627
4415
+ },
4416
+ {
4417
+ "epoch": 0.5111665055705347,
4418
+ "grad_norm": 60.98548126220703,
4419
+ "learning_rate": 9.78095650639915e-05,
4420
+ "loss": 0.6567,
4421
+ "step": 628
4422
+ },
4423
+ {
4424
+ "epoch": 0.5119804649743094,
4425
+ "grad_norm": 69.14450073242188,
4426
+ "learning_rate": 9.755191561826197e-05,
4427
+ "loss": 0.5965,
4428
+ "step": 629
4429
+ },
4430
+ {
4431
+ "epoch": 0.5127944243780841,
4432
+ "grad_norm": 62.80756378173828,
4433
+ "learning_rate": 9.729428243245522e-05,
4434
+ "loss": 0.5644,
4435
+ "step": 630
4436
+ },
4437
+ {
4438
+ "epoch": 0.5136083837818589,
4439
+ "grad_norm": 61.79075622558594,
4440
+ "learning_rate": 9.703666721774402e-05,
4441
+ "loss": 0.5615,
4442
+ "step": 631
4443
+ },
4444
+ {
4445
+ "epoch": 0.5144223431856336,
4446
+ "grad_norm": 53.95793914794922,
4447
+ "learning_rate": 9.677907168518204e-05,
4448
+ "loss": 0.4849,
4449
+ "step": 632
4450
+ },
4451
+ {
4452
+ "epoch": 0.5152363025894083,
4453
+ "grad_norm": 66.30126953125,
4454
+ "learning_rate": 9.652149754569207e-05,
4455
+ "loss": 0.6373,
4456
+ "step": 633
4457
+ },
4458
+ {
4459
+ "epoch": 0.516050261993183,
4460
+ "grad_norm": 57.26076889038086,
4461
+ "learning_rate": 9.626394651005486e-05,
4462
+ "loss": 0.4889,
4463
+ "step": 634
4464
+ },
4465
+ {
4466
+ "epoch": 0.5168642213969579,
4467
+ "grad_norm": 60.16572952270508,
4468
+ "learning_rate": 9.600642028889767e-05,
4469
+ "loss": 0.6,
4470
+ "step": 635
4471
+ },
4472
+ {
4473
+ "epoch": 0.5176781808007326,
4474
+ "grad_norm": 91.1825180053711,
4475
+ "learning_rate": 9.574892059268297e-05,
4476
+ "loss": 0.7974,
4477
+ "step": 636
4478
+ },
4479
+ {
4480
+ "epoch": 0.5184921402045073,
4481
+ "grad_norm": 85.33624267578125,
4482
+ "learning_rate": 9.549144913169707e-05,
4483
+ "loss": 0.6962,
4484
+ "step": 637
4485
+ },
4486
+ {
4487
+ "epoch": 0.519306099608282,
4488
+ "grad_norm": 66.75627136230469,
4489
+ "learning_rate": 9.52340076160387e-05,
4490
+ "loss": 0.4853,
4491
+ "step": 638
4492
+ },
4493
+ {
4494
+ "epoch": 0.5201200590120568,
4495
+ "grad_norm": 76.68109130859375,
4496
+ "learning_rate": 9.497659775560773e-05,
4497
+ "loss": 0.5918,
4498
+ "step": 639
4499
+ },
4500
+ {
4501
+ "epoch": 0.5209340184158315,
4502
+ "grad_norm": 49.79184341430664,
4503
+ "learning_rate": 9.471922126009377e-05,
4504
+ "loss": 0.3409,
4505
+ "step": 640
4506
+ },
4507
+ {
4508
+ "epoch": 0.5217479778196062,
4509
+ "grad_norm": 82.90412902832031,
4510
+ "learning_rate": 9.44618798389649e-05,
4511
+ "loss": 0.4539,
4512
+ "step": 641
4513
+ },
4514
+ {
4515
+ "epoch": 0.522561937223381,
4516
+ "grad_norm": 62.80908203125,
4517
+ "learning_rate": 9.420457520145601e-05,
4518
+ "loss": 0.4059,
4519
+ "step": 642
4520
+ },
4521
+ {
4522
+ "epoch": 0.5233758966271557,
4523
+ "grad_norm": 72.04924774169922,
4524
+ "learning_rate": 9.394730905655796e-05,
4525
+ "loss": 0.4246,
4526
+ "step": 643
4527
+ },
4528
+ {
4529
+ "epoch": 0.5241898560309305,
4530
+ "grad_norm": 70.57109069824219,
4531
+ "learning_rate": 9.369008311300578e-05,
4532
+ "loss": 0.3697,
4533
+ "step": 644
4534
+ },
4535
+ {
4536
+ "epoch": 0.5250038154347052,
4537
+ "grad_norm": 722.076904296875,
4538
+ "learning_rate": 9.343289907926756e-05,
4539
+ "loss": 0.6834,
4540
+ "step": 645
4541
+ },
4542
+ {
4543
+ "epoch": 0.5258177748384799,
4544
+ "grad_norm": 114.76537322998047,
4545
+ "learning_rate": 9.317575866353292e-05,
4546
+ "loss": 0.5208,
4547
+ "step": 646
4548
+ },
4549
+ {
4550
+ "epoch": 0.5266317342422546,
4551
+ "grad_norm": 98.52436065673828,
4552
+ "learning_rate": 9.29186635737019e-05,
4553
+ "loss": 0.6551,
4554
+ "step": 647
4555
+ },
4556
+ {
4557
+ "epoch": 0.5274456936460294,
4558
+ "grad_norm": 71.50487518310547,
4559
+ "learning_rate": 9.26616155173734e-05,
4560
+ "loss": 0.3879,
4561
+ "step": 648
4562
+ },
4563
+ {
4564
+ "epoch": 0.5282596530498042,
4565
+ "grad_norm": 106.18795776367188,
4566
+ "learning_rate": 9.240461620183403e-05,
4567
+ "loss": 0.4838,
4568
+ "step": 649
4569
+ },
4570
+ {
4571
+ "epoch": 0.5290736124535789,
4572
+ "grad_norm": 89.99434661865234,
4573
+ "learning_rate": 9.214766733404654e-05,
4574
+ "loss": 0.5697,
4575
+ "step": 650
4576
+ },
4577
+ {
4578
+ "epoch": 0.5298875718573536,
4579
+ "grad_norm": 98.22502136230469,
4580
+ "learning_rate": 9.189077062063869e-05,
4581
+ "loss": 0.4745,
4582
+ "step": 651
4583
+ },
4584
+ {
4585
+ "epoch": 0.5307015312611284,
4586
+ "grad_norm": 81.67407989501953,
4587
+ "learning_rate": 9.163392776789184e-05,
4588
+ "loss": 0.3507,
4589
+ "step": 652
4590
+ },
4591
+ {
4592
+ "epoch": 0.5315154906649031,
4593
+ "grad_norm": 31.99094009399414,
4594
+ "learning_rate": 9.137714048172965e-05,
4595
+ "loss": 0.1217,
4596
+ "step": 653
4597
+ },
4598
+ {
4599
+ "epoch": 0.5323294500686778,
4600
+ "grad_norm": 3.579803705215454,
4601
+ "learning_rate": 9.112041046770653e-05,
4602
+ "loss": 0.0044,
4603
+ "step": 654
4604
+ },
4605
+ {
4606
+ "epoch": 0.5331434094724525,
4607
+ "grad_norm": 59.5223388671875,
4608
+ "learning_rate": 9.086373943099671e-05,
4609
+ "loss": 0.2528,
4610
+ "step": 655
4611
+ },
4612
+ {
4613
+ "epoch": 0.5339573688762272,
4614
+ "grad_norm": 51.37022018432617,
4615
+ "learning_rate": 9.060712907638259e-05,
4616
+ "loss": 0.3723,
4617
+ "step": 656
4618
+ },
4619
+ {
4620
+ "epoch": 0.5347713282800021,
4621
+ "grad_norm": 73.85990905761719,
4622
+ "learning_rate": 9.035058110824358e-05,
4623
+ "loss": 0.4633,
4624
+ "step": 657
4625
+ },
4626
+ {
4627
+ "epoch": 0.5355852876837768,
4628
+ "grad_norm": 54.51283264160156,
4629
+ "learning_rate": 9.009409723054464e-05,
4630
+ "loss": 0.4071,
4631
+ "step": 658
4632
+ },
4633
+ {
4634
+ "epoch": 0.5363992470875515,
4635
+ "grad_norm": 52.869293212890625,
4636
+ "learning_rate": 8.983767914682511e-05,
4637
+ "loss": 0.2676,
4638
+ "step": 659
4639
+ },
4640
+ {
4641
+ "epoch": 0.5372132064913262,
4642
+ "grad_norm": 88.82906341552734,
4643
+ "learning_rate": 8.958132856018733e-05,
4644
+ "loss": 0.464,
4645
+ "step": 660
4646
+ },
4647
+ {
4648
+ "epoch": 0.538027165895101,
4649
+ "grad_norm": 51.75883102416992,
4650
+ "learning_rate": 8.932504717328538e-05,
4651
+ "loss": 0.3361,
4652
+ "step": 661
4653
+ },
4654
+ {
4655
+ "epoch": 0.5388411252988757,
4656
+ "grad_norm": 53.64509582519531,
4657
+ "learning_rate": 8.906883668831357e-05,
4658
+ "loss": 0.3331,
4659
+ "step": 662
4660
+ },
4661
+ {
4662
+ "epoch": 0.5396550847026504,
4663
+ "grad_norm": 49.01025390625,
4664
+ "learning_rate": 8.881269880699545e-05,
4665
+ "loss": 0.3523,
4666
+ "step": 663
4667
+ },
4668
+ {
4669
+ "epoch": 0.5404690441064252,
4670
+ "grad_norm": 64.38545989990234,
4671
+ "learning_rate": 8.855663523057231e-05,
4672
+ "loss": 0.4118,
4673
+ "step": 664
4674
+ },
4675
+ {
4676
+ "epoch": 0.5412830035102,
4677
+ "grad_norm": 37.33606719970703,
4678
+ "learning_rate": 8.830064765979176e-05,
4679
+ "loss": 0.344,
4680
+ "step": 665
4681
+ },
4682
+ {
4683
+ "epoch": 0.5420969629139747,
4684
+ "grad_norm": 34.45378875732422,
4685
+ "learning_rate": 8.80447377948968e-05,
4686
+ "loss": 0.2445,
4687
+ "step": 666
4688
+ },
4689
+ {
4690
+ "epoch": 0.5429109223177494,
4691
+ "grad_norm": 65.6329116821289,
4692
+ "learning_rate": 8.778890733561423e-05,
4693
+ "loss": 0.5446,
4694
+ "step": 667
4695
+ },
4696
+ {
4697
+ "epoch": 0.5437248817215241,
4698
+ "grad_norm": 28.26031494140625,
4699
+ "learning_rate": 8.753315798114344e-05,
4700
+ "loss": 0.2093,
4701
+ "step": 668
4702
+ },
4703
+ {
4704
+ "epoch": 0.5445388411252988,
4705
+ "grad_norm": 32.409263610839844,
4706
+ "learning_rate": 8.72774914301451e-05,
4707
+ "loss": 0.2084,
4708
+ "step": 669
4709
+ },
4710
+ {
4711
+ "epoch": 0.5453528005290736,
4712
+ "grad_norm": 48.12691116333008,
4713
+ "learning_rate": 8.702190938072996e-05,
4714
+ "loss": 0.4224,
4715
+ "step": 670
4716
+ },
4717
+ {
4718
+ "epoch": 0.5461667599328484,
4719
+ "grad_norm": 58.39657211303711,
4720
+ "learning_rate": 8.676641353044748e-05,
4721
+ "loss": 0.5551,
4722
+ "step": 671
4723
+ },
4724
+ {
4725
+ "epoch": 0.5469807193366231,
4726
+ "grad_norm": 53.611942291259766,
4727
+ "learning_rate": 8.65110055762747e-05,
4728
+ "loss": 0.4827,
4729
+ "step": 672
4730
+ },
4731
+ {
4732
+ "epoch": 0.5477946787403978,
4733
+ "grad_norm": 59.807586669921875,
4734
+ "learning_rate": 8.625568721460466e-05,
4735
+ "loss": 0.4845,
4736
+ "step": 673
4737
+ },
4738
+ {
4739
+ "epoch": 0.5486086381441726,
4740
+ "grad_norm": 80.79927062988281,
4741
+ "learning_rate": 8.600046014123549e-05,
4742
+ "loss": 0.6404,
4743
+ "step": 674
4744
+ },
4745
+ {
4746
+ "epoch": 0.5494225975479473,
4747
+ "grad_norm": 85.15743255615234,
4748
+ "learning_rate": 8.574532605135901e-05,
4749
+ "loss": 0.3385,
4750
+ "step": 675
4751
+ },
4752
+ {
4753
+ "epoch": 0.550236556951722,
4754
+ "grad_norm": 51.52342987060547,
4755
+ "learning_rate": 8.549028663954937e-05,
4756
+ "loss": 0.3825,
4757
+ "step": 676
4758
+ },
4759
+ {
4760
+ "epoch": 0.5510505163554967,
4761
+ "grad_norm": 54.27495574951172,
4762
+ "learning_rate": 8.523534359975189e-05,
4763
+ "loss": 0.4374,
4764
+ "step": 677
4765
+ },
4766
+ {
4767
+ "epoch": 0.5518644757592716,
4768
+ "grad_norm": 47.321964263916016,
4769
+ "learning_rate": 8.498049862527183e-05,
4770
+ "loss": 0.4202,
4771
+ "step": 678
4772
+ },
4773
+ {
4774
+ "epoch": 0.5526784351630463,
4775
+ "grad_norm": 45.74074172973633,
4776
+ "learning_rate": 8.472575340876307e-05,
4777
+ "loss": 0.258,
4778
+ "step": 679
4779
+ },
4780
+ {
4781
+ "epoch": 0.553492394566821,
4782
+ "grad_norm": 54.431785583496094,
4783
+ "learning_rate": 8.447110964221699e-05,
4784
+ "loss": 0.3939,
4785
+ "step": 680
4786
+ },
4787
+ {
4788
+ "epoch": 0.5543063539705957,
4789
+ "grad_norm": 74.9413833618164,
4790
+ "learning_rate": 8.421656901695102e-05,
4791
+ "loss": 0.4689,
4792
+ "step": 681
4793
+ },
4794
+ {
4795
+ "epoch": 0.5551203133743704,
4796
+ "grad_norm": 51.207611083984375,
4797
+ "learning_rate": 8.396213322359765e-05,
4798
+ "loss": 0.3208,
4799
+ "step": 682
4800
+ },
4801
+ {
4802
+ "epoch": 0.5559342727781452,
4803
+ "grad_norm": 45.82204818725586,
4804
+ "learning_rate": 8.370780395209305e-05,
4805
+ "loss": 0.3252,
4806
+ "step": 683
4807
+ },
4808
+ {
4809
+ "epoch": 0.5567482321819199,
4810
+ "grad_norm": 49.40839767456055,
4811
+ "learning_rate": 8.345358289166593e-05,
4812
+ "loss": 0.3085,
4813
+ "step": 684
4814
+ },
4815
+ {
4816
+ "epoch": 0.5575621915856946,
4817
+ "grad_norm": 51.35824203491211,
4818
+ "learning_rate": 8.319947173082609e-05,
4819
+ "loss": 0.3061,
4820
+ "step": 685
4821
+ },
4822
+ {
4823
+ "epoch": 0.5583761509894694,
4824
+ "grad_norm": 65.24330139160156,
4825
+ "learning_rate": 8.29454721573536e-05,
4826
+ "loss": 0.4065,
4827
+ "step": 686
4828
+ },
4829
+ {
4830
+ "epoch": 0.5591901103932442,
4831
+ "grad_norm": 60.368221282958984,
4832
+ "learning_rate": 8.269158585828732e-05,
4833
+ "loss": 0.4773,
4834
+ "step": 687
4835
+ },
4836
+ {
4837
+ "epoch": 0.5600040697970189,
4838
+ "grad_norm": 60.20812225341797,
4839
+ "learning_rate": 8.243781451991373e-05,
4840
+ "loss": 0.3205,
4841
+ "step": 688
4842
+ },
4843
+ {
4844
+ "epoch": 0.5608180292007936,
4845
+ "grad_norm": 57.54476547241211,
4846
+ "learning_rate": 8.21841598277557e-05,
4847
+ "loss": 0.3917,
4848
+ "step": 689
4849
+ },
4850
+ {
4851
+ "epoch": 0.5616319886045683,
4852
+ "grad_norm": 68.63423919677734,
4853
+ "learning_rate": 8.193062346656144e-05,
4854
+ "loss": 0.5407,
4855
+ "step": 690
4856
+ },
4857
+ {
4858
+ "epoch": 0.5624459480083431,
4859
+ "grad_norm": 50.03628921508789,
4860
+ "learning_rate": 8.16772071202932e-05,
4861
+ "loss": 0.3044,
4862
+ "step": 691
4863
+ },
4864
+ {
4865
+ "epoch": 0.5632599074121178,
4866
+ "grad_norm": 64.63665008544922,
4867
+ "learning_rate": 8.142391247211605e-05,
4868
+ "loss": 0.4956,
4869
+ "step": 692
4870
+ },
4871
+ {
4872
+ "epoch": 0.5640738668158926,
4873
+ "grad_norm": 311.6989440917969,
4874
+ "learning_rate": 8.117074120438679e-05,
4875
+ "loss": 0.4414,
4876
+ "step": 693
4877
+ },
4878
+ {
4879
+ "epoch": 0.5648878262196673,
4880
+ "grad_norm": 80.59652709960938,
4881
+ "learning_rate": 8.091769499864274e-05,
4882
+ "loss": 0.5101,
4883
+ "step": 694
4884
+ },
4885
+ {
4886
+ "epoch": 0.565701785623442,
4887
+ "grad_norm": 65.12132263183594,
4888
+ "learning_rate": 8.066477553559062e-05,
4889
+ "loss": 0.3217,
4890
+ "step": 695
4891
+ },
4892
+ {
4893
+ "epoch": 0.5665157450272168,
4894
+ "grad_norm": 107.08153533935547,
4895
+ "learning_rate": 8.04119844950952e-05,
4896
+ "loss": 0.3029,
4897
+ "step": 696
4898
+ },
4899
+ {
4900
+ "epoch": 0.5673297044309915,
4901
+ "grad_norm": 65.27468872070312,
4902
+ "learning_rate": 8.015932355616845e-05,
4903
+ "loss": 0.4152,
4904
+ "step": 697
4905
+ },
4906
+ {
4907
+ "epoch": 0.5681436638347662,
4908
+ "grad_norm": 45.41838073730469,
4909
+ "learning_rate": 7.990679439695808e-05,
4910
+ "loss": 0.2567,
4911
+ "step": 698
4912
+ },
4913
+ {
4914
+ "epoch": 0.5689576232385409,
4915
+ "grad_norm": 64.02782440185547,
4916
+ "learning_rate": 7.965439869473664e-05,
4917
+ "loss": 0.3162,
4918
+ "step": 699
4919
+ },
4920
+ {
4921
+ "epoch": 0.5697715826423158,
4922
+ "grad_norm": 69.64109802246094,
4923
+ "learning_rate": 7.940213812589018e-05,
4924
+ "loss": 0.4937,
4925
+ "step": 700
4926
+ },
4927
+ {
4928
+ "epoch": 0.5705855420460905,
4929
+ "grad_norm": 73.02833557128906,
4930
+ "learning_rate": 7.915001436590727e-05,
4931
+ "loss": 0.3955,
4932
+ "step": 701
4933
+ },
4934
+ {
4935
+ "epoch": 0.5713995014498652,
4936
+ "grad_norm": 55.31629180908203,
4937
+ "learning_rate": 7.889802908936776e-05,
4938
+ "loss": 0.2899,
4939
+ "step": 702
4940
+ },
4941
+ {
4942
+ "epoch": 0.5722134608536399,
4943
+ "grad_norm": 19.13225746154785,
4944
+ "learning_rate": 7.864618396993182e-05,
4945
+ "loss": 0.1026,
4946
+ "step": 703
4947
+ },
4948
+ {
4949
+ "epoch": 0.5730274202574147,
4950
+ "grad_norm": 2.1365418434143066,
4951
+ "learning_rate": 7.839448068032854e-05,
4952
+ "loss": 0.005,
4953
+ "step": 704
4954
+ },
4955
+ {
4956
+ "epoch": 0.5738413796611894,
4957
+ "grad_norm": 44.33586120605469,
4958
+ "learning_rate": 7.81429208923451e-05,
4959
+ "loss": 0.2454,
4960
+ "step": 705
4961
+ },
4962
+ {
4963
+ "epoch": 0.5746553390649641,
4964
+ "grad_norm": 50.470584869384766,
4965
+ "learning_rate": 7.789150627681556e-05,
4966
+ "loss": 0.3111,
4967
+ "step": 706
4968
+ },
4969
+ {
4970
+ "epoch": 0.5754692984687388,
4971
+ "grad_norm": 45.234500885009766,
4972
+ "learning_rate": 7.764023850360975e-05,
4973
+ "loss": 0.2322,
4974
+ "step": 707
4975
+ },
4976
+ {
4977
+ "epoch": 0.5762832578725136,
4978
+ "grad_norm": 58.26604080200195,
4979
+ "learning_rate": 7.738911924162214e-05,
4980
+ "loss": 0.2832,
4981
+ "step": 708
4982
+ },
4983
+ {
4984
+ "epoch": 0.5770972172762884,
4985
+ "grad_norm": 33.95102310180664,
4986
+ "learning_rate": 7.713815015876085e-05,
4987
+ "loss": 0.2283,
4988
+ "step": 709
4989
+ },
4990
+ {
4991
+ "epoch": 0.5779111766800631,
4992
+ "grad_norm": 39.21532440185547,
4993
+ "learning_rate": 7.688733292193652e-05,
4994
+ "loss": 0.2014,
4995
+ "step": 710
4996
+ },
4997
+ {
4998
+ "epoch": 0.5787251360838378,
4999
+ "grad_norm": 50.34742736816406,
5000
+ "learning_rate": 7.663666919705125e-05,
5001
+ "loss": 0.2837,
5002
+ "step": 711
5003
+ },
5004
+ {
5005
+ "epoch": 0.5795390954876125,
5006
+ "grad_norm": 41.54711151123047,
5007
+ "learning_rate": 7.638616064898748e-05,
5008
+ "loss": 0.294,
5009
+ "step": 712
5010
+ },
5011
+ {
5012
+ "epoch": 0.5803530548913873,
5013
+ "grad_norm": 48.51985549926758,
5014
+ "learning_rate": 7.613580894159706e-05,
5015
+ "loss": 0.2836,
5016
+ "step": 713
5017
+ },
5018
+ {
5019
+ "epoch": 0.581167014295162,
5020
+ "grad_norm": 41.212562561035156,
5021
+ "learning_rate": 7.588561573769002e-05,
5022
+ "loss": 0.2636,
5023
+ "step": 714
5024
+ },
5025
+ {
5026
+ "epoch": 0.5819809736989368,
5027
+ "grad_norm": 40.175594329833984,
5028
+ "learning_rate": 7.563558269902381e-05,
5029
+ "loss": 0.2298,
5030
+ "step": 715
5031
+ },
5032
+ {
5033
+ "epoch": 0.5827949331027115,
5034
+ "grad_norm": 54.005245208740234,
5035
+ "learning_rate": 7.538571148629181e-05,
5036
+ "loss": 0.2281,
5037
+ "step": 716
5038
+ },
5039
+ {
5040
+ "epoch": 0.5836088925064863,
5041
+ "grad_norm": 45.264747619628906,
5042
+ "learning_rate": 7.513600375911282e-05,
5043
+ "loss": 0.2925,
5044
+ "step": 717
5045
+ },
5046
+ {
5047
+ "epoch": 0.584422851910261,
5048
+ "grad_norm": 19.641254425048828,
5049
+ "learning_rate": 7.488646117601966e-05,
5050
+ "loss": 0.0986,
5051
+ "step": 718
5052
+ },
5053
+ {
5054
+ "epoch": 0.5852368113140357,
5055
+ "grad_norm": 44.582054138183594,
5056
+ "learning_rate": 7.463708539444825e-05,
5057
+ "loss": 0.2937,
5058
+ "step": 719
5059
+ },
5060
+ {
5061
+ "epoch": 0.5860507707178104,
5062
+ "grad_norm": 46.1585693359375,
5063
+ "learning_rate": 7.438787807072673e-05,
5064
+ "loss": 0.2131,
5065
+ "step": 720
5066
+ },
5067
+ {
5068
+ "epoch": 0.5868647301215851,
5069
+ "grad_norm": 60.237125396728516,
5070
+ "learning_rate": 7.41388408600643e-05,
5071
+ "loss": 0.3693,
5072
+ "step": 721
5073
+ },
5074
+ {
5075
+ "epoch": 0.58767868952536,
5076
+ "grad_norm": 57.884788513183594,
5077
+ "learning_rate": 7.388997541654034e-05,
5078
+ "loss": 0.3695,
5079
+ "step": 722
5080
+ },
5081
+ {
5082
+ "epoch": 0.5884926489291347,
5083
+ "grad_norm": 47.38265609741211,
5084
+ "learning_rate": 7.364128339309326e-05,
5085
+ "loss": 0.3653,
5086
+ "step": 723
5087
+ },
5088
+ {
5089
+ "epoch": 0.5893066083329094,
5090
+ "grad_norm": 50.9814453125,
5091
+ "learning_rate": 7.339276644150974e-05,
5092
+ "loss": 0.3316,
5093
+ "step": 724
5094
+ },
5095
+ {
5096
+ "epoch": 0.5901205677366841,
5097
+ "grad_norm": 43.59757614135742,
5098
+ "learning_rate": 7.314442621241358e-05,
5099
+ "loss": 0.2472,
5100
+ "step": 725
5101
+ },
5102
+ {
5103
+ "epoch": 0.5909345271404589,
5104
+ "grad_norm": 62.12563705444336,
5105
+ "learning_rate": 7.289626435525492e-05,
5106
+ "loss": 0.259,
5107
+ "step": 726
5108
+ },
5109
+ {
5110
+ "epoch": 0.5917484865442336,
5111
+ "grad_norm": 49.81605529785156,
5112
+ "learning_rate": 7.264828251829898e-05,
5113
+ "loss": 0.3424,
5114
+ "step": 727
5115
+ },
5116
+ {
5117
+ "epoch": 0.5925624459480083,
5118
+ "grad_norm": 49.66926193237305,
5119
+ "learning_rate": 7.240048234861551e-05,
5120
+ "loss": 0.2688,
5121
+ "step": 728
5122
+ },
5123
+ {
5124
+ "epoch": 0.593376405351783,
5125
+ "grad_norm": 57.94556427001953,
5126
+ "learning_rate": 7.215286549206752e-05,
5127
+ "loss": 0.3913,
5128
+ "step": 729
5129
+ },
5130
+ {
5131
+ "epoch": 0.5941903647555579,
5132
+ "grad_norm": 53.42249298095703,
5133
+ "learning_rate": 7.190543359330053e-05,
5134
+ "loss": 0.2853,
5135
+ "step": 730
5136
+ },
5137
+ {
5138
+ "epoch": 0.5950043241593326,
5139
+ "grad_norm": 39.83072280883789,
5140
+ "learning_rate": 7.165818829573152e-05,
5141
+ "loss": 0.2587,
5142
+ "step": 731
5143
+ },
5144
+ {
5145
+ "epoch": 0.5958182835631073,
5146
+ "grad_norm": 59.428504943847656,
5147
+ "learning_rate": 7.141113124153813e-05,
5148
+ "loss": 0.351,
5149
+ "step": 732
5150
+ },
5151
+ {
5152
+ "epoch": 0.596632242966882,
5153
+ "grad_norm": 59.53033447265625,
5154
+ "learning_rate": 7.116426407164774e-05,
5155
+ "loss": 0.3712,
5156
+ "step": 733
5157
+ },
5158
+ {
5159
+ "epoch": 0.5974462023706567,
5160
+ "grad_norm": 65.05998992919922,
5161
+ "learning_rate": 7.09175884257265e-05,
5162
+ "loss": 0.2694,
5163
+ "step": 734
5164
+ },
5165
+ {
5166
+ "epoch": 0.5982601617744315,
5167
+ "grad_norm": 50.66227340698242,
5168
+ "learning_rate": 7.067110594216846e-05,
5169
+ "loss": 0.2719,
5170
+ "step": 735
5171
+ },
5172
+ {
5173
+ "epoch": 0.5990741211782062,
5174
+ "grad_norm": 49.97603988647461,
5175
+ "learning_rate": 7.042481825808472e-05,
5176
+ "loss": 0.3072,
5177
+ "step": 736
5178
+ },
5179
+ {
5180
+ "epoch": 0.599888080581981,
5181
+ "grad_norm": 67.29642486572266,
5182
+ "learning_rate": 7.017872700929256e-05,
5183
+ "loss": 0.3836,
5184
+ "step": 737
5185
+ },
5186
+ {
5187
+ "epoch": 0.6007020399857557,
5188
+ "grad_norm": 65.37061309814453,
5189
+ "learning_rate": 6.99328338303046e-05,
5190
+ "loss": 0.2462,
5191
+ "step": 738
5192
+ },
5193
+ {
5194
+ "epoch": 0.6015159993895305,
5195
+ "grad_norm": 54.828678131103516,
5196
+ "learning_rate": 6.968714035431778e-05,
5197
+ "loss": 0.2659,
5198
+ "step": 739
5199
+ },
5200
+ {
5201
+ "epoch": 0.6023299587933052,
5202
+ "grad_norm": 51.78413391113281,
5203
+ "learning_rate": 6.944164821320272e-05,
5204
+ "loss": 0.2319,
5205
+ "step": 740
5206
+ },
5207
+ {
5208
+ "epoch": 0.6031439181970799,
5209
+ "grad_norm": 53.32963943481445,
5210
+ "learning_rate": 6.919635903749275e-05,
5211
+ "loss": 0.3568,
5212
+ "step": 741
5213
+ },
5214
+ {
5215
+ "epoch": 0.6039578776008546,
5216
+ "grad_norm": 51.37131118774414,
5217
+ "learning_rate": 6.895127445637322e-05,
5218
+ "loss": 0.288,
5219
+ "step": 742
5220
+ },
5221
+ {
5222
+ "epoch": 0.6047718370046294,
5223
+ "grad_norm": 47.527496337890625,
5224
+ "learning_rate": 6.870639609767045e-05,
5225
+ "loss": 0.2663,
5226
+ "step": 743
5227
+ },
5228
+ {
5229
+ "epoch": 0.6055857964084042,
5230
+ "grad_norm": 45.580806732177734,
5231
+ "learning_rate": 6.846172558784115e-05,
5232
+ "loss": 0.2014,
5233
+ "step": 744
5234
+ },
5235
+ {
5236
+ "epoch": 0.6063997558121789,
5237
+ "grad_norm": 53.77296829223633,
5238
+ "learning_rate": 6.821726455196147e-05,
5239
+ "loss": 0.2433,
5240
+ "step": 745
5241
+ },
5242
+ {
5243
+ "epoch": 0.6072137152159536,
5244
+ "grad_norm": 65.12919616699219,
5245
+ "learning_rate": 6.797301461371625e-05,
5246
+ "loss": 0.3797,
5247
+ "step": 746
5248
+ },
5249
+ {
5250
+ "epoch": 0.6080276746197283,
5251
+ "grad_norm": 48.55885314941406,
5252
+ "learning_rate": 6.772897739538828e-05,
5253
+ "loss": 0.2576,
5254
+ "step": 747
5255
+ },
5256
+ {
5257
+ "epoch": 0.6088416340235031,
5258
+ "grad_norm": 47.1102180480957,
5259
+ "learning_rate": 6.74851545178475e-05,
5260
+ "loss": 0.2319,
5261
+ "step": 748
5262
+ },
5263
+ {
5264
+ "epoch": 0.6096555934272778,
5265
+ "grad_norm": 81.5816421508789,
5266
+ "learning_rate": 6.72415476005402e-05,
5267
+ "loss": 0.3255,
5268
+ "step": 749
5269
+ },
5270
+ {
5271
+ "epoch": 0.6104695528310525,
5272
+ "grad_norm": 65.25933837890625,
5273
+ "learning_rate": 6.69981582614782e-05,
5274
+ "loss": 0.2848,
5275
+ "step": 750
5276
+ },
5277
+ {
5278
+ "epoch": 0.6112835122348272,
5279
+ "grad_norm": 55.96926498413086,
5280
+ "learning_rate": 6.675498811722829e-05,
5281
+ "loss": 0.2348,
5282
+ "step": 751
5283
+ },
5284
+ {
5285
+ "epoch": 0.6120974716386021,
5286
+ "grad_norm": 43.61034393310547,
5287
+ "learning_rate": 6.651203878290139e-05,
5288
+ "loss": 0.231,
5289
+ "step": 752
5290
+ },
5291
+ {
5292
+ "epoch": 0.6129114310423768,
5293
+ "grad_norm": 31.008319854736328,
5294
+ "learning_rate": 6.62693118721418e-05,
5295
+ "loss": 0.103,
5296
+ "step": 753
5297
+ },
5298
+ {
5299
+ "epoch": 0.6137253904461515,
5300
+ "grad_norm": 1.3136836290359497,
5301
+ "learning_rate": 6.602680899711646e-05,
5302
+ "loss": 0.0042,
5303
+ "step": 754
5304
+ },
5305
+ {
5306
+ "epoch": 0.6145393498499262,
5307
+ "grad_norm": 15.586652755737305,
5308
+ "learning_rate": 6.578453176850436e-05,
5309
+ "loss": 0.0464,
5310
+ "step": 755
5311
+ },
5312
+ {
5313
+ "epoch": 0.615353309253701,
5314
+ "grad_norm": 44.42432403564453,
5315
+ "learning_rate": 6.55424817954857e-05,
5316
+ "loss": 0.2051,
5317
+ "step": 756
5318
+ },
5319
+ {
5320
+ "epoch": 0.6161672686574757,
5321
+ "grad_norm": 35.67814636230469,
5322
+ "learning_rate": 6.530066068573141e-05,
5323
+ "loss": 0.2835,
5324
+ "step": 757
5325
+ },
5326
+ {
5327
+ "epoch": 0.6169812280612504,
5328
+ "grad_norm": 25.91568374633789,
5329
+ "learning_rate": 6.505907004539212e-05,
5330
+ "loss": 0.1127,
5331
+ "step": 758
5332
+ },
5333
+ {
5334
+ "epoch": 0.6177951874650252,
5335
+ "grad_norm": 37.35220718383789,
5336
+ "learning_rate": 6.481771147908788e-05,
5337
+ "loss": 0.1884,
5338
+ "step": 759
5339
+ },
5340
+ {
5341
+ "epoch": 0.6186091468687999,
5342
+ "grad_norm": 190.1105499267578,
5343
+ "learning_rate": 6.457658658989727e-05,
5344
+ "loss": 0.1498,
5345
+ "step": 760
5346
+ },
5347
+ {
5348
+ "epoch": 0.6194231062725747,
5349
+ "grad_norm": 44.32551956176758,
5350
+ "learning_rate": 6.433569697934682e-05,
5351
+ "loss": 0.2618,
5352
+ "step": 761
5353
+ },
5354
+ {
5355
+ "epoch": 0.6202370656763494,
5356
+ "grad_norm": 33.40470504760742,
5357
+ "learning_rate": 6.409504424740032e-05,
5358
+ "loss": 0.1494,
5359
+ "step": 762
5360
+ },
5361
+ {
5362
+ "epoch": 0.6210510250801241,
5363
+ "grad_norm": 37.62383270263672,
5364
+ "learning_rate": 6.38546299924483e-05,
5365
+ "loss": 0.2397,
5366
+ "step": 763
5367
+ },
5368
+ {
5369
+ "epoch": 0.6218649844838988,
5370
+ "grad_norm": 36.98238754272461,
5371
+ "learning_rate": 6.361445581129728e-05,
5372
+ "loss": 0.2055,
5373
+ "step": 764
5374
+ },
5375
+ {
5376
+ "epoch": 0.6226789438876736,
5377
+ "grad_norm": 32.904693603515625,
5378
+ "learning_rate": 6.337452329915934e-05,
5379
+ "loss": 0.1837,
5380
+ "step": 765
5381
+ },
5382
+ {
5383
+ "epoch": 0.6234929032914484,
5384
+ "grad_norm": 37.48151779174805,
5385
+ "learning_rate": 6.313483404964132e-05,
5386
+ "loss": 0.1884,
5387
+ "step": 766
5388
+ },
5389
+ {
5390
+ "epoch": 0.6243068626952231,
5391
+ "grad_norm": 37.03144454956055,
5392
+ "learning_rate": 6.289538965473433e-05,
5393
+ "loss": 0.1922,
5394
+ "step": 767
5395
+ },
5396
+ {
5397
+ "epoch": 0.6251208220989978,
5398
+ "grad_norm": 24.123199462890625,
5399
+ "learning_rate": 6.26561917048033e-05,
5400
+ "loss": 0.1027,
5401
+ "step": 768
5402
+ },
5403
+ {
5404
+ "epoch": 0.6259347815027726,
5405
+ "grad_norm": 32.866939544677734,
5406
+ "learning_rate": 6.24172417885762e-05,
5407
+ "loss": 0.1554,
5408
+ "step": 769
5409
+ },
5410
+ {
5411
+ "epoch": 0.6267487409065473,
5412
+ "grad_norm": 34.67884063720703,
5413
+ "learning_rate": 6.217854149313356e-05,
5414
+ "loss": 0.1588,
5415
+ "step": 770
5416
+ },
5417
+ {
5418
+ "epoch": 0.627562700310322,
5419
+ "grad_norm": 42.89500427246094,
5420
+ "learning_rate": 6.194009240389804e-05,
5421
+ "loss": 0.2246,
5422
+ "step": 771
5423
+ },
5424
+ {
5425
+ "epoch": 0.6283766597140967,
5426
+ "grad_norm": 32.1603889465332,
5427
+ "learning_rate": 6.17018961046238e-05,
5428
+ "loss": 0.1558,
5429
+ "step": 772
5430
+ },
5431
+ {
5432
+ "epoch": 0.6291906191178714,
5433
+ "grad_norm": 404.0511779785156,
5434
+ "learning_rate": 6.146395417738591e-05,
5435
+ "loss": 0.2373,
5436
+ "step": 773
5437
+ },
5438
+ {
5439
+ "epoch": 0.6300045785216463,
5440
+ "grad_norm": 58.87459182739258,
5441
+ "learning_rate": 6.122626820257e-05,
5442
+ "loss": 0.3325,
5443
+ "step": 774
5444
+ },
5445
+ {
5446
+ "epoch": 0.630818537925421,
5447
+ "grad_norm": 45.14493179321289,
5448
+ "learning_rate": 6.0988839758861704e-05,
5449
+ "loss": 0.2347,
5450
+ "step": 775
5451
+ },
5452
+ {
5453
+ "epoch": 0.6316324973291957,
5454
+ "grad_norm": 59.351871490478516,
5455
+ "learning_rate": 6.0751670423236154e-05,
5456
+ "loss": 0.3635,
5457
+ "step": 776
5458
+ },
5459
+ {
5460
+ "epoch": 0.6324464567329704,
5461
+ "grad_norm": 476.9781494140625,
5462
+ "learning_rate": 6.051476177094741e-05,
5463
+ "loss": 0.2314,
5464
+ "step": 777
5465
+ },
5466
+ {
5467
+ "epoch": 0.6332604161367452,
5468
+ "grad_norm": 60.79478073120117,
5469
+ "learning_rate": 6.027811537551825e-05,
5470
+ "loss": 0.3063,
5471
+ "step": 778
5472
+ },
5473
+ {
5474
+ "epoch": 0.6340743755405199,
5475
+ "grad_norm": 48.325199127197266,
5476
+ "learning_rate": 6.00417328087295e-05,
5477
+ "loss": 0.2721,
5478
+ "step": 779
5479
+ },
5480
+ {
5481
+ "epoch": 0.6348883349442946,
5482
+ "grad_norm": 199.98365783691406,
5483
+ "learning_rate": 5.980561564060969e-05,
5484
+ "loss": 0.1579,
5485
+ "step": 780
5486
+ },
5487
+ {
5488
+ "epoch": 0.6357022943480694,
5489
+ "grad_norm": 68.45670318603516,
5490
+ "learning_rate": 5.9569765439424495e-05,
5491
+ "loss": 0.2126,
5492
+ "step": 781
5493
+ },
5494
+ {
5495
+ "epoch": 0.6365162537518442,
5496
+ "grad_norm": 43.91973876953125,
5497
+ "learning_rate": 5.933418377166658e-05,
5498
+ "loss": 0.1876,
5499
+ "step": 782
5500
+ },
5501
+ {
5502
+ "epoch": 0.6373302131556189,
5503
+ "grad_norm": 91.87893676757812,
5504
+ "learning_rate": 5.909887220204493e-05,
5505
+ "loss": 0.3872,
5506
+ "step": 783
5507
+ },
5508
+ {
5509
+ "epoch": 0.6381441725593936,
5510
+ "grad_norm": 74.87539672851562,
5511
+ "learning_rate": 5.886383229347463e-05,
5512
+ "loss": 0.2318,
5513
+ "step": 784
5514
+ },
5515
+ {
5516
+ "epoch": 0.6389581319631683,
5517
+ "grad_norm": 71.59709930419922,
5518
+ "learning_rate": 5.862906560706633e-05,
5519
+ "loss": 0.3344,
5520
+ "step": 785
5521
+ },
5522
+ {
5523
+ "epoch": 0.639772091366943,
5524
+ "grad_norm": 47.874229431152344,
5525
+ "learning_rate": 5.83945737021161e-05,
5526
+ "loss": 0.254,
5527
+ "step": 786
5528
+ },
5529
+ {
5530
+ "epoch": 0.6405860507707178,
5531
+ "grad_norm": 57.80400848388672,
5532
+ "learning_rate": 5.8160358136094774e-05,
5533
+ "loss": 0.253,
5534
+ "step": 787
5535
+ },
5536
+ {
5537
+ "epoch": 0.6414000101744926,
5538
+ "grad_norm": 79.46519470214844,
5539
+ "learning_rate": 5.792642046463799e-05,
5540
+ "loss": 0.2248,
5541
+ "step": 788
5542
+ },
5543
+ {
5544
+ "epoch": 0.6422139695782673,
5545
+ "grad_norm": 47.88967514038086,
5546
+ "learning_rate": 5.7692762241535436e-05,
5547
+ "loss": 0.2188,
5548
+ "step": 789
5549
+ },
5550
+ {
5551
+ "epoch": 0.643027928982042,
5552
+ "grad_norm": 57.09530258178711,
5553
+ "learning_rate": 5.745938501872077e-05,
5554
+ "loss": 0.2508,
5555
+ "step": 790
5556
+ },
5557
+ {
5558
+ "epoch": 0.6438418883858168,
5559
+ "grad_norm": 44.46107864379883,
5560
+ "learning_rate": 5.722629034626142e-05,
5561
+ "loss": 0.1885,
5562
+ "step": 791
5563
+ },
5564
+ {
5565
+ "epoch": 0.6446558477895915,
5566
+ "grad_norm": 132.8684844970703,
5567
+ "learning_rate": 5.699347977234799e-05,
5568
+ "loss": 0.1336,
5569
+ "step": 792
5570
+ },
5571
+ {
5572
+ "epoch": 0.6454698071933662,
5573
+ "grad_norm": 49.768375396728516,
5574
+ "learning_rate": 5.676095484328412e-05,
5575
+ "loss": 0.2443,
5576
+ "step": 793
5577
+ },
5578
+ {
5579
+ "epoch": 0.6462837665971409,
5580
+ "grad_norm": 45.3474006652832,
5581
+ "learning_rate": 5.6528717103476357e-05,
5582
+ "loss": 0.2448,
5583
+ "step": 794
5584
+ },
5585
+ {
5586
+ "epoch": 0.6470977260009158,
5587
+ "grad_norm": 40.80412673950195,
5588
+ "learning_rate": 5.629676809542372e-05,
5589
+ "loss": 0.1843,
5590
+ "step": 795
5591
+ },
5592
+ {
5593
+ "epoch": 0.6479116854046905,
5594
+ "grad_norm": 50.88961410522461,
5595
+ "learning_rate": 5.606510935970743e-05,
5596
+ "loss": 0.2411,
5597
+ "step": 796
5598
+ },
5599
+ {
5600
+ "epoch": 0.6487256448084652,
5601
+ "grad_norm": 101.00830841064453,
5602
+ "learning_rate": 5.583374243498078e-05,
5603
+ "loss": 0.2418,
5604
+ "step": 797
5605
+ },
5606
+ {
5607
+ "epoch": 0.6495396042122399,
5608
+ "grad_norm": 74.56405639648438,
5609
+ "learning_rate": 5.5602668857958976e-05,
5610
+ "loss": 0.2715,
5611
+ "step": 798
5612
+ },
5613
+ {
5614
+ "epoch": 0.6503535636160146,
5615
+ "grad_norm": 51.45407485961914,
5616
+ "learning_rate": 5.537189016340871e-05,
5617
+ "loss": 0.2208,
5618
+ "step": 799
5619
+ },
5620
+ {
5621
+ "epoch": 0.6511675230197894,
5622
+ "grad_norm": 55.39333724975586,
5623
+ "learning_rate": 5.514140788413813e-05,
5624
+ "loss": 0.1669,
5625
+ "step": 800
5626
+ },
5627
+ {
5628
+ "epoch": 0.6519814824235641,
5629
+ "grad_norm": 58.65150833129883,
5630
+ "learning_rate": 5.4911223550986726e-05,
5631
+ "loss": 0.2259,
5632
+ "step": 801
5633
+ },
5634
+ {
5635
+ "epoch": 0.6527954418273388,
5636
+ "grad_norm": 25.898643493652344,
5637
+ "learning_rate": 5.468133869281486e-05,
5638
+ "loss": 0.1065,
5639
+ "step": 802
5640
+ },
5641
+ {
5642
+ "epoch": 0.6536094012311136,
5643
+ "grad_norm": 122.08544921875,
5644
+ "learning_rate": 5.445175483649406e-05,
5645
+ "loss": 0.0793,
5646
+ "step": 803
5647
+ },
5648
+ {
5649
+ "epoch": 0.6544233606348884,
5650
+ "grad_norm": 3.62011981010437,
5651
+ "learning_rate": 5.422247350689644e-05,
5652
+ "loss": 0.0353,
5653
+ "step": 804
5654
+ },
5655
+ {
5656
+ "epoch": 0.6552373200386631,
5657
+ "grad_norm": 35.7380256652832,
5658
+ "learning_rate": 5.399349622688479e-05,
5659
+ "loss": 0.0986,
5660
+ "step": 805
5661
+ },
5662
+ {
5663
+ "epoch": 0.6560512794424378,
5664
+ "grad_norm": 46.61280822753906,
5665
+ "learning_rate": 5.376482451730251e-05,
5666
+ "loss": 0.1796,
5667
+ "step": 806
5668
+ },
5669
+ {
5670
+ "epoch": 0.6568652388462125,
5671
+ "grad_norm": 34.265533447265625,
5672
+ "learning_rate": 5.353645989696348e-05,
5673
+ "loss": 0.1439,
5674
+ "step": 807
5675
+ },
5676
+ {
5677
+ "epoch": 0.6576791982499873,
5678
+ "grad_norm": 39.47645568847656,
5679
+ "learning_rate": 5.3308403882641664e-05,
5680
+ "loss": 0.1296,
5681
+ "step": 808
5682
+ },
5683
+ {
5684
+ "epoch": 0.658493157653762,
5685
+ "grad_norm": 42.333133697509766,
5686
+ "learning_rate": 5.3080657989061545e-05,
5687
+ "loss": 0.0948,
5688
+ "step": 809
5689
+ },
5690
+ {
5691
+ "epoch": 0.6593071170575368,
5692
+ "grad_norm": 37.812828063964844,
5693
+ "learning_rate": 5.285322372888781e-05,
5694
+ "loss": 0.1826,
5695
+ "step": 810
5696
+ },
5697
+ {
5698
+ "epoch": 0.6601210764613115,
5699
+ "grad_norm": 41.180789947509766,
5700
+ "learning_rate": 5.2626102612715167e-05,
5701
+ "loss": 0.1831,
5702
+ "step": 811
5703
+ },
5704
+ {
5705
+ "epoch": 0.6609350358650862,
5706
+ "grad_norm": 43.96608352661133,
5707
+ "learning_rate": 5.239929614905852e-05,
5708
+ "loss": 0.1388,
5709
+ "step": 812
5710
+ },
5711
+ {
5712
+ "epoch": 0.661748995268861,
5713
+ "grad_norm": 48.29895782470703,
5714
+ "learning_rate": 5.217280584434295e-05,
5715
+ "loss": 0.1377,
5716
+ "step": 813
5717
+ },
5718
+ {
5719
+ "epoch": 0.6625629546726357,
5720
+ "grad_norm": 69.38063049316406,
5721
+ "learning_rate": 5.1946633202893514e-05,
5722
+ "loss": 0.1632,
5723
+ "step": 814
5724
+ },
5725
+ {
5726
+ "epoch": 0.6633769140764104,
5727
+ "grad_norm": 42.5586051940918,
5728
+ "learning_rate": 5.172077972692553e-05,
5729
+ "loss": 0.1773,
5730
+ "step": 815
5731
+ },
5732
+ {
5733
+ "epoch": 0.6641908734801851,
5734
+ "grad_norm": 28.958391189575195,
5735
+ "learning_rate": 5.149524691653429e-05,
5736
+ "loss": 0.1085,
5737
+ "step": 816
5738
+ },
5739
+ {
5740
+ "epoch": 0.66500483288396,
5741
+ "grad_norm": 30.882476806640625,
5742
+ "learning_rate": 5.127003626968543e-05,
5743
+ "loss": 0.1418,
5744
+ "step": 817
5745
+ },
5746
+ {
5747
+ "epoch": 0.6658187922877347,
5748
+ "grad_norm": 32.6962890625,
5749
+ "learning_rate": 5.104514928220465e-05,
5750
+ "loss": 0.12,
5751
+ "step": 818
5752
+ },
5753
+ {
5754
+ "epoch": 0.6666327516915094,
5755
+ "grad_norm": 22.103111267089844,
5756
+ "learning_rate": 5.0820587447768074e-05,
5757
+ "loss": 0.0795,
5758
+ "step": 819
5759
+ },
5760
+ {
5761
+ "epoch": 0.6674467110952841,
5762
+ "grad_norm": 40.7185173034668,
5763
+ "learning_rate": 5.05963522578921e-05,
5764
+ "loss": 0.1709,
5765
+ "step": 820
5766
+ },
5767
+ {
5768
+ "epoch": 0.6682606704990589,
5769
+ "grad_norm": 39.61101150512695,
5770
+ "learning_rate": 5.037244520192357e-05,
5771
+ "loss": 0.1411,
5772
+ "step": 821
5773
+ },
5774
+ {
5775
+ "epoch": 0.6690746299028336,
5776
+ "grad_norm": 33.44013595581055,
5777
+ "learning_rate": 5.014886776703003e-05,
5778
+ "loss": 0.1204,
5779
+ "step": 822
5780
+ },
5781
+ {
5782
+ "epoch": 0.6698885893066083,
5783
+ "grad_norm": 41.59910583496094,
5784
+ "learning_rate": 4.9925621438189584e-05,
5785
+ "loss": 0.1749,
5786
+ "step": 823
5787
+ },
5788
+ {
5789
+ "epoch": 0.670702548710383,
5790
+ "grad_norm": 35.32121276855469,
5791
+ "learning_rate": 4.970270769818117e-05,
5792
+ "loss": 0.1718,
5793
+ "step": 824
5794
+ },
5795
+ {
5796
+ "epoch": 0.6715165081141579,
5797
+ "grad_norm": 36.579986572265625,
5798
+ "learning_rate": 4.948012802757479e-05,
5799
+ "loss": 0.1343,
5800
+ "step": 825
5801
+ },
5802
+ {
5803
+ "epoch": 0.6723304675179326,
5804
+ "grad_norm": 38.79966354370117,
5805
+ "learning_rate": 4.9257883904721605e-05,
5806
+ "loss": 0.17,
5807
+ "step": 826
5808
+ },
5809
+ {
5810
+ "epoch": 0.6731444269217073,
5811
+ "grad_norm": 33.83872604370117,
5812
+ "learning_rate": 4.9035976805743896e-05,
5813
+ "loss": 0.1773,
5814
+ "step": 827
5815
+ },
5816
+ {
5817
+ "epoch": 0.673958386325482,
5818
+ "grad_norm": 37.60186767578125,
5819
+ "learning_rate": 4.8814408204525693e-05,
5820
+ "loss": 0.1775,
5821
+ "step": 828
5822
+ },
5823
+ {
5824
+ "epoch": 0.6747723457292567,
5825
+ "grad_norm": 38.790164947509766,
5826
+ "learning_rate": 4.8593179572702716e-05,
5827
+ "loss": 0.1743,
5828
+ "step": 829
5829
+ },
5830
+ {
5831
+ "epoch": 0.6755863051330315,
5832
+ "grad_norm": 28.44585609436035,
5833
+ "learning_rate": 4.837229237965257e-05,
5834
+ "loss": 0.1122,
5835
+ "step": 830
5836
+ },
5837
+ {
5838
+ "epoch": 0.6764002645368062,
5839
+ "grad_norm": 41.32687759399414,
5840
+ "learning_rate": 4.815174809248506e-05,
5841
+ "loss": 0.1634,
5842
+ "step": 831
5843
+ },
5844
+ {
5845
+ "epoch": 0.677214223940581,
5846
+ "grad_norm": 36.57081985473633,
5847
+ "learning_rate": 4.793154817603256e-05,
5848
+ "loss": 0.1653,
5849
+ "step": 832
5850
+ },
5851
+ {
5852
+ "epoch": 0.6780281833443557,
5853
+ "grad_norm": 42.01509475708008,
5854
+ "learning_rate": 4.771169409284e-05,
5855
+ "loss": 0.1975,
5856
+ "step": 833
5857
+ },
5858
+ {
5859
+ "epoch": 0.6788421427481305,
5860
+ "grad_norm": 87.05791473388672,
5861
+ "learning_rate": 4.749218730315549e-05,
5862
+ "loss": 0.1092,
5863
+ "step": 834
5864
+ },
5865
+ {
5866
+ "epoch": 0.6796561021519052,
5867
+ "grad_norm": 42.32695770263672,
5868
+ "learning_rate": 4.7273029264920354e-05,
5869
+ "loss": 0.1818,
5870
+ "step": 835
5871
+ },
5872
+ {
5873
+ "epoch": 0.6804700615556799,
5874
+ "grad_norm": 37.434165954589844,
5875
+ "learning_rate": 4.705422143375951e-05,
5876
+ "loss": 0.1319,
5877
+ "step": 836
5878
+ },
5879
+ {
5880
+ "epoch": 0.6812840209594546,
5881
+ "grad_norm": 41.45804214477539,
5882
+ "learning_rate": 4.683576526297194e-05,
5883
+ "loss": 0.1852,
5884
+ "step": 837
5885
+ },
5886
+ {
5887
+ "epoch": 0.6820979803632294,
5888
+ "grad_norm": 37.95827865600586,
5889
+ "learning_rate": 4.661766220352097e-05,
5890
+ "loss": 0.1853,
5891
+ "step": 838
5892
+ },
5893
+ {
5894
+ "epoch": 0.6829119397670042,
5895
+ "grad_norm": 44.540645599365234,
5896
+ "learning_rate": 4.639991370402435e-05,
5897
+ "loss": 0.2481,
5898
+ "step": 839
5899
+ },
5900
+ {
5901
+ "epoch": 0.6837258991707789,
5902
+ "grad_norm": 30.83004379272461,
5903
+ "learning_rate": 4.618252121074511e-05,
5904
+ "loss": 0.1302,
5905
+ "step": 840
5906
+ },
5907
+ {
5908
+ "epoch": 0.6845398585745536,
5909
+ "grad_norm": 48.15626525878906,
5910
+ "learning_rate": 4.5965486167581715e-05,
5911
+ "loss": 0.1389,
5912
+ "step": 841
5913
+ },
5914
+ {
5915
+ "epoch": 0.6853538179783283,
5916
+ "grad_norm": 29.019372940063477,
5917
+ "learning_rate": 4.5748810016058375e-05,
5918
+ "loss": 0.0982,
5919
+ "step": 842
5920
+ },
5921
+ {
5922
+ "epoch": 0.6861677773821031,
5923
+ "grad_norm": 33.21084976196289,
5924
+ "learning_rate": 4.55324941953156e-05,
5925
+ "loss": 0.1163,
5926
+ "step": 843
5927
+ },
5928
+ {
5929
+ "epoch": 0.6869817367858778,
5930
+ "grad_norm": 43.7769660949707,
5931
+ "learning_rate": 4.531654014210073e-05,
5932
+ "loss": 0.1828,
5933
+ "step": 844
5934
+ },
5935
+ {
5936
+ "epoch": 0.6877956961896525,
5937
+ "grad_norm": 46.17595291137695,
5938
+ "learning_rate": 4.510094929075811e-05,
5939
+ "loss": 0.1856,
5940
+ "step": 845
5941
+ },
5942
+ {
5943
+ "epoch": 0.6886096555934272,
5944
+ "grad_norm": 29.587337493896484,
5945
+ "learning_rate": 4.488572307321991e-05,
5946
+ "loss": 0.1137,
5947
+ "step": 846
5948
+ },
5949
+ {
5950
+ "epoch": 0.6894236149972021,
5951
+ "grad_norm": 41.43854904174805,
5952
+ "learning_rate": 4.467086291899631e-05,
5953
+ "loss": 0.1404,
5954
+ "step": 847
5955
+ },
5956
+ {
5957
+ "epoch": 0.6902375744009768,
5958
+ "grad_norm": 41.26163864135742,
5959
+ "learning_rate": 4.445637025516618e-05,
5960
+ "loss": 0.1455,
5961
+ "step": 848
5962
+ },
5963
+ {
5964
+ "epoch": 0.6910515338047515,
5965
+ "grad_norm": 44.870452880859375,
5966
+ "learning_rate": 4.4242246506367565e-05,
5967
+ "loss": 0.1787,
5968
+ "step": 849
5969
+ },
5970
+ {
5971
+ "epoch": 0.6918654932085262,
5972
+ "grad_norm": 49.94888687133789,
5973
+ "learning_rate": 4.402849309478826e-05,
5974
+ "loss": 0.2284,
5975
+ "step": 850
5976
+ },
5977
+ {
5978
+ "epoch": 0.692679452612301,
5979
+ "grad_norm": 33.52574157714844,
5980
+ "learning_rate": 4.381511144015623e-05,
5981
+ "loss": 0.1003,
5982
+ "step": 851
5983
+ },
5984
+ {
5985
+ "epoch": 0.6934934120160757,
5986
+ "grad_norm": 29.384990692138672,
5987
+ "learning_rate": 4.3602102959730274e-05,
5988
+ "loss": 0.1299,
5989
+ "step": 852
5990
+ },
5991
+ {
5992
+ "epoch": 0.6943073714198504,
5993
+ "grad_norm": 20.83409881591797,
5994
+ "learning_rate": 4.3389469068290714e-05,
5995
+ "loss": 0.0806,
5996
+ "step": 853
5997
+ },
5998
+ {
5999
+ "epoch": 0.6951213308236251,
6000
+ "grad_norm": 1.9559507369995117,
6001
+ "learning_rate": 4.317721117812976e-05,
6002
+ "loss": 0.0271,
6003
+ "step": 854
6004
+ },
6005
+ {
6006
+ "epoch": 0.6959352902273999,
6007
+ "grad_norm": 36.907413482666016,
6008
+ "learning_rate": 4.296533069904231e-05,
6009
+ "loss": 0.1023,
6010
+ "step": 855
6011
+ },
6012
+ {
6013
+ "epoch": 0.6967492496311747,
6014
+ "grad_norm": 46.04658508300781,
6015
+ "learning_rate": 4.275382903831661e-05,
6016
+ "loss": 0.1407,
6017
+ "step": 856
6018
+ },
6019
+ {
6020
+ "epoch": 0.6975632090349494,
6021
+ "grad_norm": 28.599374771118164,
6022
+ "learning_rate": 4.2542707600724705e-05,
6023
+ "loss": 0.1233,
6024
+ "step": 857
6025
+ },
6026
+ {
6027
+ "epoch": 0.6983771684387241,
6028
+ "grad_norm": 25.164894104003906,
6029
+ "learning_rate": 4.2331967788513295e-05,
6030
+ "loss": 0.0781,
6031
+ "step": 858
6032
+ },
6033
+ {
6034
+ "epoch": 0.6991911278424988,
6035
+ "grad_norm": 28.69033432006836,
6036
+ "learning_rate": 4.21216110013944e-05,
6037
+ "loss": 0.0815,
6038
+ "step": 859
6039
+ },
6040
+ {
6041
+ "epoch": 0.7000050872462736,
6042
+ "grad_norm": 34.5803337097168,
6043
+ "learning_rate": 4.191163863653602e-05,
6044
+ "loss": 0.1501,
6045
+ "step": 860
6046
+ },
6047
+ {
6048
+ "epoch": 0.7008190466500483,
6049
+ "grad_norm": 26.946563720703125,
6050
+ "learning_rate": 4.170205208855281e-05,
6051
+ "loss": 0.0911,
6052
+ "step": 861
6053
+ },
6054
+ {
6055
+ "epoch": 0.7016330060538231,
6056
+ "grad_norm": 36.64064407348633,
6057
+ "learning_rate": 4.149285274949687e-05,
6058
+ "loss": 0.1626,
6059
+ "step": 862
6060
+ },
6061
+ {
6062
+ "epoch": 0.7024469654575978,
6063
+ "grad_norm": 416.12091064453125,
6064
+ "learning_rate": 4.1284042008848575e-05,
6065
+ "loss": 0.0885,
6066
+ "step": 863
6067
+ },
6068
+ {
6069
+ "epoch": 0.7032609248613726,
6070
+ "grad_norm": 41.267051696777344,
6071
+ "learning_rate": 4.107562125350717e-05,
6072
+ "loss": 0.131,
6073
+ "step": 864
6074
+ },
6075
+ {
6076
+ "epoch": 0.7040748842651473,
6077
+ "grad_norm": 34.00017166137695,
6078
+ "learning_rate": 4.0867591867781775e-05,
6079
+ "loss": 0.1013,
6080
+ "step": 865
6081
+ },
6082
+ {
6083
+ "epoch": 0.704888843668922,
6084
+ "grad_norm": 26.25673484802246,
6085
+ "learning_rate": 4.065995523338196e-05,
6086
+ "loss": 0.0794,
6087
+ "step": 866
6088
+ },
6089
+ {
6090
+ "epoch": 0.7057028030726967,
6091
+ "grad_norm": 37.889678955078125,
6092
+ "learning_rate": 4.045271272940871e-05,
6093
+ "loss": 0.1237,
6094
+ "step": 867
6095
+ },
6096
+ {
6097
+ "epoch": 0.7065167624764714,
6098
+ "grad_norm": 43.01131820678711,
6099
+ "learning_rate": 4.024586573234528e-05,
6100
+ "loss": 0.1073,
6101
+ "step": 868
6102
+ },
6103
+ {
6104
+ "epoch": 0.7073307218802463,
6105
+ "grad_norm": 3.8389437198638916,
6106
+ "learning_rate": 4.003941561604806e-05,
6107
+ "loss": 0.0242,
6108
+ "step": 869
6109
+ },
6110
+ {
6111
+ "epoch": 0.708144681284021,
6112
+ "grad_norm": 30.021215438842773,
6113
+ "learning_rate": 3.9833363751737176e-05,
6114
+ "loss": 0.1149,
6115
+ "step": 870
6116
+ },
6117
+ {
6118
+ "epoch": 0.7089586406877957,
6119
+ "grad_norm": 30.630382537841797,
6120
+ "learning_rate": 3.962771150798783e-05,
6121
+ "loss": 0.094,
6122
+ "step": 871
6123
+ },
6124
+ {
6125
+ "epoch": 0.7097726000915704,
6126
+ "grad_norm": 29.798114776611328,
6127
+ "learning_rate": 3.942246025072094e-05,
6128
+ "loss": 0.1084,
6129
+ "step": 872
6130
+ },
6131
+ {
6132
+ "epoch": 0.7105865594953452,
6133
+ "grad_norm": 27.651573181152344,
6134
+ "learning_rate": 3.921761134319405e-05,
6135
+ "loss": 0.0965,
6136
+ "step": 873
6137
+ },
6138
+ {
6139
+ "epoch": 0.7114005188991199,
6140
+ "grad_norm": 33.88676452636719,
6141
+ "learning_rate": 3.901316614599233e-05,
6142
+ "loss": 0.1225,
6143
+ "step": 874
6144
+ },
6145
+ {
6146
+ "epoch": 0.7122144783028946,
6147
+ "grad_norm": 1447.6011962890625,
6148
+ "learning_rate": 3.880912601701966e-05,
6149
+ "loss": 0.1537,
6150
+ "step": 875
6151
+ },
6152
+ {
6153
+ "epoch": 0.7130284377066693,
6154
+ "grad_norm": 33.33890914916992,
6155
+ "learning_rate": 3.8605492311489366e-05,
6156
+ "loss": 0.0969,
6157
+ "step": 876
6158
+ },
6159
+ {
6160
+ "epoch": 0.7138423971104442,
6161
+ "grad_norm": 35.259151458740234,
6162
+ "learning_rate": 3.840226638191548e-05,
6163
+ "loss": 0.1148,
6164
+ "step": 877
6165
+ },
6166
+ {
6167
+ "epoch": 0.7146563565142189,
6168
+ "grad_norm": 29.41961097717285,
6169
+ "learning_rate": 3.819944957810351e-05,
6170
+ "loss": 0.1439,
6171
+ "step": 878
6172
+ },
6173
+ {
6174
+ "epoch": 0.7154703159179936,
6175
+ "grad_norm": 50.51820373535156,
6176
+ "learning_rate": 3.799704324714163e-05,
6177
+ "loss": 0.1373,
6178
+ "step": 879
6179
+ },
6180
+ {
6181
+ "epoch": 0.7162842753217683,
6182
+ "grad_norm": 44.14652633666992,
6183
+ "learning_rate": 3.7795048733391766e-05,
6184
+ "loss": 0.2158,
6185
+ "step": 880
6186
+ },
6187
+ {
6188
+ "epoch": 0.717098234725543,
6189
+ "grad_norm": 40.594505310058594,
6190
+ "learning_rate": 3.75934673784805e-05,
6191
+ "loss": 0.1681,
6192
+ "step": 881
6193
+ },
6194
+ {
6195
+ "epoch": 0.7179121941293178,
6196
+ "grad_norm": 84.34337615966797,
6197
+ "learning_rate": 3.7392300521290325e-05,
6198
+ "loss": 0.1413,
6199
+ "step": 882
6200
+ },
6201
+ {
6202
+ "epoch": 0.7187261535330925,
6203
+ "grad_norm": 44.9776725769043,
6204
+ "learning_rate": 3.7191549497950604e-05,
6205
+ "loss": 0.1622,
6206
+ "step": 883
6207
+ },
6208
+ {
6209
+ "epoch": 0.7195401129368673,
6210
+ "grad_norm": 28.877975463867188,
6211
+ "learning_rate": 3.69912156418289e-05,
6212
+ "loss": 0.089,
6213
+ "step": 884
6214
+ },
6215
+ {
6216
+ "epoch": 0.720354072340642,
6217
+ "grad_norm": 34.6644172668457,
6218
+ "learning_rate": 3.679130028352188e-05,
6219
+ "loss": 0.1652,
6220
+ "step": 885
6221
+ },
6222
+ {
6223
+ "epoch": 0.7211680317444168,
6224
+ "grad_norm": 32.32722473144531,
6225
+ "learning_rate": 3.6591804750846605e-05,
6226
+ "loss": 0.1318,
6227
+ "step": 886
6228
+ },
6229
+ {
6230
+ "epoch": 0.7219819911481915,
6231
+ "grad_norm": 44.709774017333984,
6232
+ "learning_rate": 3.6392730368831786e-05,
6233
+ "loss": 0.2229,
6234
+ "step": 887
6235
+ },
6236
+ {
6237
+ "epoch": 0.7227959505519662,
6238
+ "grad_norm": 40.06110382080078,
6239
+ "learning_rate": 3.619407845970879e-05,
6240
+ "loss": 0.1522,
6241
+ "step": 888
6242
+ },
6243
+ {
6244
+ "epoch": 0.7236099099557409,
6245
+ "grad_norm": 36.12160110473633,
6246
+ "learning_rate": 3.5995850342902995e-05,
6247
+ "loss": 0.1057,
6248
+ "step": 889
6249
+ },
6250
+ {
6251
+ "epoch": 0.7244238693595157,
6252
+ "grad_norm": 31.619089126586914,
6253
+ "learning_rate": 3.579804733502503e-05,
6254
+ "loss": 0.1251,
6255
+ "step": 890
6256
+ },
6257
+ {
6258
+ "epoch": 0.7252378287632905,
6259
+ "grad_norm": 33.7879638671875,
6260
+ "learning_rate": 3.5600670749861996e-05,
6261
+ "loss": 0.1502,
6262
+ "step": 891
6263
+ },
6264
+ {
6265
+ "epoch": 0.7260517881670652,
6266
+ "grad_norm": 29.666200637817383,
6267
+ "learning_rate": 3.540372189836869e-05,
6268
+ "loss": 0.131,
6269
+ "step": 892
6270
+ },
6271
+ {
6272
+ "epoch": 0.7268657475708399,
6273
+ "grad_norm": 22.836761474609375,
6274
+ "learning_rate": 3.520720208865893e-05,
6275
+ "loss": 0.0757,
6276
+ "step": 893
6277
+ },
6278
+ {
6279
+ "epoch": 0.7276797069746146,
6280
+ "grad_norm": 45.23774719238281,
6281
+ "learning_rate": 3.5011112625997e-05,
6282
+ "loss": 0.1304,
6283
+ "step": 894
6284
+ },
6285
+ {
6286
+ "epoch": 0.7284936663783894,
6287
+ "grad_norm": 38.99264907836914,
6288
+ "learning_rate": 3.4815454812788706e-05,
6289
+ "loss": 0.1453,
6290
+ "step": 895
6291
+ },
6292
+ {
6293
+ "epoch": 0.7293076257821641,
6294
+ "grad_norm": 106.77359008789062,
6295
+ "learning_rate": 3.4620229948573025e-05,
6296
+ "loss": 0.1349,
6297
+ "step": 896
6298
+ },
6299
+ {
6300
+ "epoch": 0.7301215851859388,
6301
+ "grad_norm": 44.6533317565918,
6302
+ "learning_rate": 3.4425439330013256e-05,
6303
+ "loss": 0.1598,
6304
+ "step": 897
6305
+ },
6306
+ {
6307
+ "epoch": 0.7309355445897135,
6308
+ "grad_norm": 285.970458984375,
6309
+ "learning_rate": 3.4231084250888456e-05,
6310
+ "loss": 0.1167,
6311
+ "step": 898
6312
+ },
6313
+ {
6314
+ "epoch": 0.7317495039934884,
6315
+ "grad_norm": 47.680335998535156,
6316
+ "learning_rate": 3.403716600208493e-05,
6317
+ "loss": 0.1731,
6318
+ "step": 899
6319
+ },
6320
+ {
6321
+ "epoch": 0.7325634633972631,
6322
+ "grad_norm": 61.76184844970703,
6323
+ "learning_rate": 3.384368587158768e-05,
6324
+ "loss": 0.2204,
6325
+ "step": 900
6326
+ },
6327
+ {
6328
+ "epoch": 0.7333774228010378,
6329
+ "grad_norm": 30.390470504760742,
6330
+ "learning_rate": 3.3650645144471534e-05,
6331
+ "loss": 0.0785,
6332
+ "step": 901
6333
+ },
6334
+ {
6335
+ "epoch": 0.7341913822048125,
6336
+ "grad_norm": 30.618160247802734,
6337
+ "learning_rate": 3.3458045102893056e-05,
6338
+ "loss": 0.1125,
6339
+ "step": 902
6340
+ },
6341
+ {
6342
+ "epoch": 0.7350053416085873,
6343
+ "grad_norm": 7.7283220291137695,
6344
+ "learning_rate": 3.32658870260818e-05,
6345
+ "loss": 0.0286,
6346
+ "step": 903
6347
+ },
6348
+ {
6349
+ "epoch": 0.735819301012362,
6350
+ "grad_norm": 1.869195818901062,
6351
+ "learning_rate": 3.3074172190331745e-05,
6352
+ "loss": 0.0184,
6353
+ "step": 904
6354
+ },
6355
+ {
6356
+ "epoch": 0.7366332604161367,
6357
+ "grad_norm": 16.758420944213867,
6358
+ "learning_rate": 3.2882901868992947e-05,
6359
+ "loss": 0.0653,
6360
+ "step": 905
6361
+ },
6362
+ {
6363
+ "epoch": 0.7374472198199115,
6364
+ "grad_norm": 22.458642959594727,
6365
+ "learning_rate": 3.26920773324631e-05,
6366
+ "loss": 0.0804,
6367
+ "step": 906
6368
+ },
6369
+ {
6370
+ "epoch": 0.7382611792236862,
6371
+ "grad_norm": 22.702131271362305,
6372
+ "learning_rate": 3.250169984817897e-05,
6373
+ "loss": 0.0786,
6374
+ "step": 907
6375
+ },
6376
+ {
6377
+ "epoch": 0.739075138627461,
6378
+ "grad_norm": 18.22410774230957,
6379
+ "learning_rate": 3.231177068060806e-05,
6380
+ "loss": 0.0703,
6381
+ "step": 908
6382
+ },
6383
+ {
6384
+ "epoch": 0.7398890980312357,
6385
+ "grad_norm": 23.45182228088379,
6386
+ "learning_rate": 3.212229109124024e-05,
6387
+ "loss": 0.1015,
6388
+ "step": 909
6389
+ },
6390
+ {
6391
+ "epoch": 0.7407030574350104,
6392
+ "grad_norm": 28.893701553344727,
6393
+ "learning_rate": 3.193326233857929e-05,
6394
+ "loss": 0.1082,
6395
+ "step": 910
6396
+ },
6397
+ {
6398
+ "epoch": 0.7415170168387851,
6399
+ "grad_norm": 24.799541473388672,
6400
+ "learning_rate": 3.174468567813461e-05,
6401
+ "loss": 0.0821,
6402
+ "step": 911
6403
+ },
6404
+ {
6405
+ "epoch": 0.74233097624256,
6406
+ "grad_norm": 27.781465530395508,
6407
+ "learning_rate": 3.155656236241282e-05,
6408
+ "loss": 0.0966,
6409
+ "step": 912
6410
+ },
6411
+ {
6412
+ "epoch": 0.7431449356463347,
6413
+ "grad_norm": 19.129531860351562,
6414
+ "learning_rate": 3.136889364090945e-05,
6415
+ "loss": 0.0954,
6416
+ "step": 913
6417
+ },
6418
+ {
6419
+ "epoch": 0.7439588950501094,
6420
+ "grad_norm": 29.945077896118164,
6421
+ "learning_rate": 3.118168076010073e-05,
6422
+ "loss": 0.1311,
6423
+ "step": 914
6424
+ },
6425
+ {
6426
+ "epoch": 0.7447728544538841,
6427
+ "grad_norm": 25.83333969116211,
6428
+ "learning_rate": 3.099492496343523e-05,
6429
+ "loss": 0.0964,
6430
+ "step": 915
6431
+ },
6432
+ {
6433
+ "epoch": 0.7455868138576589,
6434
+ "grad_norm": 42.37409210205078,
6435
+ "learning_rate": 3.080862749132559e-05,
6436
+ "loss": 0.0803,
6437
+ "step": 916
6438
+ },
6439
+ {
6440
+ "epoch": 0.7464007732614336,
6441
+ "grad_norm": 28.768110275268555,
6442
+ "learning_rate": 3.062278958114024e-05,
6443
+ "loss": 0.1066,
6444
+ "step": 917
6445
+ },
6446
+ {
6447
+ "epoch": 0.7472147326652083,
6448
+ "grad_norm": 26.81410026550293,
6449
+ "learning_rate": 3.0437412467195415e-05,
6450
+ "loss": 0.0918,
6451
+ "step": 918
6452
+ },
6453
+ {
6454
+ "epoch": 0.748028692068983,
6455
+ "grad_norm": 10.25985336303711,
6456
+ "learning_rate": 3.0252497380746626e-05,
6457
+ "loss": 0.0298,
6458
+ "step": 919
6459
+ },
6460
+ {
6461
+ "epoch": 0.7488426514727577,
6462
+ "grad_norm": 21.550514221191406,
6463
+ "learning_rate": 3.0068045549980706e-05,
6464
+ "loss": 0.0848,
6465
+ "step": 920
6466
+ },
6467
+ {
6468
+ "epoch": 0.7496566108765326,
6469
+ "grad_norm": 22.176000595092773,
6470
+ "learning_rate": 2.9884058200007616e-05,
6471
+ "loss": 0.079,
6472
+ "step": 921
6473
+ },
6474
+ {
6475
+ "epoch": 0.7504705702803073,
6476
+ "grad_norm": 21.899085998535156,
6477
+ "learning_rate": 2.97005365528523e-05,
6478
+ "loss": 0.0768,
6479
+ "step": 922
6480
+ },
6481
+ {
6482
+ "epoch": 0.751284529684082,
6483
+ "grad_norm": 20.058740615844727,
6484
+ "learning_rate": 2.951748182744647e-05,
6485
+ "loss": 0.0639,
6486
+ "step": 923
6487
+ },
6488
+ {
6489
+ "epoch": 0.7520984890878567,
6490
+ "grad_norm": 41.038108825683594,
6491
+ "learning_rate": 2.933489523962063e-05,
6492
+ "loss": 0.1081,
6493
+ "step": 924
6494
+ },
6495
+ {
6496
+ "epoch": 0.7520984890878567,
6497
+ "eval_loss": 0.08842191100120544,
6498
+ "eval_runtime": 56.5432,
6499
+ "eval_samples_per_second": 36.609,
6500
+ "eval_steps_per_second": 18.305,
6501
+ "step": 924
6502
  }
6503
  ],
6504
  "logging_steps": 1,
 
6518
  "attributes": {}
6519
  }
6520
  },
6521
+ "total_flos": 2.8215083161092096e+17,
6522
  "train_batch_size": 2,
6523
  "trial_name": null,
6524
  "trial_params": null