Qwen3-4B-Code-Analyzer-Step2000 / trainer_state.json

Upload Qwen3-4B-Code-Analyzer-Step2000 fine-tuned model

d71de19 verified 4 days ago

44.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.79247152055473,
	"eval_steps": 500.0,
	"global_step": 2000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00039623576027736503,
	"grad_norm": 23.5,
	"learning_rate": 2.6315789473684213e-07,
	"loss": 1.1837007999420166,
	"step": 1,
	"token_acc": 0.8159329621764334
	},
	{
	"epoch": 0.00396235760277365,
	"grad_norm": 21.375,
	"learning_rate": 2.631578947368421e-06,
	"loss": 1.123257319132487,
	"step": 10,
	"token_acc": 0.8210087927828165
	},
	{
	"epoch": 0.0079247152055473,
	"grad_norm": 7.09375,
	"learning_rate": 5.263157894736842e-06,
	"loss": 0.9101140975952149,
	"step": 20,
	"token_acc": 0.8285831313786395
	},
	{
	"epoch": 0.01188707280832095,
	"grad_norm": 2.8125,
	"learning_rate": 7.894736842105265e-06,
	"loss": 0.5795128822326661,
	"step": 30,
	"token_acc": 0.8505745886743207
	},
	{
	"epoch": 0.0158494304110946,
	"grad_norm": 1.7578125,
	"learning_rate": 1.0526315789473684e-05,
	"loss": 0.42301692962646487,
	"step": 40,
	"token_acc": 0.8767900103104593
	},
	{
	"epoch": 0.01981178801386825,
	"grad_norm": 1.4921875,
	"learning_rate": 1.3157894736842108e-05,
	"loss": 0.35302650928497314,
	"step": 50,
	"token_acc": 0.8897820845537251
	},
	{
	"epoch": 0.0237741456166419,
	"grad_norm": 1.375,
	"learning_rate": 1.578947368421053e-05,
	"loss": 0.33079302310943604,
	"step": 60,
	"token_acc": 0.8967102736745091
	},
	{
	"epoch": 0.02773650321941555,
	"grad_norm": 1.25,
	"learning_rate": 1.8421052631578947e-05,
	"loss": 0.31292335987091063,
	"step": 70,
	"token_acc": 0.9010626512129326
	},
	{
	"epoch": 0.0316988608221892,
	"grad_norm": 1.109375,
	"learning_rate": 1.999986824534997e-05,
	"loss": 0.3141467094421387,
	"step": 80,
	"token_acc": 0.9005368650633087
	},
	{
	"epoch": 0.03566121842496285,
	"grad_norm": 1.296875,
	"learning_rate": 1.9998386045408938e-05,
	"loss": 0.29496400356292723,
	"step": 90,
	"token_acc": 0.9055861965123218
	},
	{
	"epoch": 0.0396235760277365,
	"grad_norm": 1.28125,
	"learning_rate": 1.999525719713366e-05,
	"loss": 0.2913074970245361,
	"step": 100,
	"token_acc": 0.9076149509114921
	},
	{
	"epoch": 0.04358593363051015,
	"grad_norm": 1.6015625,
	"learning_rate": 1.999048221581858e-05,
	"loss": 0.2880474805831909,
	"step": 110,
	"token_acc": 0.9073922051522615
	},
	{
	"epoch": 0.0475482912332838,
	"grad_norm": 1.390625,
	"learning_rate": 1.9984061887862118e-05,
	"loss": 0.27746291160583497,
	"step": 120,
	"token_acc": 0.9101783276777932
	},
	{
	"epoch": 0.05151064883605745,
	"grad_norm": 1.171875,
	"learning_rate": 1.9975997270637172e-05,
	"loss": 0.273817777633667,
	"step": 130,
	"token_acc": 0.909736600422787
	},
	{
	"epoch": 0.0554730064388311,
	"grad_norm": 1.2578125,
	"learning_rate": 1.9966289692316944e-05,
	"loss": 0.2767889976501465,
	"step": 140,
	"token_acc": 0.9082912026144594
	},
	{
	"epoch": 0.05943536404160475,
	"grad_norm": 1.4921875,
	"learning_rate": 1.9954940751656245e-05,
	"loss": 0.27089781761169435,
	"step": 150,
	"token_acc": 0.9099060425408418
	},
	{
	"epoch": 0.0633977216443784,
	"grad_norm": 1.171875,
	"learning_rate": 1.994195231772815e-05,
	"loss": 0.25421991348266604,
	"step": 160,
	"token_acc": 0.9162766481231006
	},
	{
	"epoch": 0.06736007924715205,
	"grad_norm": 1.359375,
	"learning_rate": 1.9927326529616203e-05,
	"loss": 0.2611961841583252,
	"step": 170,
	"token_acc": 0.9147679722152482
	},
	{
	"epoch": 0.0713224368499257,
	"grad_norm": 1.4296875,
	"learning_rate": 1.9911065796062137e-05,
	"loss": 0.264358377456665,
	"step": 180,
	"token_acc": 0.9137104702605277
	},
	{
	"epoch": 0.07528479445269935,
	"grad_norm": 1.2265625,
	"learning_rate": 1.9893172795069144e-05,
	"loss": 0.27645695209503174,
	"step": 190,
	"token_acc": 0.9085774438661551
	},
	{
	"epoch": 0.079247152055473,
	"grad_norm": 1.3125,
	"learning_rate": 1.9873650473460862e-05,
	"loss": 0.2564415693283081,
	"step": 200,
	"token_acc": 0.9148068228524455
	},
	{
	"epoch": 0.08320950965824665,
	"grad_norm": 1.2265625,
	"learning_rate": 1.9852502046396035e-05,
	"loss": 0.2584503650665283,
	"step": 210,
	"token_acc": 0.9148747112137906
	},
	{
	"epoch": 0.0871718672610203,
	"grad_norm": 1.1171875,
	"learning_rate": 1.982973099683902e-05,
	"loss": 0.25623598098754885,
	"step": 220,
	"token_acc": 0.916684382955295
	},
	{
	"epoch": 0.09113422486379395,
	"grad_norm": 1.4296875,
	"learning_rate": 1.980534107498616e-05,
	"loss": 0.2456662178039551,
	"step": 230,
	"token_acc": 0.9188118082346068
	},
	{
	"epoch": 0.0950965824665676,
	"grad_norm": 1.4609375,
	"learning_rate": 1.977933629764817e-05,
	"loss": 0.2530802249908447,
	"step": 240,
	"token_acc": 0.9152495545682131
	},
	{
	"epoch": 0.09905894006934125,
	"grad_norm": 1.3203125,
	"learning_rate": 1.9751720947588603e-05,
	"loss": 0.24223690032958983,
	"step": 250,
	"token_acc": 0.9186887231706855
	},
	{
	"epoch": 0.1030212976721149,
	"grad_norm": 1.21875,
	"learning_rate": 1.9722499572818496e-05,
	"loss": 0.23485193252563477,
	"step": 260,
	"token_acc": 0.9216265054055996
	},
	{
	"epoch": 0.10698365527488855,
	"grad_norm": 1.5,
	"learning_rate": 1.969167698584738e-05,
	"loss": 0.24744803905487062,
	"step": 270,
	"token_acc": 0.9177383756974582
	},
	{
	"epoch": 0.1109460128776622,
	"grad_norm": 1.234375,
	"learning_rate": 1.9659258262890683e-05,
	"loss": 0.25014376640319824,
	"step": 280,
	"token_acc": 0.9170167948905685
	},
	{
	"epoch": 0.11490837048043585,
	"grad_norm": 1.5078125,
	"learning_rate": 1.9625248743033725e-05,
	"loss": 0.23340215682983398,
	"step": 290,
	"token_acc": 0.9214856049225197
	},
	{
	"epoch": 0.1188707280832095,
	"grad_norm": 1.171875,
	"learning_rate": 1.9589654027352412e-05,
	"loss": 0.24289028644561766,
	"step": 300,
	"token_acc": 0.9185406963850078
	},
	{
	"epoch": 0.12283308568598315,
	"grad_norm": 1.0625,
	"learning_rate": 1.9552479977990802e-05,
	"loss": 0.24520406723022461,
	"step": 310,
	"token_acc": 0.9184403422069023
	},
	{
	"epoch": 0.1267954432887568,
	"grad_norm": 1.359375,
	"learning_rate": 1.9513732717195638e-05,
	"loss": 0.2427917242050171,
	"step": 320,
	"token_acc": 0.9178514285714285
	},
	{
	"epoch": 0.13075780089153047,
	"grad_norm": 0.9609375,
	"learning_rate": 1.9473418626308086e-05,
	"loss": 0.21972455978393554,
	"step": 330,
	"token_acc": 0.9259012550960103
	},
	{
	"epoch": 0.1347201584943041,
	"grad_norm": 1.3984375,
	"learning_rate": 1.9431544344712776e-05,
	"loss": 0.2463603973388672,
	"step": 340,
	"token_acc": 0.9171354320865818
	},
	{
	"epoch": 0.13868251609707777,
	"grad_norm": 1.25,
	"learning_rate": 1.9388116768744344e-05,
	"loss": 0.23121447563171388,
	"step": 350,
	"token_acc": 0.9208610209876757
	},
	{
	"epoch": 0.1426448736998514,
	"grad_norm": 1.0546875,
	"learning_rate": 1.9343143050551684e-05,
	"loss": 0.2372572898864746,
	"step": 360,
	"token_acc": 0.9205740491816241
	},
	{
	"epoch": 0.14660723130262507,
	"grad_norm": 1.6328125,
	"learning_rate": 1.929663059692002e-05,
	"loss": 0.23370888233184814,
	"step": 370,
	"token_acc": 0.9218769547078884
	},
	{
	"epoch": 0.1505695889053987,
	"grad_norm": 1.3515625,
	"learning_rate": 1.924858706805112e-05,
	"loss": 0.22563014030456544,
	"step": 380,
	"token_acc": 0.9239206109486627
	},
	{
	"epoch": 0.15453194650817237,
	"grad_norm": 1.2890625,
	"learning_rate": 1.9199020376301666e-05,
	"loss": 0.22754812240600586,
	"step": 390,
	"token_acc": 0.923770752222635
	},
	{
	"epoch": 0.158494304110946,
	"grad_norm": 1.2109375,
	"learning_rate": 1.9147938684880213e-05,
	"loss": 0.233451247215271,
	"step": 400,
	"token_acc": 0.9208578517882449
	},
	{
	"epoch": 0.16245666171371967,
	"grad_norm": 1.359375,
	"learning_rate": 1.9095350406502736e-05,
	"loss": 0.22117164134979247,
	"step": 410,
	"token_acc": 0.9251948698253339
	},
	{
	"epoch": 0.1664190193164933,
	"grad_norm": 1.265625,
	"learning_rate": 1.9041264202007158e-05,
	"loss": 0.23051214218139648,
	"step": 420,
	"token_acc": 0.9227009356565836
	},
	{
	"epoch": 0.17038137691926697,
	"grad_norm": 1.296875,
	"learning_rate": 1.8985688978926972e-05,
	"loss": 0.22384767532348632,
	"step": 430,
	"token_acc": 0.9254292644524351
	},
	{
	"epoch": 0.1743437345220406,
	"grad_norm": 0.96484375,
	"learning_rate": 1.892863389002424e-05,
	"loss": 0.22796776294708251,
	"step": 440,
	"token_acc": 0.9236655948553054
	},
	{
	"epoch": 0.17830609212481427,
	"grad_norm": 1.1015625,
	"learning_rate": 1.887010833178222e-05,
	"loss": 0.2255650520324707,
	"step": 450,
	"token_acc": 0.9233627684120709
	},
	{
	"epoch": 0.1822684497275879,
	"grad_norm": 1.3828125,
	"learning_rate": 1.8810121942857848e-05,
	"loss": 0.21253745555877684,
	"step": 460,
	"token_acc": 0.9272634714542769
	},
	{
	"epoch": 0.18623080733036157,
	"grad_norm": 1.171875,
	"learning_rate": 1.8748684602494327e-05,
	"loss": 0.22184033393859864,
	"step": 470,
	"token_acc": 0.9256473357586134
	},
	{
	"epoch": 0.1901931649331352,
	"grad_norm": 1.046875,
	"learning_rate": 1.8685806428894113e-05,
	"loss": 0.2163544178009033,
	"step": 480,
	"token_acc": 0.92641120988206
	},
	{
	"epoch": 0.19415552253590887,
	"grad_norm": 1.234375,
	"learning_rate": 1.8621497777552508e-05,
	"loss": 0.2326265335083008,
	"step": 490,
	"token_acc": 0.9219484631704639
	},
	{
	"epoch": 0.1981178801386825,
	"grad_norm": 1.1328125,
	"learning_rate": 1.8555769239552232e-05,
	"loss": 0.21914072036743165,
	"step": 500,
	"token_acc": 0.9266210447862321
	},
	{
	"epoch": 0.20208023774145617,
	"grad_norm": 1.546875,
	"learning_rate": 1.848863163981914e-05,
	"loss": 0.22959327697753906,
	"step": 510,
	"token_acc": 0.9215090641842234
	},
	{
	"epoch": 0.2060425953442298,
	"grad_norm": 1.109375,
	"learning_rate": 1.8420096035339454e-05,
	"loss": 0.21052975654602052,
	"step": 520,
	"token_acc": 0.9286930380232219
	},
	{
	"epoch": 0.21000495294700347,
	"grad_norm": 1.0703125,
	"learning_rate": 1.8350173713338777e-05,
	"loss": 0.22955830097198487,
	"step": 530,
	"token_acc": 0.9225931053342221
	},
	{
	"epoch": 0.2139673105497771,
	"grad_norm": 1.2890625,
	"learning_rate": 1.827887618942318e-05,
	"loss": 0.21942346096038817,
	"step": 540,
	"token_acc": 0.9257000477242205
	},
	{
	"epoch": 0.21792966815255077,
	"grad_norm": 1.234375,
	"learning_rate": 1.8206215205682683e-05,
	"loss": 0.21607930660247804,
	"step": 550,
	"token_acc": 0.9265396164644921
	},
	{
	"epoch": 0.2218920257553244,
	"grad_norm": 1.359375,
	"learning_rate": 1.8132202728757428e-05,
	"loss": 0.21843266487121582,
	"step": 560,
	"token_acc": 0.9258849850056328
	},
	{
	"epoch": 0.22585438335809807,
	"grad_norm": 1.3671875,
	"learning_rate": 1.805685094786689e-05,
	"loss": 0.21874871253967285,
	"step": 570,
	"token_acc": 0.9250736338016231
	},
	{
	"epoch": 0.2298167409608717,
	"grad_norm": 1.1640625,
	"learning_rate": 1.7980172272802398e-05,
	"loss": 0.22817540168762207,
	"step": 580,
	"token_acc": 0.9221536778365731
	},
	{
	"epoch": 0.23377909856364537,
	"grad_norm": 1.3671875,
	"learning_rate": 1.790217933188336e-05,
	"loss": 0.20628876686096193,
	"step": 590,
	"token_acc": 0.9291559217209775
	},
	{
	"epoch": 0.237741456166419,
	"grad_norm": 1.2265625,
	"learning_rate": 1.7822884969877493e-05,
	"loss": 0.22458946704864502,
	"step": 600,
	"token_acc": 0.9231406464867372
	},
	{
	"epoch": 0.24170381376919267,
	"grad_norm": 1.3046875,
	"learning_rate": 1.7742302245885384e-05,
	"loss": 0.20527830123901367,
	"step": 610,
	"token_acc": 0.9306424304540271
	},
	{
	"epoch": 0.2456661713719663,
	"grad_norm": 1.1171875,
	"learning_rate": 1.766044443118978e-05,
	"loss": 0.2055346965789795,
	"step": 620,
	"token_acc": 0.9294153185205075
	},
	{
	"epoch": 0.24962852897473997,
	"grad_norm": 1.1640625,
	"learning_rate": 1.7577325007069927e-05,
	"loss": 0.21000022888183595,
	"step": 630,
	"token_acc": 0.9276756514760238
	},
	{
	"epoch": 0.2535908865775136,
	"grad_norm": 1.2265625,
	"learning_rate": 1.7492957662581297e-05,
	"loss": 0.20726590156555175,
	"step": 640,
	"token_acc": 0.9288681287625508
	},
	{
	"epoch": 0.25755324418028724,
	"grad_norm": 1.1328125,
	"learning_rate": 1.7407356292301134e-05,
	"loss": 0.20893335342407227,
	"step": 650,
	"token_acc": 0.9287459199802928
	},
	{
	"epoch": 0.26151560178306094,
	"grad_norm": 1.46875,
	"learning_rate": 1.7320534994040148e-05,
	"loss": 0.2122333526611328,
	"step": 660,
	"token_acc": 0.9268251113697004
	},
	{
	"epoch": 0.26547795938583457,
	"grad_norm": 2.21875,
	"learning_rate": 1.7232508066520702e-05,
	"loss": 0.2119227170944214,
	"step": 670,
	"token_acc": 0.9272324174995067
	},
	{
	"epoch": 0.2694403169886082,
	"grad_norm": 1.2890625,
	"learning_rate": 1.7143290007021942e-05,
	"loss": 0.2144456148147583,
	"step": 680,
	"token_acc": 0.9266572858854115
	},
	{
	"epoch": 0.27340267459138184,
	"grad_norm": 1.3515625,
	"learning_rate": 1.7052895508992236e-05,
	"loss": 0.20908637046813966,
	"step": 690,
	"token_acc": 0.9279253384640653
	},
	{
	"epoch": 0.27736503219415554,
	"grad_norm": 1.2734375,
	"learning_rate": 1.696133945962927e-05,
	"loss": 0.21407780647277833,
	"step": 700,
	"token_acc": 0.9275297697109584
	},
	{
	"epoch": 0.2813273897969292,
	"grad_norm": 1.3984375,
	"learning_rate": 1.6868636937428254e-05,
	"loss": 0.20272161960601806,
	"step": 710,
	"token_acc": 0.9313989228518674
	},
	{
	"epoch": 0.2852897473997028,
	"grad_norm": 1.359375,
	"learning_rate": 1.677480320969865e-05,
	"loss": 0.20830063819885253,
	"step": 720,
	"token_acc": 0.9284670505715276
	},
	{
	"epoch": 0.2892521050024765,
	"grad_norm": 1.3046875,
	"learning_rate": 1.6679853730049743e-05,
	"loss": 0.20571448802947997,
	"step": 730,
	"token_acc": 0.9288137503522119
	},
	{
	"epoch": 0.29321446260525014,
	"grad_norm": 1.4375,
	"learning_rate": 1.6583804135845582e-05,
	"loss": 0.207275128364563,
	"step": 740,
	"token_acc": 0.9295052506473598
	},
	{
	"epoch": 0.2971768202080238,
	"grad_norm": 1.1640625,
	"learning_rate": 1.648667024562963e-05,
	"loss": 0.2059840202331543,
	"step": 750,
	"token_acc": 0.9303702716282313
	},
	{
	"epoch": 0.3011391778107974,
	"grad_norm": 1.4296875,
	"learning_rate": 1.638846805651961e-05,
	"loss": 0.20929555892944335,
	"step": 760,
	"token_acc": 0.9285013576720667
	},
	{
	"epoch": 0.3051015354135711,
	"grad_norm": 1.2265625,
	"learning_rate": 1.62892137415729e-05,
	"loss": 0.2164773464202881,
	"step": 770,
	"token_acc": 0.9268445872201972
	},
	{
	"epoch": 0.30906389301634474,
	"grad_norm": 1.078125,
	"learning_rate": 1.6188923647122946e-05,
	"loss": 0.20146725177764893,
	"step": 780,
	"token_acc": 0.9308608962964089
	},
	{
	"epoch": 0.3130262506191184,
	"grad_norm": 1.1796875,
	"learning_rate": 1.608761429008721e-05,
	"loss": 0.19116392135620117,
	"step": 790,
	"token_acc": 0.9360810066351728
	},
	{
	"epoch": 0.316988608221892,
	"grad_norm": 1.40625,
	"learning_rate": 1.5985302355246932e-05,
	"loss": 0.19471538066864014,
	"step": 800,
	"token_acc": 0.9334035945789697
	},
	{
	"epoch": 0.3209509658246657,
	"grad_norm": 1.3984375,
	"learning_rate": 1.5882004692499324e-05,
	"loss": 0.20449495315551758,
	"step": 810,
	"token_acc": 0.9296946281131374
	},
	{
	"epoch": 0.32491332342743934,
	"grad_norm": 1.4140625,
	"learning_rate": 1.5777738314082514e-05,
	"loss": 0.2058267116546631,
	"step": 820,
	"token_acc": 0.930226312581988
	},
	{
	"epoch": 0.328875681030213,
	"grad_norm": 1.4296875,
	"learning_rate": 1.567252039177378e-05,
	"loss": 0.19794673919677735,
	"step": 830,
	"token_acc": 0.931884692988862
	},
	{
	"epoch": 0.3328380386329866,
	"grad_norm": 1.390625,
	"learning_rate": 1.5566368254061505e-05,
	"loss": 0.20482149124145507,
	"step": 840,
	"token_acc": 0.9305290785274152
	},
	{
	"epoch": 0.3368003962357603,
	"grad_norm": 1.53125,
	"learning_rate": 1.5459299383291347e-05,
	"loss": 0.19639644622802735,
	"step": 850,
	"token_acc": 0.9322417158382036
	},
	{
	"epoch": 0.34076275383853394,
	"grad_norm": 1.4375,
	"learning_rate": 1.5351331412787004e-05,
	"loss": 0.2021495819091797,
	"step": 860,
	"token_acc": 0.9298179216523921
	},
	{
	"epoch": 0.3447251114413076,
	"grad_norm": 1.1875,
	"learning_rate": 1.52424821239462e-05,
	"loss": 0.20063307285308837,
	"step": 870,
	"token_acc": 0.9313979538110527
	},
	{
	"epoch": 0.3486874690440812,
	"grad_norm": 1.6328125,
	"learning_rate": 1.5132769443312207e-05,
	"loss": 0.20427477359771729,
	"step": 880,
	"token_acc": 0.9299313715863092
	},
	{
	"epoch": 0.3526498266468549,
	"grad_norm": 1.4609375,
	"learning_rate": 1.5022211439621521e-05,
	"loss": 0.20063276290893556,
	"step": 890,
	"token_acc": 0.9309864789183134
	},
	{
	"epoch": 0.35661218424962854,
	"grad_norm": 1.328125,
	"learning_rate": 1.4910826320828085e-05,
	"loss": 0.19403212070465087,
	"step": 900,
	"token_acc": 0.9340383217142124
	},
	{
	"epoch": 0.3605745418524022,
	"grad_norm": 1.21875,
	"learning_rate": 1.4798632431104591e-05,
	"loss": 0.1897117853164673,
	"step": 910,
	"token_acc": 0.9360307874252368
	},
	{
	"epoch": 0.3645368994551758,
	"grad_norm": 1.4296875,
	"learning_rate": 1.4685648247821376e-05,
	"loss": 0.19313969612121581,
	"step": 920,
	"token_acc": 0.9329953036961753
	},
	{
	"epoch": 0.3684992570579495,
	"grad_norm": 1.0859375,
	"learning_rate": 1.457189237850332e-05,
	"loss": 0.203882098197937,
	"step": 930,
	"token_acc": 0.9312272344443193
	},
	{
	"epoch": 0.37246161466072314,
	"grad_norm": 0.875,
	"learning_rate": 1.4457383557765385e-05,
	"loss": 0.1886841893196106,
	"step": 940,
	"token_acc": 0.9355444372139664
	},
	{
	"epoch": 0.3764239722634968,
	"grad_norm": 1.359375,
	"learning_rate": 1.4342140644227151e-05,
	"loss": 0.1905367612838745,
	"step": 950,
	"token_acc": 0.9352085303078055
	},
	{
	"epoch": 0.3803863298662704,
	"grad_norm": 1.140625,
	"learning_rate": 1.4226182617406996e-05,
	"loss": 0.19780998229980468,
	"step": 960,
	"token_acc": 0.9324879595849204
	},
	{
	"epoch": 0.3843486874690441,
	"grad_norm": 1.3203125,
	"learning_rate": 1.41095285745963e-05,
	"loss": 0.19177125692367553,
	"step": 970,
	"token_acc": 0.9343932834841926
	},
	{
	"epoch": 0.38831104507181774,
	"grad_norm": 1.7578125,
	"learning_rate": 1.399219772771431e-05,
	"loss": 0.1960275650024414,
	"step": 980,
	"token_acc": 0.9329073312723757
	},
	{
	"epoch": 0.3922734026745914,
	"grad_norm": 1.34375,
	"learning_rate": 1.3874209400144092e-05,
	"loss": 0.18507509231567382,
	"step": 990,
	"token_acc": 0.9359859759133133
	},
	{
	"epoch": 0.396235760277365,
	"grad_norm": 1.2734375,
	"learning_rate": 1.3755583023550128e-05,
	"loss": 0.1876603364944458,
	"step": 1000,
	"token_acc": 0.9350970511384845
	},
	{
	"epoch": 0.4001981178801387,
	"grad_norm": 1.28125,
	"learning_rate": 1.3636338134678104e-05,
	"loss": 0.17850277423858643,
	"step": 1010,
	"token_acc": 0.9377877376733048
	},
	{
	"epoch": 0.40416047548291234,
	"grad_norm": 1.234375,
	"learning_rate": 1.3516494372137368e-05,
	"loss": 0.1958215355873108,
	"step": 1020,
	"token_acc": 0.9318651647470785
	},
	{
	"epoch": 0.408122833085686,
	"grad_norm": 1.6640625,
	"learning_rate": 1.3396071473166614e-05,
	"loss": 0.18602523803710938,
	"step": 1030,
	"token_acc": 0.9359838557500786
	},
	{
	"epoch": 0.4120851906884596,
	"grad_norm": 1.2109375,
	"learning_rate": 1.327508927038334e-05,
	"loss": 0.18929693698883057,
	"step": 1040,
	"token_acc": 0.9350099237438629
	},
	{
	"epoch": 0.4160475482912333,
	"grad_norm": 1.03125,
	"learning_rate": 1.3153567688517567e-05,
	"loss": 0.18981436491012574,
	"step": 1050,
	"token_acc": 0.934143741104814
	},
	{
	"epoch": 0.42000990589400694,
	"grad_norm": 1.3359375,
	"learning_rate": 1.3031526741130435e-05,
	"loss": 0.1816575288772583,
	"step": 1060,
	"token_acc": 0.9370538611291369
	},
	{
	"epoch": 0.4239722634967806,
	"grad_norm": 1.3203125,
	"learning_rate": 1.2908986527318121e-05,
	"loss": 0.19676063060760499,
	"step": 1070,
	"token_acc": 0.932801285003426
	},
	{
	"epoch": 0.4279346210995542,
	"grad_norm": 1.2734375,
	"learning_rate": 1.2785967228401688e-05,
	"loss": 0.19254275560379028,
	"step": 1080,
	"token_acc": 0.9333315147712704
	},
	{
	"epoch": 0.4318969787023279,
	"grad_norm": 1.5078125,
	"learning_rate": 1.266248910460341e-05,
	"loss": 0.18717528581619264,
	"step": 1090,
	"token_acc": 0.9360305301291446
	},
	{
	"epoch": 0.43585933630510154,
	"grad_norm": 1.734375,
	"learning_rate": 1.2538572491710079e-05,
	"loss": 0.1824967622756958,
	"step": 1100,
	"token_acc": 0.9372006812944594
	},
	{
	"epoch": 0.4398216939078752,
	"grad_norm": 1.0078125,
	"learning_rate": 1.2414237797723876e-05,
	"loss": 0.17919249534606935,
	"step": 1110,
	"token_acc": 0.9387596071733562
	},
	{
	"epoch": 0.4437840515106488,
	"grad_norm": 1.296875,
	"learning_rate": 1.2289505499501341e-05,
	"loss": 0.18926095962524414,
	"step": 1120,
	"token_acc": 0.9342525248667318
	},
	{
	"epoch": 0.4477464091134225,
	"grad_norm": 1.28125,
	"learning_rate": 1.2164396139381029e-05,
	"loss": 0.20064361095428468,
	"step": 1130,
	"token_acc": 0.9315847075431296
	},
	{
	"epoch": 0.45170876671619614,
	"grad_norm": 1.484375,
	"learning_rate": 1.2038930321800346e-05,
	"loss": 0.1895804524421692,
	"step": 1140,
	"token_acc": 0.9349271790531848
	},
	{
	"epoch": 0.4556711243189698,
	"grad_norm": 1.5703125,
	"learning_rate": 1.1913128709902182e-05,
	"loss": 0.1807018995285034,
	"step": 1150,
	"token_acc": 0.9369057628872647
	},
	{
	"epoch": 0.4596334819217434,
	"grad_norm": 1.4140625,
	"learning_rate": 1.1787012022131863e-05,
	"loss": 0.1842559814453125,
	"step": 1160,
	"token_acc": 0.9362108645620739
	},
	{
	"epoch": 0.4635958395245171,
	"grad_norm": 1.3203125,
	"learning_rate": 1.1660601028825013e-05,
	"loss": 0.19840482473373414,
	"step": 1170,
	"token_acc": 0.9314812356169233
	},
	{
	"epoch": 0.46755819712729074,
	"grad_norm": 1.046875,
	"learning_rate": 1.1533916548786856e-05,
	"loss": 0.1772662878036499,
	"step": 1180,
	"token_acc": 0.9394712189028833
	},
	{
	"epoch": 0.4715205547300644,
	"grad_norm": 1.2734375,
	"learning_rate": 1.1406979445863515e-05,
	"loss": 0.18831554651260377,
	"step": 1190,
	"token_acc": 0.935608596292791
	},
	{
	"epoch": 0.475482912332838,
	"grad_norm": 1.34375,
	"learning_rate": 1.127981062550595e-05,
	"loss": 0.18489151000976561,
	"step": 1200,
	"token_acc": 0.9360608419277421
	},
	{
	"epoch": 0.4794452699356117,
	"grad_norm": 1.3984375,
	"learning_rate": 1.1152431031326978e-05,
	"loss": 0.17761152982711792,
	"step": 1210,
	"token_acc": 0.9386175400572799
	},
	{
	"epoch": 0.48340762753838534,
	"grad_norm": 3.109375,
	"learning_rate": 1.102486164165207e-05,
	"loss": 0.18663549423217773,
	"step": 1220,
	"token_acc": 0.9355476517845982
	},
	{
	"epoch": 0.487369985141159,
	"grad_norm": 1.25,
	"learning_rate": 1.0897123466064376e-05,
	"loss": 0.18886669874191284,
	"step": 1230,
	"token_acc": 0.9356319723508901
	},
	{
	"epoch": 0.4913323427439326,
	"grad_norm": 1.34375,
	"learning_rate": 1.0769237541944639e-05,
	"loss": 0.18777060508728027,
	"step": 1240,
	"token_acc": 0.9354588236528564
	},
	{
	"epoch": 0.4952947003467063,
	"grad_norm": 1.5,
	"learning_rate": 1.0641224931006518e-05,
	"loss": 0.17902556657791138,
	"step": 1250,
	"token_acc": 0.9375767442118891
	},
	{
	"epoch": 0.49925705794947994,
	"grad_norm": 1.15625,
	"learning_rate": 1.0513106715827897e-05,
	"loss": 0.18400684595108033,
	"step": 1260,
	"token_acc": 0.9370039916704695
	},
	{
	"epoch": 0.5032194155522536,
	"grad_norm": 1.40625,
	"learning_rate": 1.0384903996378784e-05,
	"loss": 0.17728078365325928,
	"step": 1270,
	"token_acc": 0.9389623546976645
	},
	{
	"epoch": 0.5071817731550272,
	"grad_norm": 1.21875,
	"learning_rate": 1.02566378865463e-05,
	"loss": 0.18042536973953247,
	"step": 1280,
	"token_acc": 0.9374939011828994
	},
	{
	"epoch": 0.5111441307578009,
	"grad_norm": 1.4609375,
	"learning_rate": 1.0128329510657426e-05,
	"loss": 0.18618935346603394,
	"step": 1290,
	"token_acc": 0.9355284924654325
	},
	{
	"epoch": 0.5151064883605745,
	"grad_norm": 1.453125,
	"learning_rate": 1e-05,
	"loss": 0.19038233757019044,
	"step": 1300,
	"token_acc": 0.9348978046934141
	},
	{
	"epoch": 0.5190688459633482,
	"grad_norm": 1.921875,
	"learning_rate": 9.871670489342577e-06,
	"loss": 0.18166159391403197,
	"step": 1310,
	"token_acc": 0.9376118246059261
	},
	{
	"epoch": 0.5230312035661219,
	"grad_norm": 1.3828125,
	"learning_rate": 9.743362113453705e-06,
	"loss": 0.18087191581726075,
	"step": 1320,
	"token_acc": 0.9368352123903884
	},
	{
	"epoch": 0.5269935611688955,
	"grad_norm": 1.7890625,
	"learning_rate": 9.615096003621221e-06,
	"loss": 0.17757006883621215,
	"step": 1330,
	"token_acc": 0.9385874468359324
	},
	{
	"epoch": 0.5309559187716691,
	"grad_norm": 1.5,
	"learning_rate": 9.486893284172103e-06,
	"loss": 0.1725843906402588,
	"step": 1340,
	"token_acc": 0.9396233946138856
	},
	{
	"epoch": 0.5349182763744428,
	"grad_norm": 1.1953125,
	"learning_rate": 9.358775068993484e-06,
	"loss": 0.17776031494140626,
	"step": 1350,
	"token_acc": 0.9395069576186172
	},
	{
	"epoch": 0.5388806339772164,
	"grad_norm": 1.2890625,
	"learning_rate": 9.230762458055363e-06,
	"loss": 0.18048588037490845,
	"step": 1360,
	"token_acc": 0.9376439779197635
	},
	{
	"epoch": 0.54284299157999,
	"grad_norm": 1.34375,
	"learning_rate": 9.102876533935626e-06,
	"loss": 0.1871953248977661,
	"step": 1370,
	"token_acc": 0.9352319496539852
	},
	{
	"epoch": 0.5468053491827637,
	"grad_norm": 1.8203125,
	"learning_rate": 8.975138358347931e-06,
	"loss": 0.17401375770568847,
	"step": 1380,
	"token_acc": 0.9395100063574127
	},
	{
	"epoch": 0.5507677067855374,
	"grad_norm": 1.5625,
	"learning_rate": 8.847568968673025e-06,
	"loss": 0.1821776032447815,
	"step": 1390,
	"token_acc": 0.9382589568204417
	},
	{
	"epoch": 0.5547300643883111,
	"grad_norm": 1.3203125,
	"learning_rate": 8.720189374494055e-06,
	"loss": 0.18482091426849365,
	"step": 1400,
	"token_acc": 0.9366791672453971
	},
	{
	"epoch": 0.5586924219910847,
	"grad_norm": 1.140625,
	"learning_rate": 8.593020554136491e-06,
	"loss": 0.17976686954498292,
	"step": 1410,
	"token_acc": 0.938686745381246
	},
	{
	"epoch": 0.5626547795938583,
	"grad_norm": 1.7734375,
	"learning_rate": 8.466083451213145e-06,
	"loss": 0.16887048482894898,
	"step": 1420,
	"token_acc": 0.9413505379807353
	},
	{
	"epoch": 0.566617137196632,
	"grad_norm": 1.53125,
	"learning_rate": 8.339398971174987e-06,
	"loss": 0.181710684299469,
	"step": 1430,
	"token_acc": 0.9381945571057755
	},
	{
	"epoch": 0.5705794947994056,
	"grad_norm": 1.421875,
	"learning_rate": 8.212987977868138e-06,
	"loss": 0.192651104927063,
	"step": 1440,
	"token_acc": 0.9346234811416059
	},
	{
	"epoch": 0.5745418524021793,
	"grad_norm": 1.4375,
	"learning_rate": 8.086871290097822e-06,
	"loss": 0.1725835084915161,
	"step": 1450,
	"token_acc": 0.9401547502340085
	},
	{
	"epoch": 0.578504210004953,
	"grad_norm": 1.390625,
	"learning_rate": 7.961069678199658e-06,
	"loss": 0.18463332653045655,
	"step": 1460,
	"token_acc": 0.9356090428523226
	},
	{
	"epoch": 0.5824665676077266,
	"grad_norm": 1.390625,
	"learning_rate": 7.835603860618973e-06,
	"loss": 0.18219418525695802,
	"step": 1470,
	"token_acc": 0.9381983863723681
	},
	{
	"epoch": 0.5864289252105003,
	"grad_norm": 1.3125,
	"learning_rate": 7.710494500498662e-06,
	"loss": 0.17673687934875487,
	"step": 1480,
	"token_acc": 0.9390315988583202
	},
	{
	"epoch": 0.5903912828132739,
	"grad_norm": 1.6796875,
	"learning_rate": 7.585762202276129e-06,
	"loss": 0.1698865532875061,
	"step": 1490,
	"token_acc": 0.9415788913714225
	},
	{
	"epoch": 0.5943536404160475,
	"grad_norm": 1.53125,
	"learning_rate": 7.461427508289922e-06,
	"loss": 0.17974636554718018,
	"step": 1500,
	"token_acc": 0.9385133263736498
	},
	{
	"epoch": 0.5983159980188212,
	"grad_norm": 1.0859375,
	"learning_rate": 7.337510895396591e-06,
	"loss": 0.1787565231323242,
	"step": 1510,
	"token_acc": 0.9384560906515581
	},
	{
	"epoch": 0.6022783556215948,
	"grad_norm": 1.4609375,
	"learning_rate": 7.214032771598316e-06,
	"loss": 0.1744428515434265,
	"step": 1520,
	"token_acc": 0.9401470564435646
	},
	{
	"epoch": 0.6062407132243685,
	"grad_norm": 1.265625,
	"learning_rate": 7.091013472681883e-06,
	"loss": 0.17123017311096192,
	"step": 1530,
	"token_acc": 0.9405837916975914
	},
	{
	"epoch": 0.6102030708271422,
	"grad_norm": 1.5234375,
	"learning_rate": 6.968473258869566e-06,
	"loss": 0.1690650463104248,
	"step": 1540,
	"token_acc": 0.941058213231226
	},
	{
	"epoch": 0.6141654284299158,
	"grad_norm": 1.453125,
	"learning_rate": 6.846432311482436e-06,
	"loss": 0.18313372135162354,
	"step": 1550,
	"token_acc": 0.9371285854342504
	},
	{
	"epoch": 0.6181277860326895,
	"grad_norm": 1.7890625,
	"learning_rate": 6.724910729616665e-06,
	"loss": 0.17572647333145142,
	"step": 1560,
	"token_acc": 0.939426531245842
	},
	{
	"epoch": 0.6220901436354631,
	"grad_norm": 1.25,
	"learning_rate": 6.603928526833386e-06,
	"loss": 0.16190264225006104,
	"step": 1570,
	"token_acc": 0.9443632366772048
	},
	{
	"epoch": 0.6260525012382367,
	"grad_norm": 1.265625,
	"learning_rate": 6.483505627862632e-06,
	"loss": 0.1694807767868042,
	"step": 1580,
	"token_acc": 0.9416789717779672
	},
	{
	"epoch": 0.6300148588410104,
	"grad_norm": 1.5,
	"learning_rate": 6.363661865321898e-06,
	"loss": 0.17748751640319824,
	"step": 1590,
	"token_acc": 0.9385861686705892
	},
	{
	"epoch": 0.633977216443784,
	"grad_norm": 1.3984375,
	"learning_rate": 6.244416976449875e-06,
	"loss": 0.17347029447555543,
	"step": 1600,
	"token_acc": 0.9403739289918152
	},
	{
	"epoch": 0.6379395740465577,
	"grad_norm": 1.171875,
	"learning_rate": 6.125790599855912e-06,
	"loss": 0.1826688289642334,
	"step": 1610,
	"token_acc": 0.9372320591550186
	},
	{
	"epoch": 0.6419019316493314,
	"grad_norm": 1.2890625,
	"learning_rate": 6.007802272285693e-06,
	"loss": 0.17403693199157716,
	"step": 1620,
	"token_acc": 0.9401551062440614
	},
	{
	"epoch": 0.645864289252105,
	"grad_norm": 1.625,
	"learning_rate": 5.890471425403703e-06,
	"loss": 0.18286362886428834,
	"step": 1630,
	"token_acc": 0.9368950000596794
	},
	{
	"epoch": 0.6498266468548787,
	"grad_norm": 1.4375,
	"learning_rate": 5.773817382593008e-06,
	"loss": 0.1804821014404297,
	"step": 1640,
	"token_acc": 0.9376396973396319
	},
	{
	"epoch": 0.6537890044576523,
	"grad_norm": 1.375,
	"learning_rate": 5.65785935577285e-06,
	"loss": 0.17369402647018434,
	"step": 1650,
	"token_acc": 0.9392859770259903
	},
	{
	"epoch": 0.657751362060426,
	"grad_norm": 1.3515625,
	"learning_rate": 5.542616442234618e-06,
	"loss": 0.1656261920928955,
	"step": 1660,
	"token_acc": 0.943150599230765
	},
	{
	"epoch": 0.6617137196631996,
	"grad_norm": 1.2890625,
	"learning_rate": 5.428107621496681e-06,
	"loss": 0.17441051006317138,
	"step": 1670,
	"token_acc": 0.9392566132136696
	},
	{
	"epoch": 0.6656760772659732,
	"grad_norm": 1.3125,
	"learning_rate": 5.3143517521786255e-06,
	"loss": 0.17141460180282592,
	"step": 1680,
	"token_acc": 0.9404770520787022
	},
	{
	"epoch": 0.6696384348687469,
	"grad_norm": 1.4921875,
	"learning_rate": 5.201367568895408e-06,
	"loss": 0.1779789924621582,
	"step": 1690,
	"token_acc": 0.9389050144048604
	},
	{
	"epoch": 0.6736007924715206,
	"grad_norm": 1.2890625,
	"learning_rate": 5.089173679171922e-06,
	"loss": 0.1696174383163452,
	"step": 1700,
	"token_acc": 0.9415787866940171
	},
	{
	"epoch": 0.6775631500742942,
	"grad_norm": 1.265625,
	"learning_rate": 4.977788560378484e-06,
	"loss": 0.17647080421447753,
	"step": 1710,
	"token_acc": 0.9402322070530992
	},
	{
	"epoch": 0.6815255076770679,
	"grad_norm": 1.3203125,
	"learning_rate": 4.867230556687797e-06,
	"loss": 0.17825334072113036,
	"step": 1720,
	"token_acc": 0.9382623548644003
	},
	{
	"epoch": 0.6854878652798415,
	"grad_norm": 1.390625,
	"learning_rate": 4.7575178760538e-06,
	"loss": 0.1728861927986145,
	"step": 1730,
	"token_acc": 0.939594911427579
	},
	{
	"epoch": 0.6894502228826151,
	"grad_norm": 1.5234375,
	"learning_rate": 4.648668587212998e-06,
	"loss": 0.179952073097229,
	"step": 1740,
	"token_acc": 0.9381945052060547
	},
	{
	"epoch": 0.6934125804853888,
	"grad_norm": 1.28125,
	"learning_rate": 4.5407006167086575e-06,
	"loss": 0.17567566633224488,
	"step": 1750,
	"token_acc": 0.9399701307689505
	},
	{
	"epoch": 0.6973749380881624,
	"grad_norm": 1.328125,
	"learning_rate": 4.433631745938497e-06,
	"loss": 0.17287354469299315,
	"step": 1760,
	"token_acc": 0.9405146011104378
	},
	{
	"epoch": 0.7013372956909361,
	"grad_norm": 1.5859375,
	"learning_rate": 4.327479608226226e-06,
	"loss": 0.17426562309265137,
	"step": 1770,
	"token_acc": 0.9401683220236025
	},
	{
	"epoch": 0.7052996532937098,
	"grad_norm": 1.375,
	"learning_rate": 4.222261685917489e-06,
	"loss": 0.1734224557876587,
	"step": 1780,
	"token_acc": 0.9401309334234104
	},
	{
	"epoch": 0.7092620108964834,
	"grad_norm": 1.2578125,
	"learning_rate": 4.117995307500677e-06,
	"loss": 0.17531417608261107,
	"step": 1790,
	"token_acc": 0.9409358352138655
	},
	{
	"epoch": 0.7132243684992571,
	"grad_norm": 1.1171875,
	"learning_rate": 4.014697644753069e-06,
	"loss": 0.17481131553649903,
	"step": 1800,
	"token_acc": 0.9396957170350632
	},
	{
	"epoch": 0.7171867261020307,
	"grad_norm": 1.3046875,
	"learning_rate": 3.912385709912794e-06,
	"loss": 0.17085225582122804,
	"step": 1810,
	"token_acc": 0.9413413462722593
	},
	{
	"epoch": 0.7211490837048044,
	"grad_norm": 1.765625,
	"learning_rate": 3.8110763528770543e-06,
	"loss": 0.18243337869644166,
	"step": 1820,
	"token_acc": 0.9380230355884426
	},
	{
	"epoch": 0.725111441307578,
	"grad_norm": 1.2109375,
	"learning_rate": 3.7107862584271016e-06,
	"loss": 0.16808085441589354,
	"step": 1830,
	"token_acc": 0.9410576758514462
	},
	{
	"epoch": 0.7290737989103516,
	"grad_norm": 1.28125,
	"learning_rate": 3.6115319434803897e-06,
	"loss": 0.16966335773468016,
	"step": 1840,
	"token_acc": 0.9421915175440875
	},
	{
	"epoch": 0.7330361565131253,
	"grad_norm": 1.484375,
	"learning_rate": 3.5133297543703724e-06,
	"loss": 0.18466969728469848,
	"step": 1850,
	"token_acc": 0.9361129341986922
	},
	{
	"epoch": 0.736998514115899,
	"grad_norm": 1.34375,
	"learning_rate": 3.416195864154426e-06,
	"loss": 0.17389074563980103,
	"step": 1860,
	"token_acc": 0.9401176608095999
	},
	{
	"epoch": 0.7409608717186726,
	"grad_norm": 1.8046875,
	"learning_rate": 3.3201462699502606e-06,
	"loss": 0.18031821250915528,
	"step": 1870,
	"token_acc": 0.9371710958652052
	},
	{
	"epoch": 0.7449232293214463,
	"grad_norm": 1.3828125,
	"learning_rate": 3.2251967903013515e-06,
	"loss": 0.16321947574615478,
	"step": 1880,
	"token_acc": 0.9434022207870669
	},
	{
	"epoch": 0.7488855869242199,
	"grad_norm": 1.40625,
	"learning_rate": 3.1313630625717462e-06,
	"loss": 0.165952730178833,
	"step": 1890,
	"token_acc": 0.9433088620870477
	},
	{
	"epoch": 0.7528479445269936,
	"grad_norm": 1.6953125,
	"learning_rate": 3.0386605403707347e-06,
	"loss": 0.17759935855865477,
	"step": 1900,
	"token_acc": 0.9391445944776249
	},
	{
	"epoch": 0.7568103021297672,
	"grad_norm": 1.5625,
	"learning_rate": 2.947104491007766e-06,
	"loss": 0.17080872058868407,
	"step": 1910,
	"token_acc": 0.9417546272928465
	},
	{
	"epoch": 0.7607726597325408,
	"grad_norm": 1.296875,
	"learning_rate": 2.8567099929780596e-06,
	"loss": 0.17588542699813842,
	"step": 1920,
	"token_acc": 0.9384443609064742
	},
	{
	"epoch": 0.7647350173353145,
	"grad_norm": 1.671875,
	"learning_rate": 2.767491933479304e-06,
	"loss": 0.17596354484558105,
	"step": 1930,
	"token_acc": 0.9390227163544026
	},
	{
	"epoch": 0.7686973749380882,
	"grad_norm": 1.4921875,
	"learning_rate": 2.679465005959856e-06,
	"loss": 0.1740294098854065,
	"step": 1940,
	"token_acc": 0.9401780685412244
	},
	{
	"epoch": 0.7726597325408618,
	"grad_norm": 1.359375,
	"learning_rate": 2.5926437076988685e-06,
	"loss": 0.16495332717895508,
	"step": 1950,
	"token_acc": 0.9424596695186467
	},
	{
	"epoch": 0.7766220901436355,
	"grad_norm": 1.359375,
	"learning_rate": 2.507042337418707e-06,
	"loss": 0.17244219779968262,
	"step": 1960,
	"token_acc": 0.940576109936575
	},
	{
	"epoch": 0.7805844477464091,
	"grad_norm": 1.7109375,
	"learning_rate": 2.4226749929300774e-06,
	"loss": 0.17762508392333984,
	"step": 1970,
	"token_acc": 0.9379922601444852
	},
	{
	"epoch": 0.7845468053491828,
	"grad_norm": 1.5078125,
	"learning_rate": 2.339555568810221e-06,
	"loss": 0.16768510341644288,
	"step": 1980,
	"token_acc": 0.9424666806336723
	},
	{
	"epoch": 0.7885091629519564,
	"grad_norm": 1.2734375,
	"learning_rate": 2.2576977541146193e-06,
	"loss": 0.1687544584274292,
	"step": 1990,
	"token_acc": 0.941843418155467
	},
	{
	"epoch": 0.79247152055473,
	"grad_norm": 1.3984375,
	"learning_rate": 2.1771150301225097e-06,
	"loss": 0.17961428165435792,
	"step": 2000,
	"token_acc": 0.9382880764646055
	}
	],
	"logging_steps": 10,
	"max_steps": 2524,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.3391808311045652e+19,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}