Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +291 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3baf4ee4567db97a49b48158b16509bfceffa809ea7e34d84bbc203f80b5285
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:78671cff9d3d469914f3eb2d167c737aa6cc70f611534e82c140624b1d8cabea
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3047c1a800fcc0d22e3a53d3e0feb2c29f781621d2aa28a88866a3f19a87eda8
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd30d14f8b142894f0998e147031f021f807282127debd24edbf18c6c5a3921
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:983276a93b8f5b51345a0c6f7f4469d5c415c6b7581581e389dc0705b248c852
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6055acff3008c750d0114c2c3bf07b24308bcfe96bb48724f0b78d4c3dc5b6d2
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b371ae767212827ffe8a91587d7467c4f40f93812413ed6571b08320a4c26332
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:393139604afddfb6660b2e3c4a2918802f1119180d7aaa0f39ebae93c8bd7d80
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9846153846153847,
   "eval_steps": 500,
-  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -151,6 +151,294 @@
       "learning_rate": 0.0002,
       "loss": 2.4968,
       "step": 48
     }
   ],
   "logging_steps": 2,
@@ -158,7 +446,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2084704594255872.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.953846153846154,
   "eval_steps": 500,
+  "global_step": 144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 2.4968,
       "step": 48
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0002,
+      "loss": 2.2284,
+      "step": 50
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0002,
+      "loss": 2.2673,
+      "step": 52
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0002,
+      "loss": 2.3655,
+      "step": 54
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0002,
+      "loss": 2.2416,
+      "step": 56
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0002,
+      "loss": 2.3234,
+      "step": 58
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0002,
+      "loss": 2.42,
+      "step": 60
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0002,
+      "loss": 2.2975,
+      "step": 62
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0002,
+      "loss": 2.1622,
+      "step": 64
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0002,
+      "loss": 2.4531,
+      "step": 66
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0002,
+      "loss": 2.5373,
+      "step": 68
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0002,
+      "loss": 2.47,
+      "step": 70
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0002,
+      "loss": 2.4924,
+      "step": 72
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0002,
+      "loss": 2.2274,
+      "step": 74
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0002,
+      "loss": 2.2213,
+      "step": 76
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0002,
+      "loss": 2.2334,
+      "step": 78
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002,
+      "loss": 2.3033,
+      "step": 80
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0002,
+      "loss": 2.3899,
+      "step": 82
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0002,
+      "loss": 2.3991,
+      "step": 84
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002,
+      "loss": 2.1522,
+      "step": 86
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0002,
+      "loss": 2.343,
+      "step": 88
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002,
+      "loss": 2.4061,
+      "step": 90
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 2.4116,
+      "step": 92
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 2.4976,
+      "step": 94
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 2.4427,
+      "step": 96
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0002,
+      "loss": 2.4328,
+      "step": 98
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0002,
+      "loss": 2.1793,
+      "step": 100
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0002,
+      "loss": 2.3683,
+      "step": 102
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0002,
+      "loss": 2.5376,
+      "step": 104
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0002,
+      "loss": 2.1945,
+      "step": 106
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002,
+      "loss": 2.1629,
+      "step": 108
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0002,
+      "loss": 2.1191,
+      "step": 110
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0002,
+      "loss": 2.1457,
+      "step": 112
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0002,
+      "loss": 2.2078,
+      "step": 114
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0002,
+      "loss": 2.4336,
+      "step": 116
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0002,
+      "loss": 2.4243,
+      "step": 118
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0002,
+      "loss": 2.3391,
+      "step": 120
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0002,
+      "loss": 2.0758,
+      "step": 122
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0002,
+      "loss": 2.2001,
+      "step": 124
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0002,
+      "loss": 2.2007,
+      "step": 126
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0002,
+      "loss": 2.3695,
+      "step": 128
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0002,
+      "loss": 2.3721,
+      "step": 130
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0002,
+      "loss": 2.2898,
+      "step": 132
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0002,
+      "loss": 1.9498,
+      "step": 134
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0002,
+      "loss": 2.187,
+      "step": 136
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0002,
+      "loss": 2.0774,
+      "step": 138
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0002,
+      "loss": 2.3311,
+      "step": 140
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002,
+      "loss": 2.3446,
+      "step": 142
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0002,
+      "loss": 2.3359,
+      "step": 144
     }
   ],
   "logging_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 6200486723076096.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null