Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +17 -1
tokenizer.json +10 -1
tokenizer_config.json +14 -2
trainer_state.json +29 -317
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,10 +19,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "query_key_value",
     "dense_h_to_4h",
     "dense_4h_to_h",
-    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "dense",
     "dense_h_to_4h",
     "dense_4h_to_h",
+    "query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78671cff9d3d469914f3eb2d167c737aa6cc70f611534e82c140624b1d8cabea
 size 134235712

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8551ab343ef5e8756f53d7454de355fbf4b3367bec32cd436fb2109f4cb2b96
 size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd30d14f8b142894f0998e147031f021f807282127debd24edbf18c6c5a3921
 size 268514874

 version https://git-lfs.github.com/spec/v1
+oid sha256:0761fd66f7e9f27517b9cdc385248f873232decf6233d679c16ce939ed446c6d
 size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6055acff3008c750d0114c2c3bf07b24308bcfe96bb48724f0b78d4c3dc5b6d2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a273e635a3dbe6f12de8531b896d85c09b670ee924a5c5d5c034c9f1e364651e
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:393139604afddfb6660b2e3c4a2918802f1119180d7aaa0f39ebae93c8bd7d80
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b371ae767212827ffe8a91587d7467c4f40f93812413ed6571b08320a4c26332
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,4 +1,20 @@
 {
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
@@ -14,7 +30,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": "[PAD]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
+  "additional_special_tokens": [
+    {
+      "content": "<|prompter|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|padding|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -235,7 +235,16 @@
     },
     {
       "id": 50277,
-      "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,

     },
     {
       "id": 50277,
+      "content": "<|prompter|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 50278,
+      "content": "<|assistant|>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -202,7 +202,15 @@
       "special": false
     },
     "50277": {
-      "content": "[PAD]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -210,11 +218,15 @@
       "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "[PAD]",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

       "special": false
     },
     "50277": {
+      "content": "<|prompter|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50278": {
+      "content": "<|assistant|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     }
   },
+  "additional_special_tokens": [
+    "<|prompter|>",
+    "<|assistant|>"
+  ],
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|padding|>",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.953846153846154,
   "eval_steps": 500,
-  "global_step": 144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,442 +11,154 @@
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
-      "loss": 2.2923,
       "step": 2
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
-      "loss": 2.4944,
       "step": 4
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 2.5643,
       "step": 6
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
-      "loss": 2.5449,
       "step": 8
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0002,
-      "loss": 2.5427,
       "step": 10
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0002,
-      "loss": 2.8026,
       "step": 12
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0002,
-      "loss": 2.2733,
       "step": 14
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0002,
-      "loss": 2.3667,
       "step": 16
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0002,
-      "loss": 2.633,
       "step": 18
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0002,
-      "loss": 2.4816,
       "step": 20
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0002,
-      "loss": 2.6263,
       "step": 22
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0002,
-      "loss": 2.5695,
       "step": 24
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0002,
-      "loss": 2.223,
       "step": 26
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0002,
-      "loss": 2.261,
       "step": 28
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
-      "loss": 2.3568,
       "step": 30
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 2.6185,
       "step": 32
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
-      "loss": 2.5005,
       "step": 34
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
-      "loss": 2.7505,
       "step": 36
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
-      "loss": 2.1988,
       "step": 38
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
-      "loss": 2.1159,
       "step": 40
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
-      "loss": 2.4971,
       "step": 42
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0002,
-      "loss": 2.5058,
       "step": 44
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0002,
-      "loss": 2.5139,
       "step": 46
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
-      "loss": 2.4968,
       "step": 48
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0002,
-      "loss": 2.2284,
-      "step": 50
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 2.2673,
-      "step": 52
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0002,
-      "loss": 2.3655,
-      "step": 54
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0002,
-      "loss": 2.2416,
-      "step": 56
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0002,
-      "loss": 2.3234,
-      "step": 58
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0002,
-      "loss": 2.42,
-      "step": 60
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0002,
-      "loss": 2.2975,
-      "step": 62
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 2.1622,
-      "step": 64
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0002,
-      "loss": 2.4531,
-      "step": 66
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0002,
-      "loss": 2.5373,
-      "step": 68
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0002,
-      "loss": 2.47,
-      "step": 70
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.0002,
-      "loss": 2.4924,
-      "step": 72
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002,
-      "loss": 2.2274,
-      "step": 74
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.0002,
-      "loss": 2.2213,
-      "step": 76
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.0002,
-      "loss": 2.2334,
-      "step": 78
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0002,
-      "loss": 2.3033,
-      "step": 80
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.0002,
-      "loss": 2.3899,
-      "step": 82
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0002,
-      "loss": 2.3991,
-      "step": 84
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0002,
-      "loss": 2.1522,
-      "step": 86
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 0.0002,
-      "loss": 2.343,
-      "step": 88
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0002,
-      "loss": 2.4061,
-      "step": 90
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.0002,
-      "loss": 2.4116,
-      "step": 92
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 0.0002,
-      "loss": 2.4976,
-      "step": 94
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 2.4427,
-      "step": 96
-    },
-    {
-      "epoch": 2.01,
-      "learning_rate": 0.0002,
-      "loss": 2.4328,
-      "step": 98
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 0.0002,
-      "loss": 2.1793,
-      "step": 100
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0002,
-      "loss": 2.3683,
-      "step": 102
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 0.0002,
-      "loss": 2.5376,
-      "step": 104
-    },
-    {
-      "epoch": 2.17,
-      "learning_rate": 0.0002,
-      "loss": 2.1945,
-      "step": 106
-    },
-    {
-      "epoch": 2.22,
-      "learning_rate": 0.0002,
-      "loss": 2.1629,
-      "step": 108
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 0.0002,
-      "loss": 2.1191,
-      "step": 110
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0002,
-      "loss": 2.1457,
-      "step": 112
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 0.0002,
-      "loss": 2.2078,
-      "step": 114
-    },
-    {
-      "epoch": 2.38,
-      "learning_rate": 0.0002,
-      "loss": 2.4336,
-      "step": 116
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002,
-      "loss": 2.4243,
-      "step": 118
-    },
-    {
-      "epoch": 2.46,
-      "learning_rate": 0.0002,
-      "loss": 2.3391,
-      "step": 120
-    },
-    {
-      "epoch": 2.5,
-      "learning_rate": 0.0002,
-      "loss": 2.0758,
-      "step": 122
-    },
-    {
-      "epoch": 2.54,
-      "learning_rate": 0.0002,
-      "loss": 2.2001,
-      "step": 124
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 0.0002,
-      "loss": 2.2007,
-      "step": 126
-    },
-    {
-      "epoch": 2.63,
-      "learning_rate": 0.0002,
-      "loss": 2.3695,
-      "step": 128
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 0.0002,
-      "loss": 2.3721,
-      "step": 130
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0002,
-      "loss": 2.2898,
-      "step": 132
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 0.0002,
-      "loss": 1.9498,
-      "step": 134
-    },
-    {
-      "epoch": 2.79,
-      "learning_rate": 0.0002,
-      "loss": 2.187,
-      "step": 136
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002,
-      "loss": 2.0774,
-      "step": 138
-    },
-    {
-      "epoch": 2.87,
-      "learning_rate": 0.0002,
-      "loss": 2.3311,
-      "step": 140
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 0.0002,
-      "loss": 2.3446,
-      "step": 142
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 0.0002,
-      "loss": 2.3359,
-      "step": 144
     }
   ],
   "logging_steps": 2,
-  "max_steps": 144,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 6200486723076096.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9846153846153847,
   "eval_steps": 500,
+  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.2836,
       "step": 2
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.4552,
       "step": 4
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.7222,
       "step": 6
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.6656,
       "step": 8
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0002,
+      "loss": 2.6016,
       "step": 10
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0002,
+      "loss": 3.1001,
       "step": 12
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0002,
+      "loss": 2.2399,
       "step": 14
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0002,
+      "loss": 2.3808,
       "step": 16
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0002,
+      "loss": 2.412,
       "step": 18
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0002,
+      "loss": 2.5426,
       "step": 20
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0002,
+      "loss": 2.7169,
       "step": 22
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0002,
+      "loss": 2.9043,
       "step": 24
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0002,
+      "loss": 2.1974,
       "step": 26
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0002,
+      "loss": 2.4357,
       "step": 28
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 2.6253,
       "step": 30
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 2.7215,
       "step": 32
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 2.5237,
       "step": 34
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 3.1991,
       "step": 36
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 2.4282,
       "step": 38
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 2.2196,
       "step": 40
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 2.6197,
       "step": 42
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0002,
+      "loss": 2.4451,
       "step": 44
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0002,
+      "loss": 2.5496,
       "step": 46
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
+      "loss": 2.8388,
       "step": 48
     }
   ],
   "logging_steps": 2,
+  "max_steps": 48,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2046020741603328.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad143bc0726c99f5ae973d329c4029448ed469f25c4a6fc7ff427bbece32cca
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:05d4bf44e2f3fa9eef10818d2ac256b26d0eae9c331d6b54985e765c04f7baf9
 size 4728