Model save

Browse files

Files changed (3) hide show

README.md +12 -15
adapter_model.safetensors +1 -1
trainer_state.json +110 -155

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-3B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8500
 ## Model description
@@ -47,25 +47,22 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.03
-- num_epochs: 4
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.0763        | 0.2996 | 20   | 0.9908          |
-| 0.8064        | 0.5993 | 40   | 0.9294          |
-| 1.0071        | 0.8989 | 60   | 0.9032          |
-| 0.805         | 1.1948 | 80   | 0.8865          |
-| 0.7293        | 1.4944 | 100  | 0.8719          |
-| 0.7675        | 1.7940 | 120  | 0.8570          |
-| 0.7367        | 2.0899 | 140  | 0.8649          |
-| 0.6303        | 2.3895 | 160  | 0.8570          |
-| 0.6213        | 2.6891 | 180  | 0.8549          |
-| 0.7035        | 2.9888 | 200  | 0.8500          |
-| 0.6131        | 3.2846 | 220  | 0.8656          |
-| 0.6333        | 3.5843 | 240  | 0.8650          |
-| 0.5252        | 3.8839 | 260  | 0.8719          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-3B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7801
 ## Model description
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 3
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.0934        | 0.2909 | 20   | 0.9285          |
+| 0.8825        | 0.5818 | 40   | 0.8725          |
+| 0.8459        | 0.8727 | 60   | 0.8423          |
+| 0.8573        | 1.16   | 80   | 0.8205          |
+| 0.8109        | 1.4509 | 100  | 0.8079          |
+| 0.7729        | 1.7418 | 120  | 0.7978          |
+| 0.7089        | 2.0291 | 140  | 0.7842          |
+| 0.7298        | 2.32   | 160  | 0.7870          |
+| 0.6684        | 2.6109 | 180  | 0.7820          |
+| 0.6122        | 2.9018 | 200  | 0.7801          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3577d469fc22bdcf933d2f00aa6484d30cfcf5c86d78ce05adc235ac36d79c57
 size 239536272

 version https://git-lfs.github.com/spec/v1
+oid sha256:62fea6b6416f6f3ac15bb70f240b30aae45e641d6354487f192e9574b4bae07c
 size 239536272

trainer_state.json CHANGED Viewed

@@ -1,231 +1,186 @@
 {
   "best_global_step": 200,
-  "best_metric": 0.8499857187271118,
   "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-3B_v1/checkpoint-200",
-  "epoch": 3.8838951310861423,
   "eval_steps": 20,
-  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.299625468164794,
-      "grad_norm": 0.5244920253753662,
-      "learning_rate": 9.613899613899614e-05,
-      "loss": 1.0763,
       "step": 20
     },
     {
-      "epoch": 0.299625468164794,
-      "eval_loss": 0.9908040761947632,
-      "eval_runtime": 13.9504,
-      "eval_samples_per_second": 4.086,
-      "eval_steps_per_second": 0.573,
       "step": 20
     },
     {
-      "epoch": 0.599250936329588,
-      "grad_norm": 0.3149108290672302,
-      "learning_rate": 8.841698841698842e-05,
-      "loss": 0.8064,
       "step": 40
     },
     {
-      "epoch": 0.599250936329588,
-      "eval_loss": 0.9294381141662598,
-      "eval_runtime": 12.1002,
-      "eval_samples_per_second": 4.711,
-      "eval_steps_per_second": 0.661,
       "step": 40
     },
     {
-      "epoch": 0.898876404494382,
-      "grad_norm": 0.6792584657669067,
-      "learning_rate": 8.06949806949807e-05,
-      "loss": 1.0071,
       "step": 60
     },
     {
-      "epoch": 0.898876404494382,
-      "eval_loss": 0.9031661152839661,
-      "eval_runtime": 12.0977,
-      "eval_samples_per_second": 4.712,
-      "eval_steps_per_second": 0.661,
       "step": 60
     },
     {
-      "epoch": 1.1947565543071161,
-      "grad_norm": 0.4398963451385498,
-      "learning_rate": 7.297297297297297e-05,
-      "loss": 0.805,
       "step": 80
     },
     {
-      "epoch": 1.1947565543071161,
-      "eval_loss": 0.886512815952301,
-      "eval_runtime": 12.1101,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 80
     },
     {
-      "epoch": 1.49438202247191,
-      "grad_norm": 0.4501686096191406,
-      "learning_rate": 6.525096525096526e-05,
-      "loss": 0.7293,
       "step": 100
     },
     {
-      "epoch": 1.49438202247191,
-      "eval_loss": 0.8719378113746643,
-      "eval_runtime": 12.1092,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 100
     },
     {
-      "epoch": 1.7940074906367043,
-      "grad_norm": 0.3679046630859375,
-      "learning_rate": 5.752895752895753e-05,
-      "loss": 0.7675,
       "step": 120
     },
     {
-      "epoch": 1.7940074906367043,
-      "eval_loss": 0.856951117515564,
-      "eval_runtime": 12.1105,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 120
     },
     {
-      "epoch": 2.0898876404494384,
-      "grad_norm": 0.7033249139785767,
-      "learning_rate": 4.980694980694981e-05,
-      "loss": 0.7367,
       "step": 140
     },
     {
-      "epoch": 2.0898876404494384,
-      "eval_loss": 0.8648577928543091,
-      "eval_runtime": 12.1063,
-      "eval_samples_per_second": 4.708,
-      "eval_steps_per_second": 0.661,
       "step": 140
     },
     {
-      "epoch": 2.3895131086142323,
-      "grad_norm": 0.4625875949859619,
-      "learning_rate": 4.2084942084942086e-05,
-      "loss": 0.6303,
       "step": 160
     },
     {
-      "epoch": 2.3895131086142323,
-      "eval_loss": 0.8570329546928406,
-      "eval_runtime": 12.1098,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 160
     },
     {
-      "epoch": 2.689138576779026,
-      "grad_norm": 0.949469804763794,
-      "learning_rate": 3.436293436293436e-05,
-      "loss": 0.6213,
       "step": 180
     },
     {
-      "epoch": 2.689138576779026,
-      "eval_loss": 0.8548977971076965,
-      "eval_runtime": 12.1087,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 180
     },
     {
-      "epoch": 2.98876404494382,
-      "grad_norm": 0.8807445168495178,
-      "learning_rate": 2.6640926640926645e-05,
-      "loss": 0.7035,
       "step": 200
     },
     {
-      "epoch": 2.98876404494382,
-      "eval_loss": 0.8499857187271118,
-      "eval_runtime": 12.1085,
-      "eval_samples_per_second": 4.707,
-      "eval_steps_per_second": 0.661,
       "step": 200
     },
     {
-      "epoch": 3.284644194756554,
-      "grad_norm": 0.573523223400116,
-      "learning_rate": 1.891891891891892e-05,
-      "loss": 0.6131,
-      "step": 220
     },
     {
-      "epoch": 3.284644194756554,
-      "eval_loss": 0.8655520677566528,
-      "eval_runtime": 12.1027,
-      "eval_samples_per_second": 4.71,
-      "eval_steps_per_second": 0.661,
-      "step": 220
-    },
-    {
-      "epoch": 3.5842696629213484,
-      "grad_norm": 0.4450347125530243,
-      "learning_rate": 1.1196911196911197e-05,
-      "loss": 0.6333,
-      "step": 240
-    },
-    {
-      "epoch": 3.5842696629213484,
-      "eval_loss": 0.8650490641593933,
-      "eval_runtime": 12.1174,
-      "eval_samples_per_second": 4.704,
-      "eval_steps_per_second": 0.66,
-      "step": 240
-    },
-    {
-      "epoch": 3.8838951310861423,
-      "grad_norm": 0.6607774496078491,
-      "learning_rate": 3.474903474903475e-06,
-      "loss": 0.5252,
-      "step": 260
-    },
-    {
-      "epoch": 3.8838951310861423,
-      "eval_loss": 0.8718735575675964,
-      "eval_runtime": 12.1037,
-      "eval_samples_per_second": 4.709,
-      "eval_steps_per_second": 0.661,
-      "step": 260
-    },
-    {
-      "epoch": 3.8838951310861423,
-      "step": 260,
-      "total_flos": 4.022488092617933e+16,
-      "train_loss": 0.7426851749420166,
-      "train_runtime": 1184.6635,
-      "train_samples_per_second": 1.803,
-      "train_steps_per_second": 0.226
-    },
-    {
-      "epoch": 3.8838951310861423,
-      "eval_loss": 0.8499857187271118,
-      "eval_runtime": 12.1277,
-      "eval_samples_per_second": 4.7,
-      "eval_steps_per_second": 0.66,
-      "step": 260
     }
   ],
   "logging_steps": 20,
-  "max_steps": 268,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 20,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -234,7 +189,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
@@ -248,7 +203,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.022488092617933e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 200,
+  "best_metric": 0.7801279425621033,
   "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-3B_v1/checkpoint-200",
+  "epoch": 3.0,
   "eval_steps": 20,
+  "global_step": 207,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.2909090909090909,
+      "grad_norm": 0.3590531647205353,
+      "learning_rate": 9.4e-05,
+      "loss": 1.0934,
       "step": 20
     },
     {
+      "epoch": 0.2909090909090909,
+      "eval_loss": 0.9285057783126831,
+      "eval_runtime": 14.1933,
+      "eval_samples_per_second": 4.227,
+      "eval_steps_per_second": 0.564,
       "step": 20
     },
     {
+      "epoch": 0.5818181818181818,
+      "grad_norm": 0.9511428475379944,
+      "learning_rate": 8.4e-05,
+      "loss": 0.8825,
       "step": 40
     },
     {
+      "epoch": 0.5818181818181818,
+      "eval_loss": 0.8724586367607117,
+      "eval_runtime": 11.8887,
+      "eval_samples_per_second": 5.047,
+      "eval_steps_per_second": 0.673,
       "step": 40
     },
     {
+      "epoch": 0.8727272727272727,
+      "grad_norm": 0.4212999939918518,
+      "learning_rate": 7.4e-05,
+      "loss": 0.8459,
       "step": 60
     },
     {
+      "epoch": 0.8727272727272727,
+      "eval_loss": 0.8422630429267883,
+      "eval_runtime": 11.896,
+      "eval_samples_per_second": 5.044,
+      "eval_steps_per_second": 0.672,
       "step": 60
     },
     {
+      "epoch": 1.16,
+      "grad_norm": 0.4596804082393646,
+      "learning_rate": 6.400000000000001e-05,
+      "loss": 0.8573,
       "step": 80
     },
     {
+      "epoch": 1.16,
+      "eval_loss": 0.8204946517944336,
+      "eval_runtime": 11.9018,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.672,
       "step": 80
     },
     {
+      "epoch": 1.450909090909091,
+      "grad_norm": 0.5978978872299194,
+      "learning_rate": 5.4000000000000005e-05,
+      "loss": 0.8109,
       "step": 100
     },
     {
+      "epoch": 1.450909090909091,
+      "eval_loss": 0.807877779006958,
+      "eval_runtime": 11.8993,
+      "eval_samples_per_second": 5.042,
+      "eval_steps_per_second": 0.672,
       "step": 100
     },
     {
+      "epoch": 1.7418181818181817,
+      "grad_norm": 0.6281698942184448,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.7729,
       "step": 120
     },
     {
+      "epoch": 1.7418181818181817,
+      "eval_loss": 0.7977859377861023,
+      "eval_runtime": 11.9022,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.672,
       "step": 120
     },
     {
+      "epoch": 2.0290909090909093,
+      "grad_norm": 0.6559261679649353,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.7089,
       "step": 140
     },
     {
+      "epoch": 2.0290909090909093,
+      "eval_loss": 0.7841778993606567,
+      "eval_runtime": 11.9,
+      "eval_samples_per_second": 5.042,
+      "eval_steps_per_second": 0.672,
       "step": 140
     },
     {
+      "epoch": 2.32,
+      "grad_norm": 0.7929721474647522,
+      "learning_rate": 2.4e-05,
+      "loss": 0.7298,
       "step": 160
     },
     {
+      "epoch": 2.32,
+      "eval_loss": 0.7870374917984009,
+      "eval_runtime": 11.902,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.672,
       "step": 160
     },
     {
+      "epoch": 2.610909090909091,
+      "grad_norm": 0.48386672139167786,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.6684,
       "step": 180
     },
     {
+      "epoch": 2.610909090909091,
+      "eval_loss": 0.7819858193397522,
+      "eval_runtime": 11.9025,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.672,
       "step": 180
     },
     {
+      "epoch": 2.901818181818182,
+      "grad_norm": 0.3761616349220276,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6122,
       "step": 200
     },
     {
+      "epoch": 2.901818181818182,
+      "eval_loss": 0.7801279425621033,
+      "eval_runtime": 11.902,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.672,
       "step": 200
     },
     {
+      "epoch": 3.0,
+      "step": 207,
+      "total_flos": 3.147624935890944e+16,
+      "train_loss": 0.794930600889639,
+      "train_runtime": 952.7294,
+      "train_samples_per_second": 1.732,
+      "train_steps_per_second": 0.217
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.7801279425621033,
+      "eval_runtime": 11.912,
+      "eval_samples_per_second": 5.037,
+      "eval_steps_per_second": 0.672,
+      "step": 207
     }
   ],
   "logging_steps": 20,
+  "max_steps": 207,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 20,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.147624935890944e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null