Upload 13 files

Browse files

Files changed (7) hide show

README.md +18 -17
model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +46 -46
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -3,7 +3,7 @@ tags:
 - sentence-transformers
 - cross-encoder
 - generated_from_trainer
-- dataset_size:1122150
 - loss:BinaryCrossEntropyLoss
 base_model: cross-encoder/stsb-distilroberta-base
 pipeline_tag: text-ranking
@@ -23,13 +23,13 @@ model-index:
       type: reranking-dev
     metrics:
     - type: map
-      value: 0.6701
       name: Map
     - type: mrr@50
-      value: 0.7572
       name: Mrr@50
     - type: ndcg@50
-      value: 0.775
       name: Ndcg@50
 ---
@@ -138,9 +138,9 @@ You can finetune this model on your own dataset.
 | Metric      | Value                |
 |:------------|:---------------------|
-| map         | 0.6701 (+0.0486)     |
-| mrr@50      | 0.7572 (+0.0196)     |
-| **ndcg@50** | **0.7750 (+0.0495)** |
 <!--
 ## Bias, Risks and Limitations
@@ -160,13 +160,13 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 1,122,150 training samples
 * Columns: <code>topic</code>, <code>content</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | topic                                                                                           | content                                                                                         | label                                          |
-  |:--------|:------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------|:-----------------------------------------------|
-  | type    | string                                                                                          | string                                                                                          | int                                            |
-  | details | <ul><li>min: 42 characters</li><li>mean: 147.6 characters</li><li>max: 336 characters</li></ul> | <ul><li>min: 5 characters</li><li>mean: 148.86 characters</li><li>max: 376 characters</li></ul> | <ul><li>0: ~90.70%</li><li>1: ~9.30%</li></ul> |
 * Samples:
   | topic                                                                                                                                                                                                                                                                                                                                                 | content                                                                                                                                                                                                                                                                                                                                  | label          |
   |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
@@ -177,7 +177,7 @@ You can finetune this model on your own dataset.
   ```json
   {
       "activation_fn": "torch.nn.modules.linear.Identity",
-      "pos_weight": 11.914752960205078
   }
   ```
@@ -188,7 +188,6 @@ You can finetune this model on your own dataset.
 - `per_device_train_batch_size`: 128
 - `per_device_eval_batch_size`: 128
 - `learning_rate`: 2e-05
-- `num_train_epochs`: 2
 - `warmup_ratio`: 0.1
 - `seed`: 12
 - `bf16`: True
@@ -215,7 +214,7 @@ You can finetune this model on your own dataset.
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
-- `num_train_epochs`: 2
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
@@ -317,8 +316,10 @@ You can finetune this model on your own dataset.
 ### Training Logs
 | Epoch  | Step  | Training Loss | reranking-dev_ndcg@50 |
 |:------:|:-----:|:-------------:|:---------------------:|
-| 1.0001 | 8768  | 0.5739        | 0.7669 (+0.0414)      |
-| 1.5002 | 13152 | 0.6846        | 0.7750 (+0.0495)      |
 ### Framework Versions

 - sentence-transformers
 - cross-encoder
 - generated_from_trainer
+- dataset_size:1314940
 - loss:BinaryCrossEntropyLoss
 base_model: cross-encoder/stsb-distilroberta-base
 pipeline_tag: text-ranking
       type: reranking-dev
     metrics:
     - type: map
+      value: 0.7207
       name: Map
     - type: mrr@50
+      value: 0.7903
       name: Mrr@50
     - type: ndcg@50
+      value: 0.8072
       name: Ndcg@50
 ---
 | Metric      | Value                |
 |:------------|:---------------------|
+| map         | 0.7207 (+0.0992)     |
+| mrr@50      | 0.7903 (+0.0528)     |
+| **ndcg@50** | **0.8072 (+0.0817)** |
 <!--
 ## Bias, Risks and Limitations
 #### Unnamed Dataset
+* Size: 1,314,940 training samples
 * Columns: <code>topic</code>, <code>content</code>, and <code>label</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | topic                                                                                            | content                                                                                         | label                                           |
+  |:--------|:-------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------|:------------------------------------------------|
+  | type    | string                                                                                           | string                                                                                          | int                                             |
+  | details | <ul><li>min: 42 characters</li><li>mean: 158.98 characters</li><li>max: 336 characters</li></ul> | <ul><li>min: 7 characters</li><li>mean: 150.81 characters</li><li>max: 353 characters</li></ul> | <ul><li>0: ~76.30%</li><li>1: ~23.70%</li></ul> |
 * Samples:
   | topic                                                                                                                                                                                                                                                                                                                                                 | content                                                                                                                                                                                                                                                                                                                                  | label          |
   |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
   ```json
   {
       "activation_fn": "torch.nn.modules.linear.Identity",
+      "pos_weight": 3.7016043663024902
   }
   ```
 - `per_device_train_batch_size`: 128
 - `per_device_eval_batch_size`: 128
 - `learning_rate`: 2e-05
 - `warmup_ratio`: 0.1
 - `seed`: 12
 - `bf16`: True
 - `adam_beta2`: 0.999
 - `adam_epsilon`: 1e-08
 - `max_grad_norm`: 1.0
+- `num_train_epochs`: 3
 - `max_steps`: -1
 - `lr_scheduler_type`: linear
 - `lr_scheduler_kwargs`: {}
 ### Training Logs
 | Epoch  | Step  | Training Loss | reranking-dev_ndcg@50 |
 |:------:|:-----:|:-------------:|:---------------------:|
+| 0.0001 | 1     | 1.0174        | -                     |
+| 0.9999 | 10272 | 0.6234        | 0.7913 (+0.0658)      |
+| 1.9998 | 20544 | 0.3901        | 0.8041 (+0.0786)      |
+| 2.9997 | 30816 | 0.2978        | 0.8072 (+0.0817)      |
 ### Framework Versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55fcb1227953f704f05ee9c7b79e775047b794021e25a3e8ddbb78945305bef0
 size 328489204

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba9801b08b210d9426c107f45d8f4e5f1a12600b1008fe1240e7edc2789c2297
 size 328489204

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddac13df73512f6ec7dd409135468f93d79b7202904d70efb9d9824b2b9b4f27
 size 657041466

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c46a30eb406634ad08a97771e8c19c425bc50eb1095c3ea99e57d3476635f42
 size 657041466

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1542eb6fb59dc9864cd057e0dd24538894542520653336503f1ebcf817ebacb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ad6885877c28968ac001ea127a0a5192a6e0348b793e71db3c573c337c34c62
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:279c12b1c3f0487a2b66dee686cc0dadaa4f214680c384a16910d2e2fd3d627d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e69362ae5a81a933052e1366ebf33c0ab751ddf0f891dce0d1f341fedec93fd
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,87 +1,87 @@
 {
-  "best_global_step": 13152,
-  "best_metric": 0.7750120213490577,
-  "best_model_checkpoint": "content/cross_encoder_distilroberta_base_all_data/checkpoint-13152",
-  "epoch": 2.0,
-  "eval_steps": 4384,
-  "global_step": 17534,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.00011406410402646287,
-      "grad_norm": 11.324646949768066,
       "learning_rate": 0.0,
-      "loss": 1.2833,
       "step": 1
     },
     {
-      "epoch": 0.5000570320520132,
-      "grad_norm": 8.051932334899902,
-      "learning_rate": 1.1112801013941699e-05,
-      "loss": 0.8934,
-      "step": 4384
     },
     {
-      "epoch": 0.5000570320520132,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
-      "eval_reranking-dev_map": 0.6377966435473792,
-      "eval_reranking-dev_mrr@50": 0.7335214157004677,
-      "eval_reranking-dev_ndcg@50": 0.7532420097623872,
-      "eval_runtime": 210.6845,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
-      "step": 4384
     },
     {
-      "epoch": 1.0001140641040265,
-      "grad_norm": 9.359151840209961,
-      "learning_rate": 0.0,
-      "loss": 0.5739,
-      "step": 8768
     },
     {
-      "epoch": 1.0001140641040265,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
-      "eval_reranking-dev_map": 0.658237243359361,
-      "eval_reranking-dev_mrr@50": 0.7475440647504192,
-      "eval_reranking-dev_ndcg@50": 0.7669254328128408,
-      "eval_runtime": 213.929,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
-      "step": 8768
     },
     {
-      "epoch": 1.5001710961560397,
-      "grad_norm": 12.708351135253906,
-      "learning_rate": 5.555133079847909e-06,
-      "loss": 0.6846,
-      "step": 13152
     },
     {
-      "epoch": 1.5001710961560397,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
-      "eval_reranking-dev_map": 0.6701267463119136,
-      "eval_reranking-dev_mrr@50": 0.7571781873839967,
-      "eval_reranking-dev_ndcg@50": 0.7750120213490577,
-      "eval_runtime": 212.3233,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
-      "step": 13152
     }
   ],
-  "logging_steps": 4384,
-  "max_steps": 17534,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
-  "save_steps": 4384,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {

 {
+  "best_global_step": 30816,
+  "best_metric": 0.807234452615663,
+  "best_model_checkpoint": "content/cross_encoder_distilroberta_base_all_data/checkpoint-30816",
+  "epoch": 3.0,
+  "eval_steps": 10272,
+  "global_step": 30819,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 9.734254842791784e-05,
+      "grad_norm": 5.287121772766113,
       "learning_rate": 0.0,
+      "loss": 1.0174,
       "step": 1
     },
     {
+      "epoch": 0.999902657451572,
+      "grad_norm": 11.268630981445312,
+      "learning_rate": 1.4816310343584383e-05,
+      "loss": 0.6234,
+      "step": 10272
     },
     {
+      "epoch": 0.999902657451572,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
+      "eval_reranking-dev_map": 0.6945674925725406,
+      "eval_reranking-dev_mrr@50": 0.7747076964185934,
+      "eval_reranking-dev_ndcg@50": 0.7913486180328326,
+      "eval_runtime": 210.3713,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
+      "step": 10272
     },
     {
+      "epoch": 1.9998053149031443,
+      "grad_norm": 5.99316930770874,
+      "learning_rate": 7.4095972888199885e-06,
+      "loss": 0.3901,
+      "step": 20544
     },
     {
+      "epoch": 1.9998053149031443,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
+      "eval_reranking-dev_map": 0.7153961592162474,
+      "eval_reranking-dev_mrr@50": 0.7867533806941779,
+      "eval_reranking-dev_ndcg@50": 0.8041280710955544,
+      "eval_runtime": 206.6571,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
+      "step": 20544
     },
     {
+      "epoch": 2.999707972354716,
+      "grad_norm": 9.407133102416992,
+      "learning_rate": 2.8842340555936117e-09,
+      "loss": 0.2978,
+      "step": 30816
     },
     {
+      "epoch": 2.999707972354716,
       "eval_reranking-dev_base_map": 0.6214825536231217,
       "eval_reranking-dev_base_mrr@50": 0.7375349668670806,
       "eval_reranking-dev_base_ndcg@50": 0.725527756915131,
+      "eval_reranking-dev_map": 0.7207063760806678,
+      "eval_reranking-dev_mrr@50": 0.7903183680827569,
+      "eval_reranking-dev_ndcg@50": 0.807234452615663,
+      "eval_runtime": 204.5125,
       "eval_samples_per_second": 0.0,
       "eval_steps_per_second": 0.0,
+      "step": 30816
     }
   ],
+  "logging_steps": 10272,
+  "max_steps": 30819,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10272,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e578021e182d911578884f2a78658440e44dd70363c563d6a765c69118df4dfd
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed5197c8dfe171c31df88574dd24d5abfd88e1a5df6f32235b6164cb73890fa7
 size 5624