appier-rey commited on
Commit
b02f1a5
·
verified ·
1 Parent(s): ff96631

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
added_tokens.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "<|endoftext|>": 151643,
3
+ "<|im_end|>": 151645,
4
+ "<|im_start|>": 151644
5
+ }
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "Qwen2ForTokenClassification"
4
+ ],
5
+ "attention_dropout": 0.0,
6
+ "bos_token_id": 151643,
7
+ "eos_token_id": 151643,
8
+ "hidden_act": "silu",
9
+ "hidden_size": 896,
10
+ "initializer_range": 0.02,
11
+ "intermediate_size": 4864,
12
+ "max_position_embeddings": 131072,
13
+ "max_window_layers": 24,
14
+ "model_type": "qwen2",
15
+ "num_attention_heads": 14,
16
+ "num_hidden_layers": 24,
17
+ "num_key_value_heads": 2,
18
+ "rms_norm_eps": 1e-06,
19
+ "rope_scaling": null,
20
+ "rope_theta": 1000000.0,
21
+ "sliding_window": 131072,
22
+ "tie_word_embeddings": true,
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.50.3",
25
+ "use_cache": true,
26
+ "use_sliding_window": false,
27
+ "vocab_size": 151936
28
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32c115ab8b93c38382ad5757e258f45ba021dec9a2a0511ddda8c368c324389a
3
+ size 1976170816
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:17787f0c94fcd9eee10f7ab6f69177bea21df246d41bc12b03986fdc7e71b1b4
3
+ size 3952521274
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5290f140141908f65564bd81f8471ac09fd039d518fda31adfbbbf96feb463b
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:550de18786468cde56bbe50b8210303dfee699e039a60a0a741e857520a9ea9c
3
+ size 1064
special_tokens_map.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|im_start|>",
4
+ "<|im_end|>"
5
+ ],
6
+ "eos_token": {
7
+ "content": "<|endoftext|>",
8
+ "lstrip": false,
9
+ "normalized": false,
10
+ "rstrip": false,
11
+ "single_word": false
12
+ },
13
+ "pad_token": {
14
+ "content": "<|endoftext|>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false
19
+ }
20
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bcfe42da0a4497e8b2b172c1f9f4ec423a46dc12907f4349c55025f670422ba9
3
+ size 11418266
tokenizer_config.json ADDED
@@ -0,0 +1,44 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "151643": {
5
+ "content": "<|endoftext|>",
6
+ "lstrip": false,
7
+ "normalized": false,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "151644": {
13
+ "content": "<|im_start|>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "151645": {
21
+ "content": "<|im_end|>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ }
28
+ },
29
+ "additional_special_tokens": [
30
+ "<|im_start|>",
31
+ "<|im_end|>"
32
+ ],
33
+ "bos_token": null,
34
+ "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
35
+ "clean_up_tokenization_spaces": false,
36
+ "eos_token": "<|endoftext|>",
37
+ "errors": "replace",
38
+ "extra_special_tokens": {},
39
+ "model_max_length": 32768,
40
+ "pad_token": "<|endoftext|>",
41
+ "split_special_tokens": false,
42
+ "tokenizer_class": "Qwen2Tokenizer",
43
+ "unk_token": null
44
+ }
trainer_state.json ADDED
@@ -0,0 +1,3874 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 540,
3
+ "best_metric": 0.9159800958347165,
4
+ "best_model_checkpoint": "step_model/checkpoint-540",
5
+ "epoch": 4.991583779648049,
6
+ "eval_steps": 500,
7
+ "global_step": 540,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.009181331293037491,
14
+ "grad_norm": 552.1243896484375,
15
+ "learning_rate": 1.6000000000000001e-06,
16
+ "loss": 4.5089,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.018362662586074982,
21
+ "grad_norm": 622.1409912109375,
22
+ "learning_rate": 3.2000000000000003e-06,
23
+ "loss": 4.6147,
24
+ "step": 2
25
+ },
26
+ {
27
+ "epoch": 0.02754399387911247,
28
+ "grad_norm": 137.4489288330078,
29
+ "learning_rate": 4.800000000000001e-06,
30
+ "loss": 1.3058,
31
+ "step": 3
32
+ },
33
+ {
34
+ "epoch": 0.036725325172149964,
35
+ "grad_norm": 159.72210693359375,
36
+ "learning_rate": 6.4000000000000006e-06,
37
+ "loss": 1.4743,
38
+ "step": 4
39
+ },
40
+ {
41
+ "epoch": 0.045906656465187455,
42
+ "grad_norm": 79.93598175048828,
43
+ "learning_rate": 8.000000000000001e-06,
44
+ "loss": 1.1335,
45
+ "step": 5
46
+ },
47
+ {
48
+ "epoch": 0.05508798775822494,
49
+ "grad_norm": 141.25582885742188,
50
+ "learning_rate": 9.600000000000001e-06,
51
+ "loss": 1.5224,
52
+ "step": 6
53
+ },
54
+ {
55
+ "epoch": 0.06426931905126243,
56
+ "grad_norm": 49.07661819458008,
57
+ "learning_rate": 1.1200000000000001e-05,
58
+ "loss": 0.7441,
59
+ "step": 7
60
+ },
61
+ {
62
+ "epoch": 0.07345065034429993,
63
+ "grad_norm": 101.7048110961914,
64
+ "learning_rate": 1.2800000000000001e-05,
65
+ "loss": 1.0623,
66
+ "step": 8
67
+ },
68
+ {
69
+ "epoch": 0.08263198163733741,
70
+ "grad_norm": 103.25511169433594,
71
+ "learning_rate": 1.4400000000000001e-05,
72
+ "loss": 1.0808,
73
+ "step": 9
74
+ },
75
+ {
76
+ "epoch": 0.09181331293037491,
77
+ "grad_norm": 140.0247039794922,
78
+ "learning_rate": 1.6000000000000003e-05,
79
+ "loss": 1.1069,
80
+ "step": 10
81
+ },
82
+ {
83
+ "epoch": 0.1009946442234124,
84
+ "grad_norm": 104.08403015136719,
85
+ "learning_rate": 1.76e-05,
86
+ "loss": 0.8391,
87
+ "step": 11
88
+ },
89
+ {
90
+ "epoch": 0.11017597551644988,
91
+ "grad_norm": 28.53373146057129,
92
+ "learning_rate": 1.9200000000000003e-05,
93
+ "loss": 0.5711,
94
+ "step": 12
95
+ },
96
+ {
97
+ "epoch": 0.11935730680948738,
98
+ "grad_norm": 53.837989807128906,
99
+ "learning_rate": 2.08e-05,
100
+ "loss": 0.7023,
101
+ "step": 13
102
+ },
103
+ {
104
+ "epoch": 0.12853863810252486,
105
+ "grad_norm": 59.386627197265625,
106
+ "learning_rate": 2.2400000000000002e-05,
107
+ "loss": 0.6126,
108
+ "step": 14
109
+ },
110
+ {
111
+ "epoch": 0.13771996939556236,
112
+ "grad_norm": 36.95348358154297,
113
+ "learning_rate": 2.4e-05,
114
+ "loss": 0.491,
115
+ "step": 15
116
+ },
117
+ {
118
+ "epoch": 0.14690130068859986,
119
+ "grad_norm": 93.29971313476562,
120
+ "learning_rate": 2.5600000000000002e-05,
121
+ "loss": 0.873,
122
+ "step": 16
123
+ },
124
+ {
125
+ "epoch": 0.15608263198163733,
126
+ "grad_norm": 88.15643310546875,
127
+ "learning_rate": 2.7200000000000004e-05,
128
+ "loss": 0.688,
129
+ "step": 17
130
+ },
131
+ {
132
+ "epoch": 0.16526396327467482,
133
+ "grad_norm": 28.0848445892334,
134
+ "learning_rate": 2.8800000000000002e-05,
135
+ "loss": 0.3563,
136
+ "step": 18
137
+ },
138
+ {
139
+ "epoch": 0.17444529456771232,
140
+ "grad_norm": 40.82085418701172,
141
+ "learning_rate": 3.0400000000000004e-05,
142
+ "loss": 0.3817,
143
+ "step": 19
144
+ },
145
+ {
146
+ "epoch": 0.18362662586074982,
147
+ "grad_norm": 33.058773040771484,
148
+ "learning_rate": 3.2000000000000005e-05,
149
+ "loss": 0.3882,
150
+ "step": 20
151
+ },
152
+ {
153
+ "epoch": 0.1928079571537873,
154
+ "grad_norm": 27.387590408325195,
155
+ "learning_rate": 3.3600000000000004e-05,
156
+ "loss": 0.4441,
157
+ "step": 21
158
+ },
159
+ {
160
+ "epoch": 0.2019892884468248,
161
+ "grad_norm": 19.296785354614258,
162
+ "learning_rate": 3.52e-05,
163
+ "loss": 0.3223,
164
+ "step": 22
165
+ },
166
+ {
167
+ "epoch": 0.2111706197398623,
168
+ "grad_norm": 40.439701080322266,
169
+ "learning_rate": 3.680000000000001e-05,
170
+ "loss": 0.3952,
171
+ "step": 23
172
+ },
173
+ {
174
+ "epoch": 0.22035195103289976,
175
+ "grad_norm": 39.61898422241211,
176
+ "learning_rate": 3.8400000000000005e-05,
177
+ "loss": 0.5389,
178
+ "step": 24
179
+ },
180
+ {
181
+ "epoch": 0.22953328232593725,
182
+ "grad_norm": 25.244123458862305,
183
+ "learning_rate": 4e-05,
184
+ "loss": 0.3206,
185
+ "step": 25
186
+ },
187
+ {
188
+ "epoch": 0.23871461361897475,
189
+ "grad_norm": 23.072790145874023,
190
+ "learning_rate": 4.16e-05,
191
+ "loss": 0.3312,
192
+ "step": 26
193
+ },
194
+ {
195
+ "epoch": 0.24789594491201225,
196
+ "grad_norm": 27.1634578704834,
197
+ "learning_rate": 4.3200000000000007e-05,
198
+ "loss": 0.2465,
199
+ "step": 27
200
+ },
201
+ {
202
+ "epoch": 0.2570772762050497,
203
+ "grad_norm": 2.8762755393981934,
204
+ "learning_rate": 4.4800000000000005e-05,
205
+ "loss": 0.118,
206
+ "step": 28
207
+ },
208
+ {
209
+ "epoch": 0.2662586074980872,
210
+ "grad_norm": 29.08121109008789,
211
+ "learning_rate": 4.64e-05,
212
+ "loss": 0.3432,
213
+ "step": 29
214
+ },
215
+ {
216
+ "epoch": 0.2754399387911247,
217
+ "grad_norm": 6.575461387634277,
218
+ "learning_rate": 4.8e-05,
219
+ "loss": 0.2209,
220
+ "step": 30
221
+ },
222
+ {
223
+ "epoch": 0.2846212700841622,
224
+ "grad_norm": 58.086753845214844,
225
+ "learning_rate": 4.9600000000000006e-05,
226
+ "loss": 0.6822,
227
+ "step": 31
228
+ },
229
+ {
230
+ "epoch": 0.2938026013771997,
231
+ "grad_norm": 6.267982482910156,
232
+ "learning_rate": 5.1200000000000004e-05,
233
+ "loss": 0.2445,
234
+ "step": 32
235
+ },
236
+ {
237
+ "epoch": 0.3029839326702372,
238
+ "grad_norm": 23.830156326293945,
239
+ "learning_rate": 5.280000000000001e-05,
240
+ "loss": 0.2468,
241
+ "step": 33
242
+ },
243
+ {
244
+ "epoch": 0.31216526396327465,
245
+ "grad_norm": 18.682607650756836,
246
+ "learning_rate": 5.440000000000001e-05,
247
+ "loss": 0.2308,
248
+ "step": 34
249
+ },
250
+ {
251
+ "epoch": 0.32134659525631215,
252
+ "grad_norm": 31.009607315063477,
253
+ "learning_rate": 5.6e-05,
254
+ "loss": 0.3863,
255
+ "step": 35
256
+ },
257
+ {
258
+ "epoch": 0.33052792654934965,
259
+ "grad_norm": 28.872400283813477,
260
+ "learning_rate": 5.7600000000000004e-05,
261
+ "loss": 0.3666,
262
+ "step": 36
263
+ },
264
+ {
265
+ "epoch": 0.33970925784238715,
266
+ "grad_norm": 3.5741195678710938,
267
+ "learning_rate": 5.92e-05,
268
+ "loss": 0.2504,
269
+ "step": 37
270
+ },
271
+ {
272
+ "epoch": 0.34889058913542464,
273
+ "grad_norm": 2.754889488220215,
274
+ "learning_rate": 6.080000000000001e-05,
275
+ "loss": 0.2176,
276
+ "step": 38
277
+ },
278
+ {
279
+ "epoch": 0.35807192042846214,
280
+ "grad_norm": 8.70465087890625,
281
+ "learning_rate": 6.240000000000001e-05,
282
+ "loss": 0.2185,
283
+ "step": 39
284
+ },
285
+ {
286
+ "epoch": 0.36725325172149964,
287
+ "grad_norm": 17.018939971923828,
288
+ "learning_rate": 6.400000000000001e-05,
289
+ "loss": 0.1979,
290
+ "step": 40
291
+ },
292
+ {
293
+ "epoch": 0.3764345830145371,
294
+ "grad_norm": 6.084759712219238,
295
+ "learning_rate": 6.56e-05,
296
+ "loss": 0.1683,
297
+ "step": 41
298
+ },
299
+ {
300
+ "epoch": 0.3856159143075746,
301
+ "grad_norm": 2.9953882694244385,
302
+ "learning_rate": 6.720000000000001e-05,
303
+ "loss": 0.1539,
304
+ "step": 42
305
+ },
306
+ {
307
+ "epoch": 0.3947972456006121,
308
+ "grad_norm": 34.98771667480469,
309
+ "learning_rate": 6.88e-05,
310
+ "loss": 0.4813,
311
+ "step": 43
312
+ },
313
+ {
314
+ "epoch": 0.4039785768936496,
315
+ "grad_norm": 30.302515029907227,
316
+ "learning_rate": 7.04e-05,
317
+ "loss": 0.4002,
318
+ "step": 44
319
+ },
320
+ {
321
+ "epoch": 0.4131599081866871,
322
+ "grad_norm": 4.700782299041748,
323
+ "learning_rate": 7.2e-05,
324
+ "loss": 0.2843,
325
+ "step": 45
326
+ },
327
+ {
328
+ "epoch": 0.4223412394797246,
329
+ "grad_norm": 31.81206703186035,
330
+ "learning_rate": 7.360000000000001e-05,
331
+ "loss": 0.5994,
332
+ "step": 46
333
+ },
334
+ {
335
+ "epoch": 0.43152257077276207,
336
+ "grad_norm": 23.745010375976562,
337
+ "learning_rate": 7.52e-05,
338
+ "loss": 0.3413,
339
+ "step": 47
340
+ },
341
+ {
342
+ "epoch": 0.4407039020657995,
343
+ "grad_norm": 31.0627498626709,
344
+ "learning_rate": 7.680000000000001e-05,
345
+ "loss": 0.3699,
346
+ "step": 48
347
+ },
348
+ {
349
+ "epoch": 0.449885233358837,
350
+ "grad_norm": 55.66075134277344,
351
+ "learning_rate": 7.840000000000001e-05,
352
+ "loss": 0.4303,
353
+ "step": 49
354
+ },
355
+ {
356
+ "epoch": 0.4590665646518745,
357
+ "grad_norm": 18.67353057861328,
358
+ "learning_rate": 8e-05,
359
+ "loss": 0.3794,
360
+ "step": 50
361
+ },
362
+ {
363
+ "epoch": 0.468247895944912,
364
+ "grad_norm": 16.00495719909668,
365
+ "learning_rate": 7.992233009708738e-05,
366
+ "loss": 0.3547,
367
+ "step": 51
368
+ },
369
+ {
370
+ "epoch": 0.4774292272379495,
371
+ "grad_norm": 12.243154525756836,
372
+ "learning_rate": 7.984466019417476e-05,
373
+ "loss": 0.3019,
374
+ "step": 52
375
+ },
376
+ {
377
+ "epoch": 0.486610558530987,
378
+ "grad_norm": 3.4250876903533936,
379
+ "learning_rate": 7.976699029126214e-05,
380
+ "loss": 0.2176,
381
+ "step": 53
382
+ },
383
+ {
384
+ "epoch": 0.4957918898240245,
385
+ "grad_norm": 10.494245529174805,
386
+ "learning_rate": 7.968932038834952e-05,
387
+ "loss": 0.1853,
388
+ "step": 54
389
+ },
390
+ {
391
+ "epoch": 0.504973221117062,
392
+ "grad_norm": 1.6373307704925537,
393
+ "learning_rate": 7.96116504854369e-05,
394
+ "loss": 0.2255,
395
+ "step": 55
396
+ },
397
+ {
398
+ "epoch": 0.5141545524100994,
399
+ "grad_norm": 13.208869934082031,
400
+ "learning_rate": 7.953398058252428e-05,
401
+ "loss": 0.2738,
402
+ "step": 56
403
+ },
404
+ {
405
+ "epoch": 0.523335883703137,
406
+ "grad_norm": 21.325719833374023,
407
+ "learning_rate": 7.945631067961165e-05,
408
+ "loss": 0.3881,
409
+ "step": 57
410
+ },
411
+ {
412
+ "epoch": 0.5325172149961744,
413
+ "grad_norm": 4.409871578216553,
414
+ "learning_rate": 7.937864077669903e-05,
415
+ "loss": 0.1368,
416
+ "step": 58
417
+ },
418
+ {
419
+ "epoch": 0.541698546289212,
420
+ "grad_norm": 14.195902824401855,
421
+ "learning_rate": 7.930097087378641e-05,
422
+ "loss": 0.3292,
423
+ "step": 59
424
+ },
425
+ {
426
+ "epoch": 0.5508798775822494,
427
+ "grad_norm": 6.490973949432373,
428
+ "learning_rate": 7.922330097087379e-05,
429
+ "loss": 0.2435,
430
+ "step": 60
431
+ },
432
+ {
433
+ "epoch": 0.5600612088752869,
434
+ "grad_norm": 24.487756729125977,
435
+ "learning_rate": 7.914563106796117e-05,
436
+ "loss": 0.3938,
437
+ "step": 61
438
+ },
439
+ {
440
+ "epoch": 0.5692425401683244,
441
+ "grad_norm": 14.134882926940918,
442
+ "learning_rate": 7.906796116504855e-05,
443
+ "loss": 0.2633,
444
+ "step": 62
445
+ },
446
+ {
447
+ "epoch": 0.5784238714613619,
448
+ "grad_norm": 6.8547186851501465,
449
+ "learning_rate": 7.899029126213592e-05,
450
+ "loss": 0.2889,
451
+ "step": 63
452
+ },
453
+ {
454
+ "epoch": 0.5876052027543994,
455
+ "grad_norm": 6.65236759185791,
456
+ "learning_rate": 7.891262135922332e-05,
457
+ "loss": 0.2065,
458
+ "step": 64
459
+ },
460
+ {
461
+ "epoch": 0.5967865340474369,
462
+ "grad_norm": 67.0324935913086,
463
+ "learning_rate": 7.883495145631068e-05,
464
+ "loss": 1.0267,
465
+ "step": 65
466
+ },
467
+ {
468
+ "epoch": 0.6059678653404744,
469
+ "grad_norm": 11.311943054199219,
470
+ "learning_rate": 7.875728155339806e-05,
471
+ "loss": 0.2498,
472
+ "step": 66
473
+ },
474
+ {
475
+ "epoch": 0.6151491966335119,
476
+ "grad_norm": 35.43751907348633,
477
+ "learning_rate": 7.867961165048545e-05,
478
+ "loss": 0.6174,
479
+ "step": 67
480
+ },
481
+ {
482
+ "epoch": 0.6243305279265493,
483
+ "grad_norm": 17.719829559326172,
484
+ "learning_rate": 7.860194174757282e-05,
485
+ "loss": 0.2319,
486
+ "step": 68
487
+ },
488
+ {
489
+ "epoch": 0.6335118592195869,
490
+ "grad_norm": 3.499075174331665,
491
+ "learning_rate": 7.852427184466021e-05,
492
+ "loss": 0.2491,
493
+ "step": 69
494
+ },
495
+ {
496
+ "epoch": 0.6426931905126243,
497
+ "grad_norm": 12.722639083862305,
498
+ "learning_rate": 7.844660194174757e-05,
499
+ "loss": 0.3926,
500
+ "step": 70
501
+ },
502
+ {
503
+ "epoch": 0.6518745218056619,
504
+ "grad_norm": 2.7177345752716064,
505
+ "learning_rate": 7.836893203883495e-05,
506
+ "loss": 0.1841,
507
+ "step": 71
508
+ },
509
+ {
510
+ "epoch": 0.6610558530986993,
511
+ "grad_norm": 22.11650848388672,
512
+ "learning_rate": 7.829126213592234e-05,
513
+ "loss": 0.3705,
514
+ "step": 72
515
+ },
516
+ {
517
+ "epoch": 0.6702371843917369,
518
+ "grad_norm": 19.472009658813477,
519
+ "learning_rate": 7.821359223300971e-05,
520
+ "loss": 0.2975,
521
+ "step": 73
522
+ },
523
+ {
524
+ "epoch": 0.6794185156847743,
525
+ "grad_norm": 10.078657150268555,
526
+ "learning_rate": 7.81359223300971e-05,
527
+ "loss": 0.33,
528
+ "step": 74
529
+ },
530
+ {
531
+ "epoch": 0.6885998469778117,
532
+ "grad_norm": 7.108274936676025,
533
+ "learning_rate": 7.805825242718448e-05,
534
+ "loss": 0.2219,
535
+ "step": 75
536
+ },
537
+ {
538
+ "epoch": 0.6977811782708493,
539
+ "grad_norm": 8.602924346923828,
540
+ "learning_rate": 7.798058252427184e-05,
541
+ "loss": 0.3315,
542
+ "step": 76
543
+ },
544
+ {
545
+ "epoch": 0.7069625095638867,
546
+ "grad_norm": 12.277087211608887,
547
+ "learning_rate": 7.790291262135924e-05,
548
+ "loss": 0.2325,
549
+ "step": 77
550
+ },
551
+ {
552
+ "epoch": 0.7161438408569243,
553
+ "grad_norm": 5.5893731117248535,
554
+ "learning_rate": 7.782524271844661e-05,
555
+ "loss": 0.1599,
556
+ "step": 78
557
+ },
558
+ {
559
+ "epoch": 0.7253251721499617,
560
+ "grad_norm": 2.81351637840271,
561
+ "learning_rate": 7.774757281553398e-05,
562
+ "loss": 0.1283,
563
+ "step": 79
564
+ },
565
+ {
566
+ "epoch": 0.7345065034429993,
567
+ "grad_norm": 5.031857490539551,
568
+ "learning_rate": 7.766990291262137e-05,
569
+ "loss": 0.1443,
570
+ "step": 80
571
+ },
572
+ {
573
+ "epoch": 0.7436878347360367,
574
+ "grad_norm": 2.0729098320007324,
575
+ "learning_rate": 7.759223300970875e-05,
576
+ "loss": 0.1334,
577
+ "step": 81
578
+ },
579
+ {
580
+ "epoch": 0.7528691660290742,
581
+ "grad_norm": 19.96465301513672,
582
+ "learning_rate": 7.751456310679613e-05,
583
+ "loss": 0.4795,
584
+ "step": 82
585
+ },
586
+ {
587
+ "epoch": 0.7620504973221117,
588
+ "grad_norm": 6.336106300354004,
589
+ "learning_rate": 7.74368932038835e-05,
590
+ "loss": 0.2773,
591
+ "step": 83
592
+ },
593
+ {
594
+ "epoch": 0.7712318286151492,
595
+ "grad_norm": 13.47536849975586,
596
+ "learning_rate": 7.735922330097087e-05,
597
+ "loss": 0.2076,
598
+ "step": 84
599
+ },
600
+ {
601
+ "epoch": 0.7804131599081867,
602
+ "grad_norm": 9.172046661376953,
603
+ "learning_rate": 7.728155339805826e-05,
604
+ "loss": 0.1782,
605
+ "step": 85
606
+ },
607
+ {
608
+ "epoch": 0.7895944912012242,
609
+ "grad_norm": 1.8006654977798462,
610
+ "learning_rate": 7.720388349514564e-05,
611
+ "loss": 0.1906,
612
+ "step": 86
613
+ },
614
+ {
615
+ "epoch": 0.7987758224942617,
616
+ "grad_norm": 31.064603805541992,
617
+ "learning_rate": 7.712621359223302e-05,
618
+ "loss": 0.5414,
619
+ "step": 87
620
+ },
621
+ {
622
+ "epoch": 0.8079571537872992,
623
+ "grad_norm": 31.37782096862793,
624
+ "learning_rate": 7.70485436893204e-05,
625
+ "loss": 0.571,
626
+ "step": 88
627
+ },
628
+ {
629
+ "epoch": 0.8171384850803366,
630
+ "grad_norm": 20.400068283081055,
631
+ "learning_rate": 7.697087378640778e-05,
632
+ "loss": 0.4727,
633
+ "step": 89
634
+ },
635
+ {
636
+ "epoch": 0.8263198163733741,
637
+ "grad_norm": 3.840691328048706,
638
+ "learning_rate": 7.689320388349515e-05,
639
+ "loss": 0.128,
640
+ "step": 90
641
+ },
642
+ {
643
+ "epoch": 0.8355011476664116,
644
+ "grad_norm": 7.975795269012451,
645
+ "learning_rate": 7.681553398058253e-05,
646
+ "loss": 0.2449,
647
+ "step": 91
648
+ },
649
+ {
650
+ "epoch": 0.8446824789594491,
651
+ "grad_norm": 18.28291130065918,
652
+ "learning_rate": 7.673786407766991e-05,
653
+ "loss": 0.4231,
654
+ "step": 92
655
+ },
656
+ {
657
+ "epoch": 0.8538638102524866,
658
+ "grad_norm": 15.507442474365234,
659
+ "learning_rate": 7.666019417475729e-05,
660
+ "loss": 0.4038,
661
+ "step": 93
662
+ },
663
+ {
664
+ "epoch": 0.8630451415455241,
665
+ "grad_norm": 3.3547756671905518,
666
+ "learning_rate": 7.658252427184467e-05,
667
+ "loss": 0.2944,
668
+ "step": 94
669
+ },
670
+ {
671
+ "epoch": 0.8722264728385616,
672
+ "grad_norm": 17.49518585205078,
673
+ "learning_rate": 7.650485436893205e-05,
674
+ "loss": 0.3282,
675
+ "step": 95
676
+ },
677
+ {
678
+ "epoch": 0.881407804131599,
679
+ "grad_norm": 16.508150100708008,
680
+ "learning_rate": 7.642718446601942e-05,
681
+ "loss": 0.2614,
682
+ "step": 96
683
+ },
684
+ {
685
+ "epoch": 0.8905891354246366,
686
+ "grad_norm": 10.923882484436035,
687
+ "learning_rate": 7.63495145631068e-05,
688
+ "loss": 0.2362,
689
+ "step": 97
690
+ },
691
+ {
692
+ "epoch": 0.899770466717674,
693
+ "grad_norm": 23.91029167175293,
694
+ "learning_rate": 7.627184466019418e-05,
695
+ "loss": 0.2727,
696
+ "step": 98
697
+ },
698
+ {
699
+ "epoch": 0.9089517980107116,
700
+ "grad_norm": 35.68147659301758,
701
+ "learning_rate": 7.619417475728156e-05,
702
+ "loss": 0.4476,
703
+ "step": 99
704
+ },
705
+ {
706
+ "epoch": 0.918133129303749,
707
+ "grad_norm": 31.8104190826416,
708
+ "learning_rate": 7.611650485436894e-05,
709
+ "loss": 0.3894,
710
+ "step": 100
711
+ },
712
+ {
713
+ "epoch": 0.9273144605967866,
714
+ "grad_norm": 6.072512149810791,
715
+ "learning_rate": 7.603883495145632e-05,
716
+ "loss": 0.2231,
717
+ "step": 101
718
+ },
719
+ {
720
+ "epoch": 0.936495791889824,
721
+ "grad_norm": 6.521978855133057,
722
+ "learning_rate": 7.59611650485437e-05,
723
+ "loss": 0.3853,
724
+ "step": 102
725
+ },
726
+ {
727
+ "epoch": 0.9456771231828616,
728
+ "grad_norm": 27.810165405273438,
729
+ "learning_rate": 7.588349514563107e-05,
730
+ "loss": 0.4014,
731
+ "step": 103
732
+ },
733
+ {
734
+ "epoch": 0.954858454475899,
735
+ "grad_norm": 19.418691635131836,
736
+ "learning_rate": 7.580582524271845e-05,
737
+ "loss": 0.2961,
738
+ "step": 104
739
+ },
740
+ {
741
+ "epoch": 0.9640397857689365,
742
+ "grad_norm": 15.135346412658691,
743
+ "learning_rate": 7.572815533980583e-05,
744
+ "loss": 0.3664,
745
+ "step": 105
746
+ },
747
+ {
748
+ "epoch": 0.973221117061974,
749
+ "grad_norm": 7.9721856117248535,
750
+ "learning_rate": 7.56504854368932e-05,
751
+ "loss": 0.2773,
752
+ "step": 106
753
+ },
754
+ {
755
+ "epoch": 0.9824024483550114,
756
+ "grad_norm": 23.264266967773438,
757
+ "learning_rate": 7.55728155339806e-05,
758
+ "loss": 0.2951,
759
+ "step": 107
760
+ },
761
+ {
762
+ "epoch": 0.991583779648049,
763
+ "grad_norm": 25.426694869995117,
764
+ "learning_rate": 7.549514563106796e-05,
765
+ "loss": 0.4302,
766
+ "step": 108
767
+ },
768
+ {
769
+ "epoch": 0.991583779648049,
770
+ "eval_accuracy": 0.7749721986001178,
771
+ "eval_f1": 0.7288808822548775,
772
+ "eval_loss": 0.5745601058006287,
773
+ "eval_precision": 0.828833866260309,
774
+ "eval_recall": 0.7749721986001178,
775
+ "eval_runtime": 560.9506,
776
+ "eval_samples_per_second": 0.777,
777
+ "eval_steps_per_second": 0.26,
778
+ "step": 108
779
+ },
780
+ {
781
+ "epoch": 1.0091813312930376,
782
+ "grad_norm": 51.86578369140625,
783
+ "learning_rate": 7.541747572815534e-05,
784
+ "loss": 0.8216,
785
+ "step": 109
786
+ },
787
+ {
788
+ "epoch": 1.0183626625860749,
789
+ "grad_norm": 22.197532653808594,
790
+ "learning_rate": 7.533980582524272e-05,
791
+ "loss": 0.3328,
792
+ "step": 110
793
+ },
794
+ {
795
+ "epoch": 1.0275439938791124,
796
+ "grad_norm": 4.302680969238281,
797
+ "learning_rate": 7.52621359223301e-05,
798
+ "loss": 0.1589,
799
+ "step": 111
800
+ },
801
+ {
802
+ "epoch": 1.03672532517215,
803
+ "grad_norm": 3.51171612739563,
804
+ "learning_rate": 7.518446601941749e-05,
805
+ "loss": 0.1304,
806
+ "step": 112
807
+ },
808
+ {
809
+ "epoch": 1.0459066564651875,
810
+ "grad_norm": 10.325600624084473,
811
+ "learning_rate": 7.510679611650485e-05,
812
+ "loss": 0.18,
813
+ "step": 113
814
+ },
815
+ {
816
+ "epoch": 1.0550879877582249,
817
+ "grad_norm": 3.1501736640930176,
818
+ "learning_rate": 7.502912621359223e-05,
819
+ "loss": 0.2574,
820
+ "step": 114
821
+ },
822
+ {
823
+ "epoch": 1.0642693190512624,
824
+ "grad_norm": 14.806204795837402,
825
+ "learning_rate": 7.495145631067963e-05,
826
+ "loss": 0.223,
827
+ "step": 115
828
+ },
829
+ {
830
+ "epoch": 1.0734506503443,
831
+ "grad_norm": 1.5460139513015747,
832
+ "learning_rate": 7.487378640776699e-05,
833
+ "loss": 0.2312,
834
+ "step": 116
835
+ },
836
+ {
837
+ "epoch": 1.0826319816373373,
838
+ "grad_norm": 3.5510261058807373,
839
+ "learning_rate": 7.479611650485438e-05,
840
+ "loss": 0.1866,
841
+ "step": 117
842
+ },
843
+ {
844
+ "epoch": 1.0918133129303749,
845
+ "grad_norm": 4.389242172241211,
846
+ "learning_rate": 7.471844660194176e-05,
847
+ "loss": 0.2228,
848
+ "step": 118
849
+ },
850
+ {
851
+ "epoch": 1.1009946442234124,
852
+ "grad_norm": 6.024950981140137,
853
+ "learning_rate": 7.464077669902912e-05,
854
+ "loss": 0.2705,
855
+ "step": 119
856
+ },
857
+ {
858
+ "epoch": 1.11017597551645,
859
+ "grad_norm": 6.578023910522461,
860
+ "learning_rate": 7.456310679611652e-05,
861
+ "loss": 0.2604,
862
+ "step": 120
863
+ },
864
+ {
865
+ "epoch": 1.1193573068094873,
866
+ "grad_norm": 6.674208164215088,
867
+ "learning_rate": 7.44854368932039e-05,
868
+ "loss": 0.1032,
869
+ "step": 121
870
+ },
871
+ {
872
+ "epoch": 1.1285386381025249,
873
+ "grad_norm": 2.491330146789551,
874
+ "learning_rate": 7.440776699029127e-05,
875
+ "loss": 0.2291,
876
+ "step": 122
877
+ },
878
+ {
879
+ "epoch": 1.1377199693955624,
880
+ "grad_norm": 3.874124050140381,
881
+ "learning_rate": 7.433009708737865e-05,
882
+ "loss": 0.1928,
883
+ "step": 123
884
+ },
885
+ {
886
+ "epoch": 1.1469013006886,
887
+ "grad_norm": 9.65518856048584,
888
+ "learning_rate": 7.425242718446602e-05,
889
+ "loss": 0.19,
890
+ "step": 124
891
+ },
892
+ {
893
+ "epoch": 1.1560826319816373,
894
+ "grad_norm": 2.4416863918304443,
895
+ "learning_rate": 7.417475728155341e-05,
896
+ "loss": 0.2102,
897
+ "step": 125
898
+ },
899
+ {
900
+ "epoch": 1.1652639632746749,
901
+ "grad_norm": 7.130241870880127,
902
+ "learning_rate": 7.409708737864079e-05,
903
+ "loss": 0.2244,
904
+ "step": 126
905
+ },
906
+ {
907
+ "epoch": 1.1744452945677124,
908
+ "grad_norm": 6.790441036224365,
909
+ "learning_rate": 7.401941747572817e-05,
910
+ "loss": 0.1538,
911
+ "step": 127
912
+ },
913
+ {
914
+ "epoch": 1.1836266258607497,
915
+ "grad_norm": 6.354260444641113,
916
+ "learning_rate": 7.394174757281554e-05,
917
+ "loss": 0.1638,
918
+ "step": 128
919
+ },
920
+ {
921
+ "epoch": 1.1928079571537873,
922
+ "grad_norm": 3.370192766189575,
923
+ "learning_rate": 7.386407766990292e-05,
924
+ "loss": 0.1154,
925
+ "step": 129
926
+ },
927
+ {
928
+ "epoch": 1.2019892884468248,
929
+ "grad_norm": 27.79559326171875,
930
+ "learning_rate": 7.37864077669903e-05,
931
+ "loss": 0.5183,
932
+ "step": 130
933
+ },
934
+ {
935
+ "epoch": 1.2111706197398622,
936
+ "grad_norm": 6.855523109436035,
937
+ "learning_rate": 7.370873786407768e-05,
938
+ "loss": 0.1319,
939
+ "step": 131
940
+ },
941
+ {
942
+ "epoch": 1.2203519510328997,
943
+ "grad_norm": 1.6473695039749146,
944
+ "learning_rate": 7.363106796116506e-05,
945
+ "loss": 0.1222,
946
+ "step": 132
947
+ },
948
+ {
949
+ "epoch": 1.2295332823259373,
950
+ "grad_norm": 7.685835838317871,
951
+ "learning_rate": 7.355339805825244e-05,
952
+ "loss": 0.2103,
953
+ "step": 133
954
+ },
955
+ {
956
+ "epoch": 1.2387146136189748,
957
+ "grad_norm": 12.283053398132324,
958
+ "learning_rate": 7.347572815533981e-05,
959
+ "loss": 0.2015,
960
+ "step": 134
961
+ },
962
+ {
963
+ "epoch": 1.2478959449120122,
964
+ "grad_norm": 18.49811363220215,
965
+ "learning_rate": 7.339805825242719e-05,
966
+ "loss": 0.3616,
967
+ "step": 135
968
+ },
969
+ {
970
+ "epoch": 1.2570772762050497,
971
+ "grad_norm": 4.600038528442383,
972
+ "learning_rate": 7.332038834951457e-05,
973
+ "loss": 0.0994,
974
+ "step": 136
975
+ },
976
+ {
977
+ "epoch": 1.2662586074980873,
978
+ "grad_norm": 14.006651878356934,
979
+ "learning_rate": 7.324271844660195e-05,
980
+ "loss": 0.2681,
981
+ "step": 137
982
+ },
983
+ {
984
+ "epoch": 1.2754399387911248,
985
+ "grad_norm": 4.310116767883301,
986
+ "learning_rate": 7.316504854368933e-05,
987
+ "loss": 0.0905,
988
+ "step": 138
989
+ },
990
+ {
991
+ "epoch": 1.2846212700841622,
992
+ "grad_norm": 5.253411293029785,
993
+ "learning_rate": 7.30873786407767e-05,
994
+ "loss": 0.1535,
995
+ "step": 139
996
+ },
997
+ {
998
+ "epoch": 1.2938026013771997,
999
+ "grad_norm": 2.7899246215820312,
1000
+ "learning_rate": 7.300970873786408e-05,
1001
+ "loss": 0.1451,
1002
+ "step": 140
1003
+ },
1004
+ {
1005
+ "epoch": 1.3029839326702373,
1006
+ "grad_norm": 1.1316604614257812,
1007
+ "learning_rate": 7.293203883495146e-05,
1008
+ "loss": 0.1329,
1009
+ "step": 141
1010
+ },
1011
+ {
1012
+ "epoch": 1.3121652639632746,
1013
+ "grad_norm": 5.68380069732666,
1014
+ "learning_rate": 7.285436893203884e-05,
1015
+ "loss": 0.1214,
1016
+ "step": 142
1017
+ },
1018
+ {
1019
+ "epoch": 1.3213465952563122,
1020
+ "grad_norm": 4.389778137207031,
1021
+ "learning_rate": 7.277669902912622e-05,
1022
+ "loss": 0.1665,
1023
+ "step": 143
1024
+ },
1025
+ {
1026
+ "epoch": 1.3305279265493497,
1027
+ "grad_norm": 1.7465097904205322,
1028
+ "learning_rate": 7.26990291262136e-05,
1029
+ "loss": 0.1157,
1030
+ "step": 144
1031
+ },
1032
+ {
1033
+ "epoch": 1.339709257842387,
1034
+ "grad_norm": 10.305349349975586,
1035
+ "learning_rate": 7.262135922330098e-05,
1036
+ "loss": 0.2177,
1037
+ "step": 145
1038
+ },
1039
+ {
1040
+ "epoch": 1.3488905891354246,
1041
+ "grad_norm": 13.946221351623535,
1042
+ "learning_rate": 7.254368932038835e-05,
1043
+ "loss": 0.2292,
1044
+ "step": 146
1045
+ },
1046
+ {
1047
+ "epoch": 1.3580719204284621,
1048
+ "grad_norm": 15.03929328918457,
1049
+ "learning_rate": 7.246601941747573e-05,
1050
+ "loss": 0.271,
1051
+ "step": 147
1052
+ },
1053
+ {
1054
+ "epoch": 1.3672532517214997,
1055
+ "grad_norm": 14.376097679138184,
1056
+ "learning_rate": 7.238834951456311e-05,
1057
+ "loss": 0.2958,
1058
+ "step": 148
1059
+ },
1060
+ {
1061
+ "epoch": 1.376434583014537,
1062
+ "grad_norm": 0.8716343641281128,
1063
+ "learning_rate": 7.231067961165049e-05,
1064
+ "loss": 0.0898,
1065
+ "step": 149
1066
+ },
1067
+ {
1068
+ "epoch": 1.3856159143075746,
1069
+ "grad_norm": 2.818023920059204,
1070
+ "learning_rate": 7.223300970873787e-05,
1071
+ "loss": 0.1102,
1072
+ "step": 150
1073
+ },
1074
+ {
1075
+ "epoch": 1.3947972456006121,
1076
+ "grad_norm": 8.721041679382324,
1077
+ "learning_rate": 7.215533980582525e-05,
1078
+ "loss": 0.1993,
1079
+ "step": 151
1080
+ },
1081
+ {
1082
+ "epoch": 1.4039785768936497,
1083
+ "grad_norm": 3.530343770980835,
1084
+ "learning_rate": 7.207766990291262e-05,
1085
+ "loss": 0.1839,
1086
+ "step": 152
1087
+ },
1088
+ {
1089
+ "epoch": 1.413159908186687,
1090
+ "grad_norm": 7.633164405822754,
1091
+ "learning_rate": 7.2e-05,
1092
+ "loss": 0.2431,
1093
+ "step": 153
1094
+ },
1095
+ {
1096
+ "epoch": 1.4223412394797246,
1097
+ "grad_norm": 2.1333348751068115,
1098
+ "learning_rate": 7.192233009708738e-05,
1099
+ "loss": 0.2002,
1100
+ "step": 154
1101
+ },
1102
+ {
1103
+ "epoch": 1.4315225707727621,
1104
+ "grad_norm": 6.905920505523682,
1105
+ "learning_rate": 7.184466019417477e-05,
1106
+ "loss": 0.1917,
1107
+ "step": 155
1108
+ },
1109
+ {
1110
+ "epoch": 1.4407039020657995,
1111
+ "grad_norm": 2.9396049976348877,
1112
+ "learning_rate": 7.176699029126214e-05,
1113
+ "loss": 0.2321,
1114
+ "step": 156
1115
+ },
1116
+ {
1117
+ "epoch": 1.449885233358837,
1118
+ "grad_norm": 5.382288455963135,
1119
+ "learning_rate": 7.168932038834952e-05,
1120
+ "loss": 0.1356,
1121
+ "step": 157
1122
+ },
1123
+ {
1124
+ "epoch": 1.4590665646518746,
1125
+ "grad_norm": 1.2282894849777222,
1126
+ "learning_rate": 7.161165048543691e-05,
1127
+ "loss": 0.2201,
1128
+ "step": 158
1129
+ },
1130
+ {
1131
+ "epoch": 1.468247895944912,
1132
+ "grad_norm": 1.0711779594421387,
1133
+ "learning_rate": 7.153398058252427e-05,
1134
+ "loss": 0.1323,
1135
+ "step": 159
1136
+ },
1137
+ {
1138
+ "epoch": 1.4774292272379494,
1139
+ "grad_norm": 2.051816463470459,
1140
+ "learning_rate": 7.145631067961166e-05,
1141
+ "loss": 0.1197,
1142
+ "step": 160
1143
+ },
1144
+ {
1145
+ "epoch": 1.486610558530987,
1146
+ "grad_norm": 10.497904777526855,
1147
+ "learning_rate": 7.137864077669903e-05,
1148
+ "loss": 0.2632,
1149
+ "step": 161
1150
+ },
1151
+ {
1152
+ "epoch": 1.4957918898240246,
1153
+ "grad_norm": 11.239540100097656,
1154
+ "learning_rate": 7.130097087378641e-05,
1155
+ "loss": 0.2535,
1156
+ "step": 162
1157
+ },
1158
+ {
1159
+ "epoch": 1.504973221117062,
1160
+ "grad_norm": 2.5063364505767822,
1161
+ "learning_rate": 7.12233009708738e-05,
1162
+ "loss": 0.1153,
1163
+ "step": 163
1164
+ },
1165
+ {
1166
+ "epoch": 1.5141545524100994,
1167
+ "grad_norm": 2.675297975540161,
1168
+ "learning_rate": 7.114563106796116e-05,
1169
+ "loss": 0.2447,
1170
+ "step": 164
1171
+ },
1172
+ {
1173
+ "epoch": 1.523335883703137,
1174
+ "grad_norm": 6.066133499145508,
1175
+ "learning_rate": 7.106796116504856e-05,
1176
+ "loss": 0.1301,
1177
+ "step": 165
1178
+ },
1179
+ {
1180
+ "epoch": 1.5325172149961745,
1181
+ "grad_norm": 15.658319473266602,
1182
+ "learning_rate": 7.099029126213593e-05,
1183
+ "loss": 0.418,
1184
+ "step": 166
1185
+ },
1186
+ {
1187
+ "epoch": 1.5416985462892119,
1188
+ "grad_norm": 10.173383712768555,
1189
+ "learning_rate": 7.09126213592233e-05,
1190
+ "loss": 0.23,
1191
+ "step": 167
1192
+ },
1193
+ {
1194
+ "epoch": 1.5508798775822494,
1195
+ "grad_norm": 5.768986225128174,
1196
+ "learning_rate": 7.083495145631069e-05,
1197
+ "loss": 0.1742,
1198
+ "step": 168
1199
+ },
1200
+ {
1201
+ "epoch": 1.560061208875287,
1202
+ "grad_norm": 3.804189443588257,
1203
+ "learning_rate": 7.075728155339807e-05,
1204
+ "loss": 0.2933,
1205
+ "step": 169
1206
+ },
1207
+ {
1208
+ "epoch": 1.5692425401683243,
1209
+ "grad_norm": 8.465193748474121,
1210
+ "learning_rate": 7.067961165048545e-05,
1211
+ "loss": 0.1313,
1212
+ "step": 170
1213
+ },
1214
+ {
1215
+ "epoch": 1.5784238714613619,
1216
+ "grad_norm": 2.491424083709717,
1217
+ "learning_rate": 7.060194174757283e-05,
1218
+ "loss": 0.1466,
1219
+ "step": 171
1220
+ },
1221
+ {
1222
+ "epoch": 1.5876052027543994,
1223
+ "grad_norm": 8.547496795654297,
1224
+ "learning_rate": 7.05242718446602e-05,
1225
+ "loss": 0.1616,
1226
+ "step": 172
1227
+ },
1228
+ {
1229
+ "epoch": 1.5967865340474368,
1230
+ "grad_norm": 16.220333099365234,
1231
+ "learning_rate": 7.044660194174758e-05,
1232
+ "loss": 0.2879,
1233
+ "step": 173
1234
+ },
1235
+ {
1236
+ "epoch": 1.6059678653404745,
1237
+ "grad_norm": 17.422664642333984,
1238
+ "learning_rate": 7.036893203883496e-05,
1239
+ "loss": 0.4046,
1240
+ "step": 174
1241
+ },
1242
+ {
1243
+ "epoch": 1.6151491966335119,
1244
+ "grad_norm": 3.1065282821655273,
1245
+ "learning_rate": 7.029126213592234e-05,
1246
+ "loss": 0.1545,
1247
+ "step": 175
1248
+ },
1249
+ {
1250
+ "epoch": 1.6243305279265492,
1251
+ "grad_norm": 10.306851387023926,
1252
+ "learning_rate": 7.021359223300972e-05,
1253
+ "loss": 0.2402,
1254
+ "step": 176
1255
+ },
1256
+ {
1257
+ "epoch": 1.633511859219587,
1258
+ "grad_norm": 10.562795639038086,
1259
+ "learning_rate": 7.01359223300971e-05,
1260
+ "loss": 0.2071,
1261
+ "step": 177
1262
+ },
1263
+ {
1264
+ "epoch": 1.6426931905126243,
1265
+ "grad_norm": 7.184860706329346,
1266
+ "learning_rate": 7.005825242718447e-05,
1267
+ "loss": 0.2232,
1268
+ "step": 178
1269
+ },
1270
+ {
1271
+ "epoch": 1.6518745218056619,
1272
+ "grad_norm": 5.680515289306641,
1273
+ "learning_rate": 6.998058252427185e-05,
1274
+ "loss": 0.155,
1275
+ "step": 179
1276
+ },
1277
+ {
1278
+ "epoch": 1.6610558530986994,
1279
+ "grad_norm": 1.1014502048492432,
1280
+ "learning_rate": 6.990291262135923e-05,
1281
+ "loss": 0.1331,
1282
+ "step": 180
1283
+ },
1284
+ {
1285
+ "epoch": 1.6702371843917367,
1286
+ "grad_norm": 14.522039413452148,
1287
+ "learning_rate": 6.982524271844661e-05,
1288
+ "loss": 0.374,
1289
+ "step": 181
1290
+ },
1291
+ {
1292
+ "epoch": 1.6794185156847743,
1293
+ "grad_norm": 26.841772079467773,
1294
+ "learning_rate": 6.974757281553399e-05,
1295
+ "loss": 0.5907,
1296
+ "step": 182
1297
+ },
1298
+ {
1299
+ "epoch": 1.6885998469778118,
1300
+ "grad_norm": 13.939030647277832,
1301
+ "learning_rate": 6.966990291262137e-05,
1302
+ "loss": 0.2672,
1303
+ "step": 183
1304
+ },
1305
+ {
1306
+ "epoch": 1.6977811782708492,
1307
+ "grad_norm": 12.051108360290527,
1308
+ "learning_rate": 6.959223300970874e-05,
1309
+ "loss": 0.2791,
1310
+ "step": 184
1311
+ },
1312
+ {
1313
+ "epoch": 1.7069625095638867,
1314
+ "grad_norm": 1.6597830057144165,
1315
+ "learning_rate": 6.951456310679612e-05,
1316
+ "loss": 0.1569,
1317
+ "step": 185
1318
+ },
1319
+ {
1320
+ "epoch": 1.7161438408569243,
1321
+ "grad_norm": 3.2352640628814697,
1322
+ "learning_rate": 6.94368932038835e-05,
1323
+ "loss": 0.1141,
1324
+ "step": 186
1325
+ },
1326
+ {
1327
+ "epoch": 1.7253251721499616,
1328
+ "grad_norm": 2.4085941314697266,
1329
+ "learning_rate": 6.935922330097088e-05,
1330
+ "loss": 0.2735,
1331
+ "step": 187
1332
+ },
1333
+ {
1334
+ "epoch": 1.7345065034429994,
1335
+ "grad_norm": 0.8180865049362183,
1336
+ "learning_rate": 6.928155339805826e-05,
1337
+ "loss": 0.1746,
1338
+ "step": 188
1339
+ },
1340
+ {
1341
+ "epoch": 1.7436878347360367,
1342
+ "grad_norm": 2.2282567024230957,
1343
+ "learning_rate": 6.920388349514564e-05,
1344
+ "loss": 0.1135,
1345
+ "step": 189
1346
+ },
1347
+ {
1348
+ "epoch": 1.752869166029074,
1349
+ "grad_norm": 5.455937385559082,
1350
+ "learning_rate": 6.912621359223301e-05,
1351
+ "loss": 0.1732,
1352
+ "step": 190
1353
+ },
1354
+ {
1355
+ "epoch": 1.7620504973221118,
1356
+ "grad_norm": 0.47254684567451477,
1357
+ "learning_rate": 6.904854368932039e-05,
1358
+ "loss": 0.0638,
1359
+ "step": 191
1360
+ },
1361
+ {
1362
+ "epoch": 1.7712318286151492,
1363
+ "grad_norm": 4.533415794372559,
1364
+ "learning_rate": 6.897087378640777e-05,
1365
+ "loss": 0.1359,
1366
+ "step": 192
1367
+ },
1368
+ {
1369
+ "epoch": 1.7804131599081867,
1370
+ "grad_norm": 4.171918869018555,
1371
+ "learning_rate": 6.889320388349515e-05,
1372
+ "loss": 0.1789,
1373
+ "step": 193
1374
+ },
1375
+ {
1376
+ "epoch": 1.7895944912012243,
1377
+ "grad_norm": 1.2905219793319702,
1378
+ "learning_rate": 6.881553398058253e-05,
1379
+ "loss": 0.106,
1380
+ "step": 194
1381
+ },
1382
+ {
1383
+ "epoch": 1.7987758224942616,
1384
+ "grad_norm": 3.7419819831848145,
1385
+ "learning_rate": 6.87378640776699e-05,
1386
+ "loss": 0.1841,
1387
+ "step": 195
1388
+ },
1389
+ {
1390
+ "epoch": 1.8079571537872992,
1391
+ "grad_norm": 1.2136999368667603,
1392
+ "learning_rate": 6.866019417475728e-05,
1393
+ "loss": 0.2237,
1394
+ "step": 196
1395
+ },
1396
+ {
1397
+ "epoch": 1.8171384850803367,
1398
+ "grad_norm": 7.152533054351807,
1399
+ "learning_rate": 6.858252427184466e-05,
1400
+ "loss": 0.1932,
1401
+ "step": 197
1402
+ },
1403
+ {
1404
+ "epoch": 1.826319816373374,
1405
+ "grad_norm": 2.728862762451172,
1406
+ "learning_rate": 6.850485436893205e-05,
1407
+ "loss": 0.1334,
1408
+ "step": 198
1409
+ },
1410
+ {
1411
+ "epoch": 1.8355011476664116,
1412
+ "grad_norm": 3.7387137413024902,
1413
+ "learning_rate": 6.842718446601942e-05,
1414
+ "loss": 0.1162,
1415
+ "step": 199
1416
+ },
1417
+ {
1418
+ "epoch": 1.8446824789594491,
1419
+ "grad_norm": 12.378439903259277,
1420
+ "learning_rate": 6.83495145631068e-05,
1421
+ "loss": 0.2475,
1422
+ "step": 200
1423
+ },
1424
+ {
1425
+ "epoch": 1.8538638102524865,
1426
+ "grad_norm": 9.43696117401123,
1427
+ "learning_rate": 6.827184466019418e-05,
1428
+ "loss": 0.2245,
1429
+ "step": 201
1430
+ },
1431
+ {
1432
+ "epoch": 1.8630451415455243,
1433
+ "grad_norm": 4.621775150299072,
1434
+ "learning_rate": 6.819417475728155e-05,
1435
+ "loss": 0.2045,
1436
+ "step": 202
1437
+ },
1438
+ {
1439
+ "epoch": 1.8722264728385616,
1440
+ "grad_norm": 1.540561556816101,
1441
+ "learning_rate": 6.811650485436895e-05,
1442
+ "loss": 0.1482,
1443
+ "step": 203
1444
+ },
1445
+ {
1446
+ "epoch": 1.881407804131599,
1447
+ "grad_norm": 4.498322486877441,
1448
+ "learning_rate": 6.803883495145631e-05,
1449
+ "loss": 0.1429,
1450
+ "step": 204
1451
+ },
1452
+ {
1453
+ "epoch": 1.8905891354246367,
1454
+ "grad_norm": 6.860545635223389,
1455
+ "learning_rate": 6.796116504854369e-05,
1456
+ "loss": 0.1596,
1457
+ "step": 205
1458
+ },
1459
+ {
1460
+ "epoch": 1.899770466717674,
1461
+ "grad_norm": 8.260428428649902,
1462
+ "learning_rate": 6.788349514563108e-05,
1463
+ "loss": 0.2822,
1464
+ "step": 206
1465
+ },
1466
+ {
1467
+ "epoch": 1.9089517980107116,
1468
+ "grad_norm": 6.668671131134033,
1469
+ "learning_rate": 6.780582524271845e-05,
1470
+ "loss": 0.1973,
1471
+ "step": 207
1472
+ },
1473
+ {
1474
+ "epoch": 1.9181331293037491,
1475
+ "grad_norm": 11.608624458312988,
1476
+ "learning_rate": 6.772815533980584e-05,
1477
+ "loss": 0.2332,
1478
+ "step": 208
1479
+ },
1480
+ {
1481
+ "epoch": 1.9273144605967865,
1482
+ "grad_norm": 11.323212623596191,
1483
+ "learning_rate": 6.765048543689322e-05,
1484
+ "loss": 0.2673,
1485
+ "step": 209
1486
+ },
1487
+ {
1488
+ "epoch": 1.936495791889824,
1489
+ "grad_norm": 5.56716251373291,
1490
+ "learning_rate": 6.757281553398058e-05,
1491
+ "loss": 0.1534,
1492
+ "step": 210
1493
+ },
1494
+ {
1495
+ "epoch": 1.9456771231828616,
1496
+ "grad_norm": 6.198103427886963,
1497
+ "learning_rate": 6.749514563106797e-05,
1498
+ "loss": 0.1942,
1499
+ "step": 211
1500
+ },
1501
+ {
1502
+ "epoch": 1.954858454475899,
1503
+ "grad_norm": 11.602874755859375,
1504
+ "learning_rate": 6.741747572815535e-05,
1505
+ "loss": 0.3923,
1506
+ "step": 212
1507
+ },
1508
+ {
1509
+ "epoch": 1.9640397857689365,
1510
+ "grad_norm": 5.811249732971191,
1511
+ "learning_rate": 6.733980582524273e-05,
1512
+ "loss": 0.1713,
1513
+ "step": 213
1514
+ },
1515
+ {
1516
+ "epoch": 1.973221117061974,
1517
+ "grad_norm": 3.160172939300537,
1518
+ "learning_rate": 6.726213592233011e-05,
1519
+ "loss": 0.1842,
1520
+ "step": 214
1521
+ },
1522
+ {
1523
+ "epoch": 1.9824024483550113,
1524
+ "grad_norm": 2.6661157608032227,
1525
+ "learning_rate": 6.718446601941747e-05,
1526
+ "loss": 0.0927,
1527
+ "step": 215
1528
+ },
1529
+ {
1530
+ "epoch": 1.9915837796480491,
1531
+ "grad_norm": 4.784310340881348,
1532
+ "learning_rate": 6.710679611650486e-05,
1533
+ "loss": 0.154,
1534
+ "step": 216
1535
+ },
1536
+ {
1537
+ "epoch": 1.9915837796480491,
1538
+ "eval_accuracy": 0.9050827500490612,
1539
+ "eval_f1": 0.9014792507188234,
1540
+ "eval_loss": 0.22774121165275574,
1541
+ "eval_precision": 0.9091323916022818,
1542
+ "eval_recall": 0.9050827500490612,
1543
+ "eval_runtime": 561.2992,
1544
+ "eval_samples_per_second": 0.777,
1545
+ "eval_steps_per_second": 0.26,
1546
+ "step": 216
1547
+ },
1548
+ {
1549
+ "epoch": 2.0091813312930373,
1550
+ "grad_norm": 12.426811218261719,
1551
+ "learning_rate": 6.702912621359224e-05,
1552
+ "loss": 0.2314,
1553
+ "step": 217
1554
+ },
1555
+ {
1556
+ "epoch": 2.018362662586075,
1557
+ "grad_norm": 6.702073574066162,
1558
+ "learning_rate": 6.695145631067962e-05,
1559
+ "loss": 0.1916,
1560
+ "step": 218
1561
+ },
1562
+ {
1563
+ "epoch": 2.0275439938791124,
1564
+ "grad_norm": 1.772987961769104,
1565
+ "learning_rate": 6.6873786407767e-05,
1566
+ "loss": 0.1,
1567
+ "step": 219
1568
+ },
1569
+ {
1570
+ "epoch": 2.0367253251721498,
1571
+ "grad_norm": 1.9078115224838257,
1572
+ "learning_rate": 6.679611650485438e-05,
1573
+ "loss": 0.0551,
1574
+ "step": 220
1575
+ },
1576
+ {
1577
+ "epoch": 2.0459066564651875,
1578
+ "grad_norm": 4.49519681930542,
1579
+ "learning_rate": 6.671844660194176e-05,
1580
+ "loss": 0.1248,
1581
+ "step": 221
1582
+ },
1583
+ {
1584
+ "epoch": 2.055087987758225,
1585
+ "grad_norm": 4.279708385467529,
1586
+ "learning_rate": 6.664077669902913e-05,
1587
+ "loss": 0.2048,
1588
+ "step": 222
1589
+ },
1590
+ {
1591
+ "epoch": 2.064269319051262,
1592
+ "grad_norm": 8.646759986877441,
1593
+ "learning_rate": 6.656310679611651e-05,
1594
+ "loss": 0.1657,
1595
+ "step": 223
1596
+ },
1597
+ {
1598
+ "epoch": 2.0734506503443,
1599
+ "grad_norm": 3.191837787628174,
1600
+ "learning_rate": 6.648543689320389e-05,
1601
+ "loss": 0.0959,
1602
+ "step": 224
1603
+ },
1604
+ {
1605
+ "epoch": 2.0826319816373373,
1606
+ "grad_norm": 1.0510034561157227,
1607
+ "learning_rate": 6.640776699029127e-05,
1608
+ "loss": 0.1246,
1609
+ "step": 225
1610
+ },
1611
+ {
1612
+ "epoch": 2.091813312930375,
1613
+ "grad_norm": 3.2862191200256348,
1614
+ "learning_rate": 6.633009708737865e-05,
1615
+ "loss": 0.1117,
1616
+ "step": 226
1617
+ },
1618
+ {
1619
+ "epoch": 2.1009946442234124,
1620
+ "grad_norm": 1.8008004426956177,
1621
+ "learning_rate": 6.625242718446603e-05,
1622
+ "loss": 0.0847,
1623
+ "step": 227
1624
+ },
1625
+ {
1626
+ "epoch": 2.1101759755164498,
1627
+ "grad_norm": 1.57539701461792,
1628
+ "learning_rate": 6.61747572815534e-05,
1629
+ "loss": 0.0889,
1630
+ "step": 228
1631
+ },
1632
+ {
1633
+ "epoch": 2.1193573068094875,
1634
+ "grad_norm": 1.594812273979187,
1635
+ "learning_rate": 6.609708737864078e-05,
1636
+ "loss": 0.1377,
1637
+ "step": 229
1638
+ },
1639
+ {
1640
+ "epoch": 2.128538638102525,
1641
+ "grad_norm": 2.533773422241211,
1642
+ "learning_rate": 6.601941747572816e-05,
1643
+ "loss": 0.1768,
1644
+ "step": 230
1645
+ },
1646
+ {
1647
+ "epoch": 2.137719969395562,
1648
+ "grad_norm": 1.1365606784820557,
1649
+ "learning_rate": 6.594174757281554e-05,
1650
+ "loss": 0.1178,
1651
+ "step": 231
1652
+ },
1653
+ {
1654
+ "epoch": 2.1469013006886,
1655
+ "grad_norm": 1.2104405164718628,
1656
+ "learning_rate": 6.586407766990292e-05,
1657
+ "loss": 0.1393,
1658
+ "step": 232
1659
+ },
1660
+ {
1661
+ "epoch": 2.1560826319816373,
1662
+ "grad_norm": 5.524767875671387,
1663
+ "learning_rate": 6.57864077669903e-05,
1664
+ "loss": 0.118,
1665
+ "step": 233
1666
+ },
1667
+ {
1668
+ "epoch": 2.1652639632746746,
1669
+ "grad_norm": 8.30424690246582,
1670
+ "learning_rate": 6.570873786407767e-05,
1671
+ "loss": 0.1685,
1672
+ "step": 234
1673
+ },
1674
+ {
1675
+ "epoch": 2.1744452945677124,
1676
+ "grad_norm": 1.727792739868164,
1677
+ "learning_rate": 6.563106796116505e-05,
1678
+ "loss": 0.1459,
1679
+ "step": 235
1680
+ },
1681
+ {
1682
+ "epoch": 2.1836266258607497,
1683
+ "grad_norm": 2.1502935886383057,
1684
+ "learning_rate": 6.555339805825243e-05,
1685
+ "loss": 0.1337,
1686
+ "step": 236
1687
+ },
1688
+ {
1689
+ "epoch": 2.1928079571537875,
1690
+ "grad_norm": 3.373387575149536,
1691
+ "learning_rate": 6.547572815533981e-05,
1692
+ "loss": 0.1678,
1693
+ "step": 237
1694
+ },
1695
+ {
1696
+ "epoch": 2.201989288446825,
1697
+ "grad_norm": 2.110732316970825,
1698
+ "learning_rate": 6.539805825242719e-05,
1699
+ "loss": 0.1042,
1700
+ "step": 238
1701
+ },
1702
+ {
1703
+ "epoch": 2.211170619739862,
1704
+ "grad_norm": 4.426796913146973,
1705
+ "learning_rate": 6.532038834951457e-05,
1706
+ "loss": 0.1277,
1707
+ "step": 239
1708
+ },
1709
+ {
1710
+ "epoch": 2.2203519510329,
1711
+ "grad_norm": 1.2144477367401123,
1712
+ "learning_rate": 6.524271844660194e-05,
1713
+ "loss": 0.118,
1714
+ "step": 240
1715
+ },
1716
+ {
1717
+ "epoch": 2.2295332823259373,
1718
+ "grad_norm": 1.9452412128448486,
1719
+ "learning_rate": 6.516504854368932e-05,
1720
+ "loss": 0.1154,
1721
+ "step": 241
1722
+ },
1723
+ {
1724
+ "epoch": 2.2387146136189746,
1725
+ "grad_norm": 12.655385971069336,
1726
+ "learning_rate": 6.50873786407767e-05,
1727
+ "loss": 0.2401,
1728
+ "step": 242
1729
+ },
1730
+ {
1731
+ "epoch": 2.2478959449120124,
1732
+ "grad_norm": 2.63765287399292,
1733
+ "learning_rate": 6.500970873786408e-05,
1734
+ "loss": 0.2053,
1735
+ "step": 243
1736
+ },
1737
+ {
1738
+ "epoch": 2.2570772762050497,
1739
+ "grad_norm": 6.803952693939209,
1740
+ "learning_rate": 6.493203883495146e-05,
1741
+ "loss": 0.2351,
1742
+ "step": 244
1743
+ },
1744
+ {
1745
+ "epoch": 2.266258607498087,
1746
+ "grad_norm": 7.283384799957275,
1747
+ "learning_rate": 6.485436893203884e-05,
1748
+ "loss": 0.174,
1749
+ "step": 245
1750
+ },
1751
+ {
1752
+ "epoch": 2.275439938791125,
1753
+ "grad_norm": 13.326482772827148,
1754
+ "learning_rate": 6.477669902912623e-05,
1755
+ "loss": 0.2543,
1756
+ "step": 246
1757
+ },
1758
+ {
1759
+ "epoch": 2.284621270084162,
1760
+ "grad_norm": 7.439101696014404,
1761
+ "learning_rate": 6.469902912621359e-05,
1762
+ "loss": 0.176,
1763
+ "step": 247
1764
+ },
1765
+ {
1766
+ "epoch": 2.2938026013772,
1767
+ "grad_norm": 7.01845645904541,
1768
+ "learning_rate": 6.462135922330097e-05,
1769
+ "loss": 0.1459,
1770
+ "step": 248
1771
+ },
1772
+ {
1773
+ "epoch": 2.3029839326702373,
1774
+ "grad_norm": 14.057689666748047,
1775
+ "learning_rate": 6.454368932038836e-05,
1776
+ "loss": 0.2799,
1777
+ "step": 249
1778
+ },
1779
+ {
1780
+ "epoch": 2.3121652639632746,
1781
+ "grad_norm": 4.4992170333862305,
1782
+ "learning_rate": 6.446601941747573e-05,
1783
+ "loss": 0.1649,
1784
+ "step": 250
1785
+ },
1786
+ {
1787
+ "epoch": 2.321346595256312,
1788
+ "grad_norm": 2.0936172008514404,
1789
+ "learning_rate": 6.438834951456312e-05,
1790
+ "loss": 0.0893,
1791
+ "step": 251
1792
+ },
1793
+ {
1794
+ "epoch": 2.3305279265493497,
1795
+ "grad_norm": 5.106953144073486,
1796
+ "learning_rate": 6.43106796116505e-05,
1797
+ "loss": 0.1851,
1798
+ "step": 252
1799
+ },
1800
+ {
1801
+ "epoch": 2.339709257842387,
1802
+ "grad_norm": 7.175722599029541,
1803
+ "learning_rate": 6.423300970873786e-05,
1804
+ "loss": 0.1231,
1805
+ "step": 253
1806
+ },
1807
+ {
1808
+ "epoch": 2.348890589135425,
1809
+ "grad_norm": 6.676218509674072,
1810
+ "learning_rate": 6.415533980582525e-05,
1811
+ "loss": 0.1704,
1812
+ "step": 254
1813
+ },
1814
+ {
1815
+ "epoch": 2.358071920428462,
1816
+ "grad_norm": 2.071829319000244,
1817
+ "learning_rate": 6.407766990291262e-05,
1818
+ "loss": 0.1279,
1819
+ "step": 255
1820
+ },
1821
+ {
1822
+ "epoch": 2.3672532517214995,
1823
+ "grad_norm": 1.5996495485305786,
1824
+ "learning_rate": 6.400000000000001e-05,
1825
+ "loss": 0.1236,
1826
+ "step": 256
1827
+ },
1828
+ {
1829
+ "epoch": 2.3764345830145372,
1830
+ "grad_norm": 1.9917131662368774,
1831
+ "learning_rate": 6.392233009708739e-05,
1832
+ "loss": 0.1759,
1833
+ "step": 257
1834
+ },
1835
+ {
1836
+ "epoch": 2.3856159143075746,
1837
+ "grad_norm": 5.381405353546143,
1838
+ "learning_rate": 6.384466019417475e-05,
1839
+ "loss": 0.1568,
1840
+ "step": 258
1841
+ },
1842
+ {
1843
+ "epoch": 2.394797245600612,
1844
+ "grad_norm": 3.9761393070220947,
1845
+ "learning_rate": 6.376699029126215e-05,
1846
+ "loss": 0.1992,
1847
+ "step": 259
1848
+ },
1849
+ {
1850
+ "epoch": 2.4039785768936497,
1851
+ "grad_norm": 0.8919557929039001,
1852
+ "learning_rate": 6.368932038834952e-05,
1853
+ "loss": 0.0849,
1854
+ "step": 260
1855
+ },
1856
+ {
1857
+ "epoch": 2.413159908186687,
1858
+ "grad_norm": 2.24381422996521,
1859
+ "learning_rate": 6.36116504854369e-05,
1860
+ "loss": 0.1445,
1861
+ "step": 261
1862
+ },
1863
+ {
1864
+ "epoch": 2.4223412394797244,
1865
+ "grad_norm": 6.57239294052124,
1866
+ "learning_rate": 6.353398058252428e-05,
1867
+ "loss": 0.1563,
1868
+ "step": 262
1869
+ },
1870
+ {
1871
+ "epoch": 2.431522570772762,
1872
+ "grad_norm": 2.5124711990356445,
1873
+ "learning_rate": 6.345631067961166e-05,
1874
+ "loss": 0.1355,
1875
+ "step": 263
1876
+ },
1877
+ {
1878
+ "epoch": 2.4407039020657995,
1879
+ "grad_norm": 1.1540809869766235,
1880
+ "learning_rate": 6.337864077669904e-05,
1881
+ "loss": 0.0673,
1882
+ "step": 264
1883
+ },
1884
+ {
1885
+ "epoch": 2.4498852333588372,
1886
+ "grad_norm": 6.033145904541016,
1887
+ "learning_rate": 6.330097087378642e-05,
1888
+ "loss": 0.1489,
1889
+ "step": 265
1890
+ },
1891
+ {
1892
+ "epoch": 2.4590665646518746,
1893
+ "grad_norm": 6.7655720710754395,
1894
+ "learning_rate": 6.32233009708738e-05,
1895
+ "loss": 0.1339,
1896
+ "step": 266
1897
+ },
1898
+ {
1899
+ "epoch": 2.468247895944912,
1900
+ "grad_norm": 9.79343318939209,
1901
+ "learning_rate": 6.314563106796117e-05,
1902
+ "loss": 0.2497,
1903
+ "step": 267
1904
+ },
1905
+ {
1906
+ "epoch": 2.4774292272379497,
1907
+ "grad_norm": 7.736825942993164,
1908
+ "learning_rate": 6.306796116504855e-05,
1909
+ "loss": 0.1715,
1910
+ "step": 268
1911
+ },
1912
+ {
1913
+ "epoch": 2.486610558530987,
1914
+ "grad_norm": 3.434694766998291,
1915
+ "learning_rate": 6.299029126213593e-05,
1916
+ "loss": 0.1486,
1917
+ "step": 269
1918
+ },
1919
+ {
1920
+ "epoch": 2.4957918898240243,
1921
+ "grad_norm": 3.900222063064575,
1922
+ "learning_rate": 6.291262135922331e-05,
1923
+ "loss": 0.1122,
1924
+ "step": 270
1925
+ },
1926
+ {
1927
+ "epoch": 2.504973221117062,
1928
+ "grad_norm": 12.828133583068848,
1929
+ "learning_rate": 6.283495145631069e-05,
1930
+ "loss": 0.2259,
1931
+ "step": 271
1932
+ },
1933
+ {
1934
+ "epoch": 2.5141545524100994,
1935
+ "grad_norm": 10.627608299255371,
1936
+ "learning_rate": 6.275728155339806e-05,
1937
+ "loss": 0.1999,
1938
+ "step": 272
1939
+ },
1940
+ {
1941
+ "epoch": 2.5233358837031368,
1942
+ "grad_norm": 16.834436416625977,
1943
+ "learning_rate": 6.267961165048544e-05,
1944
+ "loss": 0.3253,
1945
+ "step": 273
1946
+ },
1947
+ {
1948
+ "epoch": 2.5325172149961745,
1949
+ "grad_norm": 2.1308655738830566,
1950
+ "learning_rate": 6.260194174757282e-05,
1951
+ "loss": 0.1314,
1952
+ "step": 274
1953
+ },
1954
+ {
1955
+ "epoch": 2.541698546289212,
1956
+ "grad_norm": 1.5134785175323486,
1957
+ "learning_rate": 6.25242718446602e-05,
1958
+ "loss": 0.1103,
1959
+ "step": 275
1960
+ },
1961
+ {
1962
+ "epoch": 2.5508798775822497,
1963
+ "grad_norm": 3.5940332412719727,
1964
+ "learning_rate": 6.244660194174758e-05,
1965
+ "loss": 0.1003,
1966
+ "step": 276
1967
+ },
1968
+ {
1969
+ "epoch": 2.560061208875287,
1970
+ "grad_norm": 6.979219436645508,
1971
+ "learning_rate": 6.236893203883496e-05,
1972
+ "loss": 0.1313,
1973
+ "step": 277
1974
+ },
1975
+ {
1976
+ "epoch": 2.5692425401683243,
1977
+ "grad_norm": 8.25480842590332,
1978
+ "learning_rate": 6.229126213592233e-05,
1979
+ "loss": 0.1561,
1980
+ "step": 278
1981
+ },
1982
+ {
1983
+ "epoch": 2.5784238714613616,
1984
+ "grad_norm": 6.720675945281982,
1985
+ "learning_rate": 6.221359223300971e-05,
1986
+ "loss": 0.1754,
1987
+ "step": 279
1988
+ },
1989
+ {
1990
+ "epoch": 2.5876052027543994,
1991
+ "grad_norm": 4.967082977294922,
1992
+ "learning_rate": 6.213592233009709e-05,
1993
+ "loss": 0.1182,
1994
+ "step": 280
1995
+ },
1996
+ {
1997
+ "epoch": 2.5967865340474368,
1998
+ "grad_norm": 1.7140722274780273,
1999
+ "learning_rate": 6.205825242718447e-05,
2000
+ "loss": 0.0575,
2001
+ "step": 281
2002
+ },
2003
+ {
2004
+ "epoch": 2.6059678653404745,
2005
+ "grad_norm": 2.0249862670898438,
2006
+ "learning_rate": 6.198058252427185e-05,
2007
+ "loss": 0.1049,
2008
+ "step": 282
2009
+ },
2010
+ {
2011
+ "epoch": 2.615149196633512,
2012
+ "grad_norm": 1.6753244400024414,
2013
+ "learning_rate": 6.190291262135923e-05,
2014
+ "loss": 0.0916,
2015
+ "step": 283
2016
+ },
2017
+ {
2018
+ "epoch": 2.624330527926549,
2019
+ "grad_norm": 8.853781700134277,
2020
+ "learning_rate": 6.18252427184466e-05,
2021
+ "loss": 0.2011,
2022
+ "step": 284
2023
+ },
2024
+ {
2025
+ "epoch": 2.633511859219587,
2026
+ "grad_norm": 3.1362016201019287,
2027
+ "learning_rate": 6.174757281553398e-05,
2028
+ "loss": 0.1899,
2029
+ "step": 285
2030
+ },
2031
+ {
2032
+ "epoch": 2.6426931905126243,
2033
+ "grad_norm": 1.5754300355911255,
2034
+ "learning_rate": 6.166990291262136e-05,
2035
+ "loss": 0.1146,
2036
+ "step": 286
2037
+ },
2038
+ {
2039
+ "epoch": 2.651874521805662,
2040
+ "grad_norm": 2.3113532066345215,
2041
+ "learning_rate": 6.159223300970874e-05,
2042
+ "loss": 0.1402,
2043
+ "step": 287
2044
+ },
2045
+ {
2046
+ "epoch": 2.6610558530986994,
2047
+ "grad_norm": 1.7966506481170654,
2048
+ "learning_rate": 6.151456310679612e-05,
2049
+ "loss": 0.125,
2050
+ "step": 288
2051
+ },
2052
+ {
2053
+ "epoch": 2.6702371843917367,
2054
+ "grad_norm": 2.716322660446167,
2055
+ "learning_rate": 6.143689320388351e-05,
2056
+ "loss": 0.0817,
2057
+ "step": 289
2058
+ },
2059
+ {
2060
+ "epoch": 2.679418515684774,
2061
+ "grad_norm": 1.5990475416183472,
2062
+ "learning_rate": 6.135922330097087e-05,
2063
+ "loss": 0.1154,
2064
+ "step": 290
2065
+ },
2066
+ {
2067
+ "epoch": 2.688599846977812,
2068
+ "grad_norm": 4.195791244506836,
2069
+ "learning_rate": 6.128155339805825e-05,
2070
+ "loss": 0.1407,
2071
+ "step": 291
2072
+ },
2073
+ {
2074
+ "epoch": 2.697781178270849,
2075
+ "grad_norm": 0.7967016100883484,
2076
+ "learning_rate": 6.120388349514563e-05,
2077
+ "loss": 0.0653,
2078
+ "step": 292
2079
+ },
2080
+ {
2081
+ "epoch": 2.706962509563887,
2082
+ "grad_norm": 5.1752705574035645,
2083
+ "learning_rate": 6.112621359223301e-05,
2084
+ "loss": 0.1527,
2085
+ "step": 293
2086
+ },
2087
+ {
2088
+ "epoch": 2.7161438408569243,
2089
+ "grad_norm": 1.7665544748306274,
2090
+ "learning_rate": 6.10485436893204e-05,
2091
+ "loss": 0.1012,
2092
+ "step": 294
2093
+ },
2094
+ {
2095
+ "epoch": 2.7253251721499616,
2096
+ "grad_norm": 2.0656161308288574,
2097
+ "learning_rate": 6.097087378640777e-05,
2098
+ "loss": 0.1457,
2099
+ "step": 295
2100
+ },
2101
+ {
2102
+ "epoch": 2.7345065034429994,
2103
+ "grad_norm": 4.935664653778076,
2104
+ "learning_rate": 6.0893203883495144e-05,
2105
+ "loss": 0.1315,
2106
+ "step": 296
2107
+ },
2108
+ {
2109
+ "epoch": 2.7436878347360367,
2110
+ "grad_norm": 1.627395749092102,
2111
+ "learning_rate": 6.081553398058253e-05,
2112
+ "loss": 0.1355,
2113
+ "step": 297
2114
+ },
2115
+ {
2116
+ "epoch": 2.752869166029074,
2117
+ "grad_norm": 3.8459205627441406,
2118
+ "learning_rate": 6.073786407766991e-05,
2119
+ "loss": 0.2011,
2120
+ "step": 298
2121
+ },
2122
+ {
2123
+ "epoch": 2.762050497322112,
2124
+ "grad_norm": 4.232700824737549,
2125
+ "learning_rate": 6.066019417475729e-05,
2126
+ "loss": 0.1649,
2127
+ "step": 299
2128
+ },
2129
+ {
2130
+ "epoch": 2.771231828615149,
2131
+ "grad_norm": 5.129014015197754,
2132
+ "learning_rate": 6.0582524271844664e-05,
2133
+ "loss": 0.1361,
2134
+ "step": 300
2135
+ },
2136
+ {
2137
+ "epoch": 2.7804131599081865,
2138
+ "grad_norm": 6.985952377319336,
2139
+ "learning_rate": 6.050485436893204e-05,
2140
+ "loss": 0.1778,
2141
+ "step": 301
2142
+ },
2143
+ {
2144
+ "epoch": 2.7895944912012243,
2145
+ "grad_norm": 2.8995680809020996,
2146
+ "learning_rate": 6.042718446601942e-05,
2147
+ "loss": 0.1491,
2148
+ "step": 302
2149
+ },
2150
+ {
2151
+ "epoch": 2.7987758224942616,
2152
+ "grad_norm": 1.2669416666030884,
2153
+ "learning_rate": 6.03495145631068e-05,
2154
+ "loss": 0.1622,
2155
+ "step": 303
2156
+ },
2157
+ {
2158
+ "epoch": 2.8079571537872994,
2159
+ "grad_norm": 2.3980252742767334,
2160
+ "learning_rate": 6.0271844660194184e-05,
2161
+ "loss": 0.152,
2162
+ "step": 304
2163
+ },
2164
+ {
2165
+ "epoch": 2.8171384850803367,
2166
+ "grad_norm": 4.644019603729248,
2167
+ "learning_rate": 6.0194174757281556e-05,
2168
+ "loss": 0.1409,
2169
+ "step": 305
2170
+ },
2171
+ {
2172
+ "epoch": 2.826319816373374,
2173
+ "grad_norm": 3.2959303855895996,
2174
+ "learning_rate": 6.0116504854368934e-05,
2175
+ "loss": 0.1034,
2176
+ "step": 306
2177
+ },
2178
+ {
2179
+ "epoch": 2.8355011476664114,
2180
+ "grad_norm": 1.6618324518203735,
2181
+ "learning_rate": 6.003883495145632e-05,
2182
+ "loss": 0.1238,
2183
+ "step": 307
2184
+ },
2185
+ {
2186
+ "epoch": 2.844682478959449,
2187
+ "grad_norm": 3.8780570030212402,
2188
+ "learning_rate": 5.996116504854369e-05,
2189
+ "loss": 0.1313,
2190
+ "step": 308
2191
+ },
2192
+ {
2193
+ "epoch": 2.8538638102524865,
2194
+ "grad_norm": 6.453547477722168,
2195
+ "learning_rate": 5.9883495145631076e-05,
2196
+ "loss": 0.318,
2197
+ "step": 309
2198
+ },
2199
+ {
2200
+ "epoch": 2.8630451415455243,
2201
+ "grad_norm": 1.3299896717071533,
2202
+ "learning_rate": 5.9805825242718454e-05,
2203
+ "loss": 0.093,
2204
+ "step": 310
2205
+ },
2206
+ {
2207
+ "epoch": 2.8722264728385616,
2208
+ "grad_norm": 1.302569031715393,
2209
+ "learning_rate": 5.9728155339805826e-05,
2210
+ "loss": 0.1229,
2211
+ "step": 311
2212
+ },
2213
+ {
2214
+ "epoch": 2.881407804131599,
2215
+ "grad_norm": 10.355851173400879,
2216
+ "learning_rate": 5.965048543689321e-05,
2217
+ "loss": 0.286,
2218
+ "step": 312
2219
+ },
2220
+ {
2221
+ "epoch": 2.8905891354246367,
2222
+ "grad_norm": 4.368663787841797,
2223
+ "learning_rate": 5.957281553398059e-05,
2224
+ "loss": 0.1178,
2225
+ "step": 313
2226
+ },
2227
+ {
2228
+ "epoch": 2.899770466717674,
2229
+ "grad_norm": 2.1608636379241943,
2230
+ "learning_rate": 5.949514563106797e-05,
2231
+ "loss": 0.2178,
2232
+ "step": 314
2233
+ },
2234
+ {
2235
+ "epoch": 2.908951798010712,
2236
+ "grad_norm": 3.8197309970855713,
2237
+ "learning_rate": 5.9417475728155346e-05,
2238
+ "loss": 0.1092,
2239
+ "step": 315
2240
+ },
2241
+ {
2242
+ "epoch": 2.918133129303749,
2243
+ "grad_norm": 6.178925514221191,
2244
+ "learning_rate": 5.933980582524272e-05,
2245
+ "loss": 0.2616,
2246
+ "step": 316
2247
+ },
2248
+ {
2249
+ "epoch": 2.9273144605967865,
2250
+ "grad_norm": 2.3418936729431152,
2251
+ "learning_rate": 5.92621359223301e-05,
2252
+ "loss": 0.109,
2253
+ "step": 317
2254
+ },
2255
+ {
2256
+ "epoch": 2.936495791889824,
2257
+ "grad_norm": 4.3196797370910645,
2258
+ "learning_rate": 5.918446601941748e-05,
2259
+ "loss": 0.1486,
2260
+ "step": 318
2261
+ },
2262
+ {
2263
+ "epoch": 2.9456771231828616,
2264
+ "grad_norm": 6.756685256958008,
2265
+ "learning_rate": 5.9106796116504866e-05,
2266
+ "loss": 0.1483,
2267
+ "step": 319
2268
+ },
2269
+ {
2270
+ "epoch": 2.954858454475899,
2271
+ "grad_norm": 0.9817312359809875,
2272
+ "learning_rate": 5.902912621359224e-05,
2273
+ "loss": 0.0822,
2274
+ "step": 320
2275
+ },
2276
+ {
2277
+ "epoch": 2.9640397857689367,
2278
+ "grad_norm": 3.037675380706787,
2279
+ "learning_rate": 5.8951456310679616e-05,
2280
+ "loss": 0.2323,
2281
+ "step": 321
2282
+ },
2283
+ {
2284
+ "epoch": 2.973221117061974,
2285
+ "grad_norm": 4.884430885314941,
2286
+ "learning_rate": 5.8873786407766994e-05,
2287
+ "loss": 0.1378,
2288
+ "step": 322
2289
+ },
2290
+ {
2291
+ "epoch": 2.9824024483550113,
2292
+ "grad_norm": 2.0905649662017822,
2293
+ "learning_rate": 5.879611650485437e-05,
2294
+ "loss": 0.1022,
2295
+ "step": 323
2296
+ },
2297
+ {
2298
+ "epoch": 2.991583779648049,
2299
+ "grad_norm": 7.994306564331055,
2300
+ "learning_rate": 5.871844660194176e-05,
2301
+ "loss": 0.1962,
2302
+ "step": 324
2303
+ },
2304
+ {
2305
+ "epoch": 2.991583779648049,
2306
+ "eval_accuracy": 0.8972983580820305,
2307
+ "eval_f1": 0.8921994676924915,
2308
+ "eval_loss": 0.231644406914711,
2309
+ "eval_precision": 0.904801902603439,
2310
+ "eval_recall": 0.8972983580820305,
2311
+ "eval_runtime": 561.4331,
2312
+ "eval_samples_per_second": 0.777,
2313
+ "eval_steps_per_second": 0.26,
2314
+ "step": 324
2315
+ },
2316
+ {
2317
+ "epoch": 3.0091813312930373,
2318
+ "grad_norm": 11.816808700561523,
2319
+ "learning_rate": 5.864077669902913e-05,
2320
+ "loss": 0.2375,
2321
+ "step": 325
2322
+ },
2323
+ {
2324
+ "epoch": 3.018362662586075,
2325
+ "grad_norm": 10.497807502746582,
2326
+ "learning_rate": 5.856310679611651e-05,
2327
+ "loss": 0.2569,
2328
+ "step": 326
2329
+ },
2330
+ {
2331
+ "epoch": 3.0275439938791124,
2332
+ "grad_norm": 4.427268028259277,
2333
+ "learning_rate": 5.848543689320389e-05,
2334
+ "loss": 0.1062,
2335
+ "step": 327
2336
+ },
2337
+ {
2338
+ "epoch": 3.0367253251721498,
2339
+ "grad_norm": 1.6986368894577026,
2340
+ "learning_rate": 5.8407766990291264e-05,
2341
+ "loss": 0.1144,
2342
+ "step": 328
2343
+ },
2344
+ {
2345
+ "epoch": 3.0459066564651875,
2346
+ "grad_norm": 2.229740619659424,
2347
+ "learning_rate": 5.833009708737865e-05,
2348
+ "loss": 0.0723,
2349
+ "step": 329
2350
+ },
2351
+ {
2352
+ "epoch": 3.055087987758225,
2353
+ "grad_norm": 3.826308012008667,
2354
+ "learning_rate": 5.825242718446603e-05,
2355
+ "loss": 0.0627,
2356
+ "step": 330
2357
+ },
2358
+ {
2359
+ "epoch": 3.064269319051262,
2360
+ "grad_norm": 2.7594847679138184,
2361
+ "learning_rate": 5.81747572815534e-05,
2362
+ "loss": 0.0656,
2363
+ "step": 331
2364
+ },
2365
+ {
2366
+ "epoch": 3.0734506503443,
2367
+ "grad_norm": 1.9606109857559204,
2368
+ "learning_rate": 5.8097087378640784e-05,
2369
+ "loss": 0.1874,
2370
+ "step": 332
2371
+ },
2372
+ {
2373
+ "epoch": 3.0826319816373373,
2374
+ "grad_norm": 3.3824946880340576,
2375
+ "learning_rate": 5.801941747572816e-05,
2376
+ "loss": 0.1188,
2377
+ "step": 333
2378
+ },
2379
+ {
2380
+ "epoch": 3.091813312930375,
2381
+ "grad_norm": 1.460893154144287,
2382
+ "learning_rate": 5.7941747572815534e-05,
2383
+ "loss": 0.1061,
2384
+ "step": 334
2385
+ },
2386
+ {
2387
+ "epoch": 3.1009946442234124,
2388
+ "grad_norm": 2.075432777404785,
2389
+ "learning_rate": 5.786407766990292e-05,
2390
+ "loss": 0.0923,
2391
+ "step": 335
2392
+ },
2393
+ {
2394
+ "epoch": 3.1101759755164498,
2395
+ "grad_norm": 5.649753570556641,
2396
+ "learning_rate": 5.778640776699029e-05,
2397
+ "loss": 0.1006,
2398
+ "step": 336
2399
+ },
2400
+ {
2401
+ "epoch": 3.1193573068094875,
2402
+ "grad_norm": 18.169633865356445,
2403
+ "learning_rate": 5.7708737864077676e-05,
2404
+ "loss": 0.292,
2405
+ "step": 337
2406
+ },
2407
+ {
2408
+ "epoch": 3.128538638102525,
2409
+ "grad_norm": 16.068265914916992,
2410
+ "learning_rate": 5.7631067961165054e-05,
2411
+ "loss": 0.3346,
2412
+ "step": 338
2413
+ },
2414
+ {
2415
+ "epoch": 3.137719969395562,
2416
+ "grad_norm": 13.346495628356934,
2417
+ "learning_rate": 5.7553398058252426e-05,
2418
+ "loss": 0.1906,
2419
+ "step": 339
2420
+ },
2421
+ {
2422
+ "epoch": 3.1469013006886,
2423
+ "grad_norm": 10.037884712219238,
2424
+ "learning_rate": 5.747572815533981e-05,
2425
+ "loss": 0.2099,
2426
+ "step": 340
2427
+ },
2428
+ {
2429
+ "epoch": 3.1560826319816373,
2430
+ "grad_norm": 2.9600729942321777,
2431
+ "learning_rate": 5.739805825242719e-05,
2432
+ "loss": 0.1023,
2433
+ "step": 341
2434
+ },
2435
+ {
2436
+ "epoch": 3.1652639632746746,
2437
+ "grad_norm": 1.0348222255706787,
2438
+ "learning_rate": 5.732038834951457e-05,
2439
+ "loss": 0.0931,
2440
+ "step": 342
2441
+ },
2442
+ {
2443
+ "epoch": 3.1744452945677124,
2444
+ "grad_norm": 8.642838478088379,
2445
+ "learning_rate": 5.7242718446601946e-05,
2446
+ "loss": 0.123,
2447
+ "step": 343
2448
+ },
2449
+ {
2450
+ "epoch": 3.1836266258607497,
2451
+ "grad_norm": 11.493756294250488,
2452
+ "learning_rate": 5.7165048543689324e-05,
2453
+ "loss": 0.1901,
2454
+ "step": 344
2455
+ },
2456
+ {
2457
+ "epoch": 3.1928079571537875,
2458
+ "grad_norm": 11.06240177154541,
2459
+ "learning_rate": 5.70873786407767e-05,
2460
+ "loss": 0.1771,
2461
+ "step": 345
2462
+ },
2463
+ {
2464
+ "epoch": 3.201989288446825,
2465
+ "grad_norm": 5.993894100189209,
2466
+ "learning_rate": 5.700970873786408e-05,
2467
+ "loss": 0.1046,
2468
+ "step": 346
2469
+ },
2470
+ {
2471
+ "epoch": 3.211170619739862,
2472
+ "grad_norm": 2.802544593811035,
2473
+ "learning_rate": 5.6932038834951466e-05,
2474
+ "loss": 0.1192,
2475
+ "step": 347
2476
+ },
2477
+ {
2478
+ "epoch": 3.2203519510329,
2479
+ "grad_norm": 5.3355207443237305,
2480
+ "learning_rate": 5.685436893203884e-05,
2481
+ "loss": 0.189,
2482
+ "step": 348
2483
+ },
2484
+ {
2485
+ "epoch": 3.2295332823259373,
2486
+ "grad_norm": 3.367910861968994,
2487
+ "learning_rate": 5.6776699029126216e-05,
2488
+ "loss": 0.0784,
2489
+ "step": 349
2490
+ },
2491
+ {
2492
+ "epoch": 3.2387146136189746,
2493
+ "grad_norm": 6.183263778686523,
2494
+ "learning_rate": 5.66990291262136e-05,
2495
+ "loss": 0.1253,
2496
+ "step": 350
2497
+ },
2498
+ {
2499
+ "epoch": 3.2478959449120124,
2500
+ "grad_norm": 12.13405704498291,
2501
+ "learning_rate": 5.662135922330097e-05,
2502
+ "loss": 0.2566,
2503
+ "step": 351
2504
+ },
2505
+ {
2506
+ "epoch": 3.2570772762050497,
2507
+ "grad_norm": 11.834689140319824,
2508
+ "learning_rate": 5.654368932038836e-05,
2509
+ "loss": 0.315,
2510
+ "step": 352
2511
+ },
2512
+ {
2513
+ "epoch": 3.266258607498087,
2514
+ "grad_norm": 4.5801544189453125,
2515
+ "learning_rate": 5.6466019417475736e-05,
2516
+ "loss": 0.0874,
2517
+ "step": 353
2518
+ },
2519
+ {
2520
+ "epoch": 3.275439938791125,
2521
+ "grad_norm": 1.6705378293991089,
2522
+ "learning_rate": 5.638834951456311e-05,
2523
+ "loss": 0.0911,
2524
+ "step": 354
2525
+ },
2526
+ {
2527
+ "epoch": 3.284621270084162,
2528
+ "grad_norm": 4.142056465148926,
2529
+ "learning_rate": 5.631067961165049e-05,
2530
+ "loss": 0.1322,
2531
+ "step": 355
2532
+ },
2533
+ {
2534
+ "epoch": 3.2938026013772,
2535
+ "grad_norm": 1.12283456325531,
2536
+ "learning_rate": 5.6233009708737864e-05,
2537
+ "loss": 0.057,
2538
+ "step": 356
2539
+ },
2540
+ {
2541
+ "epoch": 3.3029839326702373,
2542
+ "grad_norm": 10.594808578491211,
2543
+ "learning_rate": 5.615533980582525e-05,
2544
+ "loss": 0.1825,
2545
+ "step": 357
2546
+ },
2547
+ {
2548
+ "epoch": 3.3121652639632746,
2549
+ "grad_norm": 3.5151584148406982,
2550
+ "learning_rate": 5.607766990291263e-05,
2551
+ "loss": 0.0965,
2552
+ "step": 358
2553
+ },
2554
+ {
2555
+ "epoch": 3.321346595256312,
2556
+ "grad_norm": 2.802433490753174,
2557
+ "learning_rate": 5.6e-05,
2558
+ "loss": 0.084,
2559
+ "step": 359
2560
+ },
2561
+ {
2562
+ "epoch": 3.3305279265493497,
2563
+ "grad_norm": 2.5436365604400635,
2564
+ "learning_rate": 5.5922330097087384e-05,
2565
+ "loss": 0.0815,
2566
+ "step": 360
2567
+ },
2568
+ {
2569
+ "epoch": 3.339709257842387,
2570
+ "grad_norm": 2.0077707767486572,
2571
+ "learning_rate": 5.584466019417476e-05,
2572
+ "loss": 0.1542,
2573
+ "step": 361
2574
+ },
2575
+ {
2576
+ "epoch": 3.348890589135425,
2577
+ "grad_norm": 2.7262840270996094,
2578
+ "learning_rate": 5.576699029126214e-05,
2579
+ "loss": 0.0921,
2580
+ "step": 362
2581
+ },
2582
+ {
2583
+ "epoch": 3.358071920428462,
2584
+ "grad_norm": 2.1265947818756104,
2585
+ "learning_rate": 5.568932038834952e-05,
2586
+ "loss": 0.1029,
2587
+ "step": 363
2588
+ },
2589
+ {
2590
+ "epoch": 3.3672532517214995,
2591
+ "grad_norm": 1.7628669738769531,
2592
+ "learning_rate": 5.56116504854369e-05,
2593
+ "loss": 0.0974,
2594
+ "step": 364
2595
+ },
2596
+ {
2597
+ "epoch": 3.3764345830145372,
2598
+ "grad_norm": 1.0990757942199707,
2599
+ "learning_rate": 5.5533980582524276e-05,
2600
+ "loss": 0.0861,
2601
+ "step": 365
2602
+ },
2603
+ {
2604
+ "epoch": 3.3856159143075746,
2605
+ "grad_norm": 1.1048486232757568,
2606
+ "learning_rate": 5.5456310679611654e-05,
2607
+ "loss": 0.089,
2608
+ "step": 366
2609
+ },
2610
+ {
2611
+ "epoch": 3.394797245600612,
2612
+ "grad_norm": 2.454878091812134,
2613
+ "learning_rate": 5.537864077669904e-05,
2614
+ "loss": 0.0782,
2615
+ "step": 367
2616
+ },
2617
+ {
2618
+ "epoch": 3.4039785768936497,
2619
+ "grad_norm": 1.806707739830017,
2620
+ "learning_rate": 5.530097087378641e-05,
2621
+ "loss": 0.1245,
2622
+ "step": 368
2623
+ },
2624
+ {
2625
+ "epoch": 3.413159908186687,
2626
+ "grad_norm": 2.4150118827819824,
2627
+ "learning_rate": 5.522330097087379e-05,
2628
+ "loss": 0.145,
2629
+ "step": 369
2630
+ },
2631
+ {
2632
+ "epoch": 3.4223412394797244,
2633
+ "grad_norm": 2.0227956771850586,
2634
+ "learning_rate": 5.5145631067961174e-05,
2635
+ "loss": 0.1037,
2636
+ "step": 370
2637
+ },
2638
+ {
2639
+ "epoch": 3.431522570772762,
2640
+ "grad_norm": 1.7558709383010864,
2641
+ "learning_rate": 5.5067961165048546e-05,
2642
+ "loss": 0.08,
2643
+ "step": 371
2644
+ },
2645
+ {
2646
+ "epoch": 3.4407039020657995,
2647
+ "grad_norm": 3.2594194412231445,
2648
+ "learning_rate": 5.499029126213593e-05,
2649
+ "loss": 0.1426,
2650
+ "step": 372
2651
+ },
2652
+ {
2653
+ "epoch": 3.4498852333588372,
2654
+ "grad_norm": 2.226043701171875,
2655
+ "learning_rate": 5.49126213592233e-05,
2656
+ "loss": 0.1461,
2657
+ "step": 373
2658
+ },
2659
+ {
2660
+ "epoch": 3.4590665646518746,
2661
+ "grad_norm": 2.1550614833831787,
2662
+ "learning_rate": 5.483495145631068e-05,
2663
+ "loss": 0.13,
2664
+ "step": 374
2665
+ },
2666
+ {
2667
+ "epoch": 3.468247895944912,
2668
+ "grad_norm": 3.8375067710876465,
2669
+ "learning_rate": 5.4757281553398066e-05,
2670
+ "loss": 0.0774,
2671
+ "step": 375
2672
+ },
2673
+ {
2674
+ "epoch": 3.4774292272379497,
2675
+ "grad_norm": 5.127914905548096,
2676
+ "learning_rate": 5.467961165048544e-05,
2677
+ "loss": 0.1568,
2678
+ "step": 376
2679
+ },
2680
+ {
2681
+ "epoch": 3.486610558530987,
2682
+ "grad_norm": 8.067404747009277,
2683
+ "learning_rate": 5.460194174757282e-05,
2684
+ "loss": 0.1486,
2685
+ "step": 377
2686
+ },
2687
+ {
2688
+ "epoch": 3.4957918898240243,
2689
+ "grad_norm": 8.768366813659668,
2690
+ "learning_rate": 5.45242718446602e-05,
2691
+ "loss": 0.162,
2692
+ "step": 378
2693
+ },
2694
+ {
2695
+ "epoch": 3.504973221117062,
2696
+ "grad_norm": 3.4869296550750732,
2697
+ "learning_rate": 5.444660194174757e-05,
2698
+ "loss": 0.0896,
2699
+ "step": 379
2700
+ },
2701
+ {
2702
+ "epoch": 3.5141545524100994,
2703
+ "grad_norm": 5.057526588439941,
2704
+ "learning_rate": 5.436893203883496e-05,
2705
+ "loss": 0.075,
2706
+ "step": 380
2707
+ },
2708
+ {
2709
+ "epoch": 3.5233358837031368,
2710
+ "grad_norm": 1.9346803426742554,
2711
+ "learning_rate": 5.4291262135922336e-05,
2712
+ "loss": 0.0633,
2713
+ "step": 381
2714
+ },
2715
+ {
2716
+ "epoch": 3.5325172149961745,
2717
+ "grad_norm": 5.125594139099121,
2718
+ "learning_rate": 5.4213592233009714e-05,
2719
+ "loss": 0.1359,
2720
+ "step": 382
2721
+ },
2722
+ {
2723
+ "epoch": 3.541698546289212,
2724
+ "grad_norm": 1.6084424257278442,
2725
+ "learning_rate": 5.413592233009709e-05,
2726
+ "loss": 0.0782,
2727
+ "step": 383
2728
+ },
2729
+ {
2730
+ "epoch": 3.5508798775822497,
2731
+ "grad_norm": 4.172159194946289,
2732
+ "learning_rate": 5.405825242718447e-05,
2733
+ "loss": 0.0721,
2734
+ "step": 384
2735
+ },
2736
+ {
2737
+ "epoch": 3.560061208875287,
2738
+ "grad_norm": 6.909543037414551,
2739
+ "learning_rate": 5.398058252427185e-05,
2740
+ "loss": 0.1649,
2741
+ "step": 385
2742
+ },
2743
+ {
2744
+ "epoch": 3.5692425401683243,
2745
+ "grad_norm": 18.236692428588867,
2746
+ "learning_rate": 5.390291262135923e-05,
2747
+ "loss": 0.2792,
2748
+ "step": 386
2749
+ },
2750
+ {
2751
+ "epoch": 3.5784238714613616,
2752
+ "grad_norm": 4.2037553787231445,
2753
+ "learning_rate": 5.38252427184466e-05,
2754
+ "loss": 0.0994,
2755
+ "step": 387
2756
+ },
2757
+ {
2758
+ "epoch": 3.5876052027543994,
2759
+ "grad_norm": 6.284234046936035,
2760
+ "learning_rate": 5.3747572815533984e-05,
2761
+ "loss": 0.1731,
2762
+ "step": 388
2763
+ },
2764
+ {
2765
+ "epoch": 3.5967865340474368,
2766
+ "grad_norm": 8.315103530883789,
2767
+ "learning_rate": 5.366990291262136e-05,
2768
+ "loss": 0.1321,
2769
+ "step": 389
2770
+ },
2771
+ {
2772
+ "epoch": 3.6059678653404745,
2773
+ "grad_norm": 3.0735182762145996,
2774
+ "learning_rate": 5.359223300970875e-05,
2775
+ "loss": 0.0742,
2776
+ "step": 390
2777
+ },
2778
+ {
2779
+ "epoch": 3.615149196633512,
2780
+ "grad_norm": 11.977006912231445,
2781
+ "learning_rate": 5.351456310679612e-05,
2782
+ "loss": 0.1941,
2783
+ "step": 391
2784
+ },
2785
+ {
2786
+ "epoch": 3.624330527926549,
2787
+ "grad_norm": 3.553605318069458,
2788
+ "learning_rate": 5.34368932038835e-05,
2789
+ "loss": 0.0568,
2790
+ "step": 392
2791
+ },
2792
+ {
2793
+ "epoch": 3.633511859219587,
2794
+ "grad_norm": 4.34632682800293,
2795
+ "learning_rate": 5.3359223300970876e-05,
2796
+ "loss": 0.104,
2797
+ "step": 393
2798
+ },
2799
+ {
2800
+ "epoch": 3.6426931905126243,
2801
+ "grad_norm": 0.9809619784355164,
2802
+ "learning_rate": 5.3281553398058254e-05,
2803
+ "loss": 0.0616,
2804
+ "step": 394
2805
+ },
2806
+ {
2807
+ "epoch": 3.651874521805662,
2808
+ "grad_norm": 1.7391934394836426,
2809
+ "learning_rate": 5.320388349514564e-05,
2810
+ "loss": 0.1093,
2811
+ "step": 395
2812
+ },
2813
+ {
2814
+ "epoch": 3.6610558530986994,
2815
+ "grad_norm": 2.6099939346313477,
2816
+ "learning_rate": 5.312621359223301e-05,
2817
+ "loss": 0.0673,
2818
+ "step": 396
2819
+ },
2820
+ {
2821
+ "epoch": 3.6702371843917367,
2822
+ "grad_norm": 11.217987060546875,
2823
+ "learning_rate": 5.304854368932039e-05,
2824
+ "loss": 0.222,
2825
+ "step": 397
2826
+ },
2827
+ {
2828
+ "epoch": 3.679418515684774,
2829
+ "grad_norm": 4.609348297119141,
2830
+ "learning_rate": 5.2970873786407774e-05,
2831
+ "loss": 0.1001,
2832
+ "step": 398
2833
+ },
2834
+ {
2835
+ "epoch": 3.688599846977812,
2836
+ "grad_norm": 5.73932409286499,
2837
+ "learning_rate": 5.2893203883495146e-05,
2838
+ "loss": 0.1031,
2839
+ "step": 399
2840
+ },
2841
+ {
2842
+ "epoch": 3.697781178270849,
2843
+ "grad_norm": 2.475478172302246,
2844
+ "learning_rate": 5.281553398058253e-05,
2845
+ "loss": 0.1331,
2846
+ "step": 400
2847
+ },
2848
+ {
2849
+ "epoch": 3.706962509563887,
2850
+ "grad_norm": 4.474978446960449,
2851
+ "learning_rate": 5.273786407766991e-05,
2852
+ "loss": 0.122,
2853
+ "step": 401
2854
+ },
2855
+ {
2856
+ "epoch": 3.7161438408569243,
2857
+ "grad_norm": 8.037405967712402,
2858
+ "learning_rate": 5.266019417475728e-05,
2859
+ "loss": 0.1684,
2860
+ "step": 402
2861
+ },
2862
+ {
2863
+ "epoch": 3.7253251721499616,
2864
+ "grad_norm": 2.1563665866851807,
2865
+ "learning_rate": 5.2582524271844666e-05,
2866
+ "loss": 0.0973,
2867
+ "step": 403
2868
+ },
2869
+ {
2870
+ "epoch": 3.7345065034429994,
2871
+ "grad_norm": 1.050614833831787,
2872
+ "learning_rate": 5.2504854368932044e-05,
2873
+ "loss": 0.0881,
2874
+ "step": 404
2875
+ },
2876
+ {
2877
+ "epoch": 3.7436878347360367,
2878
+ "grad_norm": 1.6267629861831665,
2879
+ "learning_rate": 5.242718446601942e-05,
2880
+ "loss": 0.1384,
2881
+ "step": 405
2882
+ },
2883
+ {
2884
+ "epoch": 3.752869166029074,
2885
+ "grad_norm": 0.9638404250144958,
2886
+ "learning_rate": 5.23495145631068e-05,
2887
+ "loss": 0.0799,
2888
+ "step": 406
2889
+ },
2890
+ {
2891
+ "epoch": 3.762050497322112,
2892
+ "grad_norm": 3.7466440200805664,
2893
+ "learning_rate": 5.227184466019417e-05,
2894
+ "loss": 0.1063,
2895
+ "step": 407
2896
+ },
2897
+ {
2898
+ "epoch": 3.771231828615149,
2899
+ "grad_norm": 1.4555702209472656,
2900
+ "learning_rate": 5.219417475728156e-05,
2901
+ "loss": 0.1075,
2902
+ "step": 408
2903
+ },
2904
+ {
2905
+ "epoch": 3.7804131599081865,
2906
+ "grad_norm": 3.556130886077881,
2907
+ "learning_rate": 5.2116504854368936e-05,
2908
+ "loss": 0.0896,
2909
+ "step": 409
2910
+ },
2911
+ {
2912
+ "epoch": 3.7895944912012243,
2913
+ "grad_norm": 8.066980361938477,
2914
+ "learning_rate": 5.203883495145632e-05,
2915
+ "loss": 0.1545,
2916
+ "step": 410
2917
+ },
2918
+ {
2919
+ "epoch": 3.7987758224942616,
2920
+ "grad_norm": 3.0440611839294434,
2921
+ "learning_rate": 5.196116504854369e-05,
2922
+ "loss": 0.0762,
2923
+ "step": 411
2924
+ },
2925
+ {
2926
+ "epoch": 3.8079571537872994,
2927
+ "grad_norm": 10.458972930908203,
2928
+ "learning_rate": 5.188349514563107e-05,
2929
+ "loss": 0.1719,
2930
+ "step": 412
2931
+ },
2932
+ {
2933
+ "epoch": 3.8171384850803367,
2934
+ "grad_norm": 3.334726095199585,
2935
+ "learning_rate": 5.180582524271845e-05,
2936
+ "loss": 0.0782,
2937
+ "step": 413
2938
+ },
2939
+ {
2940
+ "epoch": 3.826319816373374,
2941
+ "grad_norm": 3.1935324668884277,
2942
+ "learning_rate": 5.172815533980583e-05,
2943
+ "loss": 0.176,
2944
+ "step": 414
2945
+ },
2946
+ {
2947
+ "epoch": 3.8355011476664114,
2948
+ "grad_norm": 0.7028615474700928,
2949
+ "learning_rate": 5.165048543689321e-05,
2950
+ "loss": 0.0588,
2951
+ "step": 415
2952
+ },
2953
+ {
2954
+ "epoch": 3.844682478959449,
2955
+ "grad_norm": 5.715628147125244,
2956
+ "learning_rate": 5.1572815533980584e-05,
2957
+ "loss": 0.1442,
2958
+ "step": 416
2959
+ },
2960
+ {
2961
+ "epoch": 3.8538638102524865,
2962
+ "grad_norm": 2.5790646076202393,
2963
+ "learning_rate": 5.149514563106796e-05,
2964
+ "loss": 0.094,
2965
+ "step": 417
2966
+ },
2967
+ {
2968
+ "epoch": 3.8630451415455243,
2969
+ "grad_norm": 2.4341509342193604,
2970
+ "learning_rate": 5.141747572815535e-05,
2971
+ "loss": 0.1361,
2972
+ "step": 418
2973
+ },
2974
+ {
2975
+ "epoch": 3.8722264728385616,
2976
+ "grad_norm": 3.1939542293548584,
2977
+ "learning_rate": 5.133980582524272e-05,
2978
+ "loss": 0.1526,
2979
+ "step": 419
2980
+ },
2981
+ {
2982
+ "epoch": 3.881407804131599,
2983
+ "grad_norm": 4.009763717651367,
2984
+ "learning_rate": 5.1262135922330105e-05,
2985
+ "loss": 0.1535,
2986
+ "step": 420
2987
+ },
2988
+ {
2989
+ "epoch": 3.8905891354246367,
2990
+ "grad_norm": 7.710887908935547,
2991
+ "learning_rate": 5.118446601941748e-05,
2992
+ "loss": 0.1717,
2993
+ "step": 421
2994
+ },
2995
+ {
2996
+ "epoch": 3.899770466717674,
2997
+ "grad_norm": 1.9773759841918945,
2998
+ "learning_rate": 5.1106796116504854e-05,
2999
+ "loss": 0.0681,
3000
+ "step": 422
3001
+ },
3002
+ {
3003
+ "epoch": 3.908951798010712,
3004
+ "grad_norm": 1.4808170795440674,
3005
+ "learning_rate": 5.102912621359224e-05,
3006
+ "loss": 0.1192,
3007
+ "step": 423
3008
+ },
3009
+ {
3010
+ "epoch": 3.918133129303749,
3011
+ "grad_norm": 3.729057788848877,
3012
+ "learning_rate": 5.095145631067962e-05,
3013
+ "loss": 0.0856,
3014
+ "step": 424
3015
+ },
3016
+ {
3017
+ "epoch": 3.9273144605967865,
3018
+ "grad_norm": 2.0675411224365234,
3019
+ "learning_rate": 5.0873786407766996e-05,
3020
+ "loss": 0.0851,
3021
+ "step": 425
3022
+ },
3023
+ {
3024
+ "epoch": 3.936495791889824,
3025
+ "grad_norm": 2.1639397144317627,
3026
+ "learning_rate": 5.0796116504854374e-05,
3027
+ "loss": 0.0863,
3028
+ "step": 426
3029
+ },
3030
+ {
3031
+ "epoch": 3.9456771231828616,
3032
+ "grad_norm": 4.568946361541748,
3033
+ "learning_rate": 5.0718446601941746e-05,
3034
+ "loss": 0.1529,
3035
+ "step": 427
3036
+ },
3037
+ {
3038
+ "epoch": 3.954858454475899,
3039
+ "grad_norm": 4.62446928024292,
3040
+ "learning_rate": 5.064077669902913e-05,
3041
+ "loss": 0.1457,
3042
+ "step": 428
3043
+ },
3044
+ {
3045
+ "epoch": 3.9640397857689367,
3046
+ "grad_norm": 2.4446122646331787,
3047
+ "learning_rate": 5.056310679611651e-05,
3048
+ "loss": 0.0957,
3049
+ "step": 429
3050
+ },
3051
+ {
3052
+ "epoch": 3.973221117061974,
3053
+ "grad_norm": 3.213635206222534,
3054
+ "learning_rate": 5.0485436893203895e-05,
3055
+ "loss": 0.0622,
3056
+ "step": 430
3057
+ },
3058
+ {
3059
+ "epoch": 3.9824024483550113,
3060
+ "grad_norm": 1.0687592029571533,
3061
+ "learning_rate": 5.0407766990291266e-05,
3062
+ "loss": 0.1124,
3063
+ "step": 431
3064
+ },
3065
+ {
3066
+ "epoch": 3.991583779648049,
3067
+ "grad_norm": 3.141596794128418,
3068
+ "learning_rate": 5.0330097087378644e-05,
3069
+ "loss": 0.1431,
3070
+ "step": 432
3071
+ },
3072
+ {
3073
+ "epoch": 3.991583779648049,
3074
+ "eval_accuracy": 0.9115588408451626,
3075
+ "eval_f1": 0.9109202738944414,
3076
+ "eval_loss": 0.20952464640140533,
3077
+ "eval_precision": 0.9108161599019863,
3078
+ "eval_recall": 0.9115588408451626,
3079
+ "eval_runtime": 560.8136,
3080
+ "eval_samples_per_second": 0.777,
3081
+ "eval_steps_per_second": 0.26,
3082
+ "step": 432
3083
+ },
3084
+ {
3085
+ "epoch": 4.009181331293037,
3086
+ "grad_norm": 4.254515647888184,
3087
+ "learning_rate": 5.025242718446602e-05,
3088
+ "loss": 0.1993,
3089
+ "step": 433
3090
+ },
3091
+ {
3092
+ "epoch": 4.018362662586075,
3093
+ "grad_norm": 1.868312954902649,
3094
+ "learning_rate": 5.01747572815534e-05,
3095
+ "loss": 0.0577,
3096
+ "step": 434
3097
+ },
3098
+ {
3099
+ "epoch": 4.027543993879113,
3100
+ "grad_norm": 2.2711496353149414,
3101
+ "learning_rate": 5.0097087378640786e-05,
3102
+ "loss": 0.0728,
3103
+ "step": 435
3104
+ },
3105
+ {
3106
+ "epoch": 4.03672532517215,
3107
+ "grad_norm": 2.2875757217407227,
3108
+ "learning_rate": 5.001941747572816e-05,
3109
+ "loss": 0.0966,
3110
+ "step": 436
3111
+ },
3112
+ {
3113
+ "epoch": 4.0459066564651875,
3114
+ "grad_norm": 0.7927316427230835,
3115
+ "learning_rate": 4.9941747572815536e-05,
3116
+ "loss": 0.0642,
3117
+ "step": 437
3118
+ },
3119
+ {
3120
+ "epoch": 4.055087987758225,
3121
+ "grad_norm": 2.379452705383301,
3122
+ "learning_rate": 4.986407766990292e-05,
3123
+ "loss": 0.0585,
3124
+ "step": 438
3125
+ },
3126
+ {
3127
+ "epoch": 4.064269319051262,
3128
+ "grad_norm": 3.8812832832336426,
3129
+ "learning_rate": 4.978640776699029e-05,
3130
+ "loss": 0.0817,
3131
+ "step": 439
3132
+ },
3133
+ {
3134
+ "epoch": 4.0734506503442995,
3135
+ "grad_norm": 2.914626359939575,
3136
+ "learning_rate": 4.970873786407767e-05,
3137
+ "loss": 0.1023,
3138
+ "step": 440
3139
+ },
3140
+ {
3141
+ "epoch": 4.082631981637338,
3142
+ "grad_norm": 1.0542664527893066,
3143
+ "learning_rate": 4.9631067961165056e-05,
3144
+ "loss": 0.0558,
3145
+ "step": 441
3146
+ },
3147
+ {
3148
+ "epoch": 4.091813312930375,
3149
+ "grad_norm": 4.651342391967773,
3150
+ "learning_rate": 4.955339805825243e-05,
3151
+ "loss": 0.1125,
3152
+ "step": 442
3153
+ },
3154
+ {
3155
+ "epoch": 4.100994644223412,
3156
+ "grad_norm": 5.693050861358643,
3157
+ "learning_rate": 4.947572815533981e-05,
3158
+ "loss": 0.1442,
3159
+ "step": 443
3160
+ },
3161
+ {
3162
+ "epoch": 4.11017597551645,
3163
+ "grad_norm": 0.6766911149024963,
3164
+ "learning_rate": 4.939805825242719e-05,
3165
+ "loss": 0.0515,
3166
+ "step": 444
3167
+ },
3168
+ {
3169
+ "epoch": 4.119357306809487,
3170
+ "grad_norm": 1.4730589389801025,
3171
+ "learning_rate": 4.932038834951456e-05,
3172
+ "loss": 0.0721,
3173
+ "step": 445
3174
+ },
3175
+ {
3176
+ "epoch": 4.128538638102524,
3177
+ "grad_norm": 3.4764835834503174,
3178
+ "learning_rate": 4.924271844660195e-05,
3179
+ "loss": 0.0758,
3180
+ "step": 446
3181
+ },
3182
+ {
3183
+ "epoch": 4.137719969395563,
3184
+ "grad_norm": 3.037205696105957,
3185
+ "learning_rate": 4.916504854368932e-05,
3186
+ "loss": 0.0646,
3187
+ "step": 447
3188
+ },
3189
+ {
3190
+ "epoch": 4.1469013006886,
3191
+ "grad_norm": 1.2811872959136963,
3192
+ "learning_rate": 4.9087378640776705e-05,
3193
+ "loss": 0.0638,
3194
+ "step": 448
3195
+ },
3196
+ {
3197
+ "epoch": 4.156082631981637,
3198
+ "grad_norm": 1.3636977672576904,
3199
+ "learning_rate": 4.900970873786408e-05,
3200
+ "loss": 0.0631,
3201
+ "step": 449
3202
+ },
3203
+ {
3204
+ "epoch": 4.165263963274675,
3205
+ "grad_norm": 1.56991446018219,
3206
+ "learning_rate": 4.8932038834951454e-05,
3207
+ "loss": 0.0467,
3208
+ "step": 450
3209
+ },
3210
+ {
3211
+ "epoch": 4.174445294567712,
3212
+ "grad_norm": 6.364545822143555,
3213
+ "learning_rate": 4.885436893203884e-05,
3214
+ "loss": 0.1353,
3215
+ "step": 451
3216
+ },
3217
+ {
3218
+ "epoch": 4.18362662586075,
3219
+ "grad_norm": 1.0783206224441528,
3220
+ "learning_rate": 4.877669902912622e-05,
3221
+ "loss": 0.0578,
3222
+ "step": 452
3223
+ },
3224
+ {
3225
+ "epoch": 4.1928079571537875,
3226
+ "grad_norm": 5.963489532470703,
3227
+ "learning_rate": 4.8699029126213596e-05,
3228
+ "loss": 0.1557,
3229
+ "step": 453
3230
+ },
3231
+ {
3232
+ "epoch": 4.201989288446825,
3233
+ "grad_norm": 1.447169303894043,
3234
+ "learning_rate": 4.8621359223300975e-05,
3235
+ "loss": 0.0631,
3236
+ "step": 454
3237
+ },
3238
+ {
3239
+ "epoch": 4.211170619739862,
3240
+ "grad_norm": 1.0086148977279663,
3241
+ "learning_rate": 4.854368932038835e-05,
3242
+ "loss": 0.0437,
3243
+ "step": 455
3244
+ },
3245
+ {
3246
+ "epoch": 4.2203519510328995,
3247
+ "grad_norm": 1.1974815130233765,
3248
+ "learning_rate": 4.846601941747573e-05,
3249
+ "loss": 0.0714,
3250
+ "step": 456
3251
+ },
3252
+ {
3253
+ "epoch": 4.229533282325937,
3254
+ "grad_norm": 0.9050458073616028,
3255
+ "learning_rate": 4.838834951456311e-05,
3256
+ "loss": 0.043,
3257
+ "step": 457
3258
+ },
3259
+ {
3260
+ "epoch": 4.238714613618975,
3261
+ "grad_norm": 1.0556018352508545,
3262
+ "learning_rate": 4.8310679611650495e-05,
3263
+ "loss": 0.0812,
3264
+ "step": 458
3265
+ },
3266
+ {
3267
+ "epoch": 4.247895944912012,
3268
+ "grad_norm": 1.6902259588241577,
3269
+ "learning_rate": 4.8233009708737866e-05,
3270
+ "loss": 0.0639,
3271
+ "step": 459
3272
+ },
3273
+ {
3274
+ "epoch": 4.25707727620505,
3275
+ "grad_norm": 2.085536479949951,
3276
+ "learning_rate": 4.8155339805825245e-05,
3277
+ "loss": 0.0884,
3278
+ "step": 460
3279
+ },
3280
+ {
3281
+ "epoch": 4.266258607498087,
3282
+ "grad_norm": 1.1226670742034912,
3283
+ "learning_rate": 4.807766990291263e-05,
3284
+ "loss": 0.061,
3285
+ "step": 461
3286
+ },
3287
+ {
3288
+ "epoch": 4.275439938791124,
3289
+ "grad_norm": 3.8298041820526123,
3290
+ "learning_rate": 4.8e-05,
3291
+ "loss": 0.0807,
3292
+ "step": 462
3293
+ },
3294
+ {
3295
+ "epoch": 4.284621270084163,
3296
+ "grad_norm": 2.1076483726501465,
3297
+ "learning_rate": 4.7922330097087386e-05,
3298
+ "loss": 0.0785,
3299
+ "step": 463
3300
+ },
3301
+ {
3302
+ "epoch": 4.2938026013772,
3303
+ "grad_norm": 1.4015936851501465,
3304
+ "learning_rate": 4.784466019417476e-05,
3305
+ "loss": 0.0418,
3306
+ "step": 464
3307
+ },
3308
+ {
3309
+ "epoch": 4.302983932670237,
3310
+ "grad_norm": 1.0768908262252808,
3311
+ "learning_rate": 4.7766990291262136e-05,
3312
+ "loss": 0.0724,
3313
+ "step": 465
3314
+ },
3315
+ {
3316
+ "epoch": 4.312165263963275,
3317
+ "grad_norm": 3.959918737411499,
3318
+ "learning_rate": 4.768932038834952e-05,
3319
+ "loss": 0.1478,
3320
+ "step": 466
3321
+ },
3322
+ {
3323
+ "epoch": 4.321346595256312,
3324
+ "grad_norm": 2.8525919914245605,
3325
+ "learning_rate": 4.761165048543689e-05,
3326
+ "loss": 0.088,
3327
+ "step": 467
3328
+ },
3329
+ {
3330
+ "epoch": 4.330527926549349,
3331
+ "grad_norm": 0.8445830941200256,
3332
+ "learning_rate": 4.753398058252428e-05,
3333
+ "loss": 0.0621,
3334
+ "step": 468
3335
+ },
3336
+ {
3337
+ "epoch": 4.3397092578423875,
3338
+ "grad_norm": 2.07708740234375,
3339
+ "learning_rate": 4.7456310679611656e-05,
3340
+ "loss": 0.0871,
3341
+ "step": 469
3342
+ },
3343
+ {
3344
+ "epoch": 4.348890589135425,
3345
+ "grad_norm": 1.2600646018981934,
3346
+ "learning_rate": 4.737864077669903e-05,
3347
+ "loss": 0.0401,
3348
+ "step": 470
3349
+ },
3350
+ {
3351
+ "epoch": 4.358071920428462,
3352
+ "grad_norm": 2.290283441543579,
3353
+ "learning_rate": 4.730097087378641e-05,
3354
+ "loss": 0.0735,
3355
+ "step": 471
3356
+ },
3357
+ {
3358
+ "epoch": 4.3672532517214995,
3359
+ "grad_norm": 1.364362120628357,
3360
+ "learning_rate": 4.722330097087379e-05,
3361
+ "loss": 0.0869,
3362
+ "step": 472
3363
+ },
3364
+ {
3365
+ "epoch": 4.376434583014537,
3366
+ "grad_norm": 4.142048358917236,
3367
+ "learning_rate": 4.714563106796117e-05,
3368
+ "loss": 0.0847,
3369
+ "step": 473
3370
+ },
3371
+ {
3372
+ "epoch": 4.385615914307575,
3373
+ "grad_norm": 2.0649538040161133,
3374
+ "learning_rate": 4.706796116504855e-05,
3375
+ "loss": 0.0464,
3376
+ "step": 474
3377
+ },
3378
+ {
3379
+ "epoch": 4.394797245600612,
3380
+ "grad_norm": 1.4354182481765747,
3381
+ "learning_rate": 4.6990291262135926e-05,
3382
+ "loss": 0.0815,
3383
+ "step": 475
3384
+ },
3385
+ {
3386
+ "epoch": 4.40397857689365,
3387
+ "grad_norm": 2.3449645042419434,
3388
+ "learning_rate": 4.6912621359223305e-05,
3389
+ "loss": 0.0724,
3390
+ "step": 476
3391
+ },
3392
+ {
3393
+ "epoch": 4.413159908186687,
3394
+ "grad_norm": 0.9565906524658203,
3395
+ "learning_rate": 4.683495145631068e-05,
3396
+ "loss": 0.0615,
3397
+ "step": 477
3398
+ },
3399
+ {
3400
+ "epoch": 4.422341239479724,
3401
+ "grad_norm": 2.925999164581299,
3402
+ "learning_rate": 4.675728155339807e-05,
3403
+ "loss": 0.0887,
3404
+ "step": 478
3405
+ },
3406
+ {
3407
+ "epoch": 4.431522570772762,
3408
+ "grad_norm": 1.3436874151229858,
3409
+ "learning_rate": 4.667961165048544e-05,
3410
+ "loss": 0.0356,
3411
+ "step": 479
3412
+ },
3413
+ {
3414
+ "epoch": 4.4407039020658,
3415
+ "grad_norm": 1.6915324926376343,
3416
+ "learning_rate": 4.660194174757282e-05,
3417
+ "loss": 0.0473,
3418
+ "step": 480
3419
+ },
3420
+ {
3421
+ "epoch": 4.449885233358837,
3422
+ "grad_norm": 5.797903060913086,
3423
+ "learning_rate": 4.65242718446602e-05,
3424
+ "loss": 0.1215,
3425
+ "step": 481
3426
+ },
3427
+ {
3428
+ "epoch": 4.459066564651875,
3429
+ "grad_norm": 1.9840012788772583,
3430
+ "learning_rate": 4.6446601941747575e-05,
3431
+ "loss": 0.0674,
3432
+ "step": 482
3433
+ },
3434
+ {
3435
+ "epoch": 4.468247895944912,
3436
+ "grad_norm": 2.2250256538391113,
3437
+ "learning_rate": 4.636893203883496e-05,
3438
+ "loss": 0.0964,
3439
+ "step": 483
3440
+ },
3441
+ {
3442
+ "epoch": 4.477429227237949,
3443
+ "grad_norm": 1.5109138488769531,
3444
+ "learning_rate": 4.629126213592233e-05,
3445
+ "loss": 0.0474,
3446
+ "step": 484
3447
+ },
3448
+ {
3449
+ "epoch": 4.4866105585309874,
3450
+ "grad_norm": 1.8441647291183472,
3451
+ "learning_rate": 4.621359223300971e-05,
3452
+ "loss": 0.0973,
3453
+ "step": 485
3454
+ },
3455
+ {
3456
+ "epoch": 4.495791889824025,
3457
+ "grad_norm": 2.3226778507232666,
3458
+ "learning_rate": 4.6135922330097095e-05,
3459
+ "loss": 0.0874,
3460
+ "step": 486
3461
+ },
3462
+ {
3463
+ "epoch": 4.504973221117062,
3464
+ "grad_norm": 5.284173965454102,
3465
+ "learning_rate": 4.6058252427184466e-05,
3466
+ "loss": 0.1129,
3467
+ "step": 487
3468
+ },
3469
+ {
3470
+ "epoch": 4.514154552410099,
3471
+ "grad_norm": 5.113690376281738,
3472
+ "learning_rate": 4.5980582524271845e-05,
3473
+ "loss": 0.0918,
3474
+ "step": 488
3475
+ },
3476
+ {
3477
+ "epoch": 4.523335883703137,
3478
+ "grad_norm": 4.009920120239258,
3479
+ "learning_rate": 4.590291262135923e-05,
3480
+ "loss": 0.0888,
3481
+ "step": 489
3482
+ },
3483
+ {
3484
+ "epoch": 4.532517214996174,
3485
+ "grad_norm": 2.377612352371216,
3486
+ "learning_rate": 4.58252427184466e-05,
3487
+ "loss": 0.1008,
3488
+ "step": 490
3489
+ },
3490
+ {
3491
+ "epoch": 4.541698546289212,
3492
+ "grad_norm": 3.8213446140289307,
3493
+ "learning_rate": 4.5747572815533986e-05,
3494
+ "loss": 0.0852,
3495
+ "step": 491
3496
+ },
3497
+ {
3498
+ "epoch": 4.55087987758225,
3499
+ "grad_norm": 3.282684803009033,
3500
+ "learning_rate": 4.5669902912621365e-05,
3501
+ "loss": 0.0897,
3502
+ "step": 492
3503
+ },
3504
+ {
3505
+ "epoch": 4.560061208875287,
3506
+ "grad_norm": 1.4313851594924927,
3507
+ "learning_rate": 4.5592233009708736e-05,
3508
+ "loss": 0.0879,
3509
+ "step": 493
3510
+ },
3511
+ {
3512
+ "epoch": 4.569242540168324,
3513
+ "grad_norm": 2.5159754753112793,
3514
+ "learning_rate": 4.551456310679612e-05,
3515
+ "loss": 0.0681,
3516
+ "step": 494
3517
+ },
3518
+ {
3519
+ "epoch": 4.578423871461362,
3520
+ "grad_norm": 1.8583674430847168,
3521
+ "learning_rate": 4.54368932038835e-05,
3522
+ "loss": 0.0985,
3523
+ "step": 495
3524
+ },
3525
+ {
3526
+ "epoch": 4.5876052027544,
3527
+ "grad_norm": 1.9419161081314087,
3528
+ "learning_rate": 4.535922330097088e-05,
3529
+ "loss": 0.0496,
3530
+ "step": 496
3531
+ },
3532
+ {
3533
+ "epoch": 4.596786534047437,
3534
+ "grad_norm": 5.332855224609375,
3535
+ "learning_rate": 4.5281553398058256e-05,
3536
+ "loss": 0.1266,
3537
+ "step": 497
3538
+ },
3539
+ {
3540
+ "epoch": 4.6059678653404745,
3541
+ "grad_norm": 3.1006052494049072,
3542
+ "learning_rate": 4.520388349514563e-05,
3543
+ "loss": 0.0695,
3544
+ "step": 498
3545
+ },
3546
+ {
3547
+ "epoch": 4.615149196633512,
3548
+ "grad_norm": 2.216729164123535,
3549
+ "learning_rate": 4.512621359223301e-05,
3550
+ "loss": 0.0699,
3551
+ "step": 499
3552
+ },
3553
+ {
3554
+ "epoch": 4.624330527926549,
3555
+ "grad_norm": 3.8655779361724854,
3556
+ "learning_rate": 4.504854368932039e-05,
3557
+ "loss": 0.0944,
3558
+ "step": 500
3559
+ },
3560
+ {
3561
+ "epoch": 4.6335118592195865,
3562
+ "grad_norm": 1.776360034942627,
3563
+ "learning_rate": 4.4970873786407776e-05,
3564
+ "loss": 0.067,
3565
+ "step": 501
3566
+ },
3567
+ {
3568
+ "epoch": 4.642693190512624,
3569
+ "grad_norm": 2.4750964641571045,
3570
+ "learning_rate": 4.489320388349515e-05,
3571
+ "loss": 0.1195,
3572
+ "step": 502
3573
+ },
3574
+ {
3575
+ "epoch": 4.651874521805662,
3576
+ "grad_norm": 5.760570049285889,
3577
+ "learning_rate": 4.4815533980582526e-05,
3578
+ "loss": 0.1088,
3579
+ "step": 503
3580
+ },
3581
+ {
3582
+ "epoch": 4.661055853098699,
3583
+ "grad_norm": 3.3737776279449463,
3584
+ "learning_rate": 4.4737864077669905e-05,
3585
+ "loss": 0.1048,
3586
+ "step": 504
3587
+ },
3588
+ {
3589
+ "epoch": 4.670237184391737,
3590
+ "grad_norm": 3.1750128269195557,
3591
+ "learning_rate": 4.466019417475728e-05,
3592
+ "loss": 0.0865,
3593
+ "step": 505
3594
+ },
3595
+ {
3596
+ "epoch": 4.679418515684774,
3597
+ "grad_norm": 1.962281346321106,
3598
+ "learning_rate": 4.458252427184467e-05,
3599
+ "loss": 0.0872,
3600
+ "step": 506
3601
+ },
3602
+ {
3603
+ "epoch": 4.688599846977811,
3604
+ "grad_norm": 1.9695234298706055,
3605
+ "learning_rate": 4.450485436893204e-05,
3606
+ "loss": 0.0533,
3607
+ "step": 507
3608
+ },
3609
+ {
3610
+ "epoch": 4.69778117827085,
3611
+ "grad_norm": 7.5946478843688965,
3612
+ "learning_rate": 4.442718446601942e-05,
3613
+ "loss": 0.2138,
3614
+ "step": 508
3615
+ },
3616
+ {
3617
+ "epoch": 4.706962509563887,
3618
+ "grad_norm": 3.5906314849853516,
3619
+ "learning_rate": 4.43495145631068e-05,
3620
+ "loss": 0.0708,
3621
+ "step": 509
3622
+ },
3623
+ {
3624
+ "epoch": 4.716143840856924,
3625
+ "grad_norm": 1.414340615272522,
3626
+ "learning_rate": 4.4271844660194175e-05,
3627
+ "loss": 0.0659,
3628
+ "step": 510
3629
+ },
3630
+ {
3631
+ "epoch": 4.725325172149962,
3632
+ "grad_norm": 1.0394424200057983,
3633
+ "learning_rate": 4.419417475728156e-05,
3634
+ "loss": 0.0702,
3635
+ "step": 511
3636
+ },
3637
+ {
3638
+ "epoch": 4.734506503442999,
3639
+ "grad_norm": 2.2470860481262207,
3640
+ "learning_rate": 4.411650485436894e-05,
3641
+ "loss": 0.0813,
3642
+ "step": 512
3643
+ },
3644
+ {
3645
+ "epoch": 4.743687834736036,
3646
+ "grad_norm": 2.1151199340820312,
3647
+ "learning_rate": 4.403883495145631e-05,
3648
+ "loss": 0.0599,
3649
+ "step": 513
3650
+ },
3651
+ {
3652
+ "epoch": 4.7528691660290745,
3653
+ "grad_norm": 6.825620174407959,
3654
+ "learning_rate": 4.3961165048543695e-05,
3655
+ "loss": 0.1382,
3656
+ "step": 514
3657
+ },
3658
+ {
3659
+ "epoch": 4.762050497322112,
3660
+ "grad_norm": 1.70498526096344,
3661
+ "learning_rate": 4.388349514563107e-05,
3662
+ "loss": 0.0873,
3663
+ "step": 515
3664
+ },
3665
+ {
3666
+ "epoch": 4.771231828615149,
3667
+ "grad_norm": 2.2581565380096436,
3668
+ "learning_rate": 4.380582524271845e-05,
3669
+ "loss": 0.0706,
3670
+ "step": 516
3671
+ },
3672
+ {
3673
+ "epoch": 4.7804131599081865,
3674
+ "grad_norm": 0.6808437705039978,
3675
+ "learning_rate": 4.372815533980583e-05,
3676
+ "loss": 0.0522,
3677
+ "step": 517
3678
+ },
3679
+ {
3680
+ "epoch": 4.789594491201224,
3681
+ "grad_norm": 2.7403981685638428,
3682
+ "learning_rate": 4.36504854368932e-05,
3683
+ "loss": 0.0637,
3684
+ "step": 518
3685
+ },
3686
+ {
3687
+ "epoch": 4.798775822494262,
3688
+ "grad_norm": 1.540202260017395,
3689
+ "learning_rate": 4.3572815533980586e-05,
3690
+ "loss": 0.044,
3691
+ "step": 519
3692
+ },
3693
+ {
3694
+ "epoch": 4.807957153787299,
3695
+ "grad_norm": 3.2393414974212646,
3696
+ "learning_rate": 4.3495145631067965e-05,
3697
+ "loss": 0.091,
3698
+ "step": 520
3699
+ },
3700
+ {
3701
+ "epoch": 4.817138485080337,
3702
+ "grad_norm": 1.638206124305725,
3703
+ "learning_rate": 4.341747572815535e-05,
3704
+ "loss": 0.1023,
3705
+ "step": 521
3706
+ },
3707
+ {
3708
+ "epoch": 4.826319816373374,
3709
+ "grad_norm": 1.8901824951171875,
3710
+ "learning_rate": 4.333980582524272e-05,
3711
+ "loss": 0.0916,
3712
+ "step": 522
3713
+ },
3714
+ {
3715
+ "epoch": 4.835501147666411,
3716
+ "grad_norm": 3.545454502105713,
3717
+ "learning_rate": 4.32621359223301e-05,
3718
+ "loss": 0.1493,
3719
+ "step": 523
3720
+ },
3721
+ {
3722
+ "epoch": 4.844682478959449,
3723
+ "grad_norm": 1.7232826948165894,
3724
+ "learning_rate": 4.318446601941748e-05,
3725
+ "loss": 0.0867,
3726
+ "step": 524
3727
+ },
3728
+ {
3729
+ "epoch": 4.853863810252487,
3730
+ "grad_norm": 2.6446025371551514,
3731
+ "learning_rate": 4.3106796116504856e-05,
3732
+ "loss": 0.1026,
3733
+ "step": 525
3734
+ },
3735
+ {
3736
+ "epoch": 4.863045141545524,
3737
+ "grad_norm": 2.6688902378082275,
3738
+ "learning_rate": 4.302912621359224e-05,
3739
+ "loss": 0.0771,
3740
+ "step": 526
3741
+ },
3742
+ {
3743
+ "epoch": 4.872226472838562,
3744
+ "grad_norm": 1.470770001411438,
3745
+ "learning_rate": 4.295145631067961e-05,
3746
+ "loss": 0.0895,
3747
+ "step": 527
3748
+ },
3749
+ {
3750
+ "epoch": 4.881407804131599,
3751
+ "grad_norm": 1.704606294631958,
3752
+ "learning_rate": 4.287378640776699e-05,
3753
+ "loss": 0.0607,
3754
+ "step": 528
3755
+ },
3756
+ {
3757
+ "epoch": 4.890589135424636,
3758
+ "grad_norm": 2.4789586067199707,
3759
+ "learning_rate": 4.2796116504854377e-05,
3760
+ "loss": 0.1145,
3761
+ "step": 529
3762
+ },
3763
+ {
3764
+ "epoch": 4.8997704667176745,
3765
+ "grad_norm": 2.074146032333374,
3766
+ "learning_rate": 4.271844660194175e-05,
3767
+ "loss": 0.057,
3768
+ "step": 530
3769
+ },
3770
+ {
3771
+ "epoch": 4.908951798010712,
3772
+ "grad_norm": 1.4612951278686523,
3773
+ "learning_rate": 4.264077669902913e-05,
3774
+ "loss": 0.0647,
3775
+ "step": 531
3776
+ },
3777
+ {
3778
+ "epoch": 4.918133129303749,
3779
+ "grad_norm": 1.520561933517456,
3780
+ "learning_rate": 4.256310679611651e-05,
3781
+ "loss": 0.0754,
3782
+ "step": 532
3783
+ },
3784
+ {
3785
+ "epoch": 4.9273144605967865,
3786
+ "grad_norm": 1.7171162366867065,
3787
+ "learning_rate": 4.248543689320388e-05,
3788
+ "loss": 0.0613,
3789
+ "step": 533
3790
+ },
3791
+ {
3792
+ "epoch": 4.936495791889824,
3793
+ "grad_norm": 2.1400773525238037,
3794
+ "learning_rate": 4.240776699029127e-05,
3795
+ "loss": 0.0624,
3796
+ "step": 534
3797
+ },
3798
+ {
3799
+ "epoch": 4.945677123182861,
3800
+ "grad_norm": 7.027667999267578,
3801
+ "learning_rate": 4.2330097087378647e-05,
3802
+ "loss": 0.1676,
3803
+ "step": 535
3804
+ },
3805
+ {
3806
+ "epoch": 4.954858454475899,
3807
+ "grad_norm": 2.8711864948272705,
3808
+ "learning_rate": 4.2252427184466025e-05,
3809
+ "loss": 0.0892,
3810
+ "step": 536
3811
+ },
3812
+ {
3813
+ "epoch": 4.964039785768937,
3814
+ "grad_norm": 2.6196513175964355,
3815
+ "learning_rate": 4.21747572815534e-05,
3816
+ "loss": 0.1006,
3817
+ "step": 537
3818
+ },
3819
+ {
3820
+ "epoch": 4.973221117061974,
3821
+ "grad_norm": 1.3012099266052246,
3822
+ "learning_rate": 4.2097087378640775e-05,
3823
+ "loss": 0.0618,
3824
+ "step": 538
3825
+ },
3826
+ {
3827
+ "epoch": 4.982402448355011,
3828
+ "grad_norm": 1.2326174974441528,
3829
+ "learning_rate": 4.201941747572816e-05,
3830
+ "loss": 0.0363,
3831
+ "step": 539
3832
+ },
3833
+ {
3834
+ "epoch": 4.991583779648049,
3835
+ "grad_norm": 3.202082872390747,
3836
+ "learning_rate": 4.194174757281554e-05,
3837
+ "loss": 0.081,
3838
+ "step": 540
3839
+ },
3840
+ {
3841
+ "epoch": 4.991583779648049,
3842
+ "eval_accuracy": 0.9160724798848695,
3843
+ "eval_f1": 0.9159800958347165,
3844
+ "eval_loss": 0.20443110167980194,
3845
+ "eval_precision": 0.9159011710211019,
3846
+ "eval_recall": 0.9160724798848695,
3847
+ "eval_runtime": 560.7975,
3848
+ "eval_samples_per_second": 0.777,
3849
+ "eval_steps_per_second": 0.26,
3850
+ "step": 540
3851
+ }
3852
+ ],
3853
+ "logging_steps": 1,
3854
+ "max_steps": 1080,
3855
+ "num_input_tokens_seen": 0,
3856
+ "num_train_epochs": 10,
3857
+ "save_steps": 500,
3858
+ "stateful_callbacks": {
3859
+ "TrainerControl": {
3860
+ "args": {
3861
+ "should_epoch_stop": false,
3862
+ "should_evaluate": false,
3863
+ "should_log": false,
3864
+ "should_save": true,
3865
+ "should_training_stop": false
3866
+ },
3867
+ "attributes": {}
3868
+ }
3869
+ },
3870
+ "total_flos": 3.440896652751667e+17,
3871
+ "train_batch_size": 3,
3872
+ "trial_name": null,
3873
+ "trial_params": null
3874
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a9094f3e35ed7e67863e7d5a5d9f7284944768713adb631fc409f072bb525644
3
+ size 5304
vocab.json ADDED
The diff for this file is too large to render. See raw diff