multimolecule
/

dna

ZhiyuanChen commited on Sep 13, 2024

Commit

69702b4

verified ·

1 Parent(s): 4d6545c

Upload tokenizer

Files changed (2) hide show

tokenizer_config.json CHANGED Viewed

@@ -55,10 +55,13 @@
   "bos_token": "<cls>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<cls>",
   "eos_token": "<eos>",
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sep_token": "<eos>",
   "tokenizer_class": "DnaTokenizer",
   "unk_token": "<unk>"

   "bos_token": "<cls>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<cls>",
+  "codon": false,
   "eos_token": "<eos>",
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
+  "nmers": 1,
   "pad_token": "<pad>",
+  "replace_U_with_T": true,
   "sep_token": "<eos>",
   "tokenizer_class": "DnaTokenizer",
   "unk_token": "<unk>"

vocab.txt CHANGED Viewed

@@ -9,17 +9,17 @@ C
 G
 T
 N
-X
-V
-H
-D
-B
-M
 R
-W
-S
 Y
 K
 .
 *
 -

 G
 T
 N
 R
 Y
+S
+W
 K
+M
+B
+D
+H
+V
 .
+X
 *
 -