Spaces:

Lyti4
/

skladbot-free-ai

Sleeping

App Files Files Community

Lyti4 commited on Jun 26

Commit

1ff8cc3

verified ·

1 Parent(s): c99d028

Update custom_tokenizers.py

Browse files

Files changed (1) hide show

custom_tokenizers.py +20 -6

custom_tokenizers.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from transformers import T5Tokenizer
 from typing import Dict, List, Optional, Union
 import os
 import logging
@@ -23,6 +23,7 @@ class Byt5LangTokenizer(T5Tokenizer):
         sp_model_kwargs=None,
         **kwargs
     ):
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
@@ -39,15 +40,28 @@ class Byt5LangTokenizer(T5Tokenizer):
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
         # Добавляем специальные токены
-        self.special_tokens = {
             eos_token: self.convert_token_to_id(eos_token),
             unk_token: self.convert_token_to_id(unk_token),
             pad_token: self.convert_token_to_id(pad_token),
         }
-        # Реализуем отсутствующие атрибуты
-        self.special_tokens_encoder = self.special_tokens
-        self.special_tokens_decoder = {v: k for k, v in self.special_tokens.items()}
     @property
     def vocab_size(self):
@@ -85,4 +99,4 @@ class Byt5LangTokenizer(T5Tokenizer):
                 decoded += bytes([token])
             else:
                 decoded += token.encode("utf-8")
-        return decoded.decode("utf-8", errors="replace")

+from transformers import T5Tokenizer, PreTrainedTokenizer
 from typing import Dict, List, Optional, Union
 import os
 import logging
         sp_model_kwargs=None,
         **kwargs
     ):
+        # Вызываем родительский конструктор
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
         # Добавляем специальные токены
+        special_tokens = {
             eos_token: self.convert_token_to_id(eos_token),
             unk_token: self.convert_token_to_id(unk_token),
             pad_token: self.convert_token_to_id(pad_token),
         }
+        # Важно: Проверяем, есть ли уже атрибут special_tokens_encoder
+        if not hasattr(self, "special_tokens_encoder"):
+            self.special_tokens_encoder = {}
+        # Обновляем, а не перезаписываем
+        self.special_tokens_encoder.update(special_tokens)
+        # То же для decoder
+        if not hasattr(self, "special_tokens_decoder"):
+            self.special_tokens_decoder = {}
+        self.special_tokens_decoder.update({v: k for k, v in special_tokens.items()})
+        # Добавляем дополнительные атрибуты из родительского класса
+        if not hasattr(self, "all_special_tokens"):
+            self.all_special_tokens = [eos_token, unk_token, pad_token]
+        if not hasattr(self, "all_special_ids"):
+            self.all_special_ids = [self.convert_token_to_id(t) for t in self.all_special_tokens]
     @property
     def vocab_size(self):
                 decoded += bytes([token])
             else:
                 decoded += token.encode("utf-8")
+        return decoded.decode("utf-8", errors="replace")