Spaces:

Lyti4
/

skladbot-free-ai

Sleeping

Lyti4 commited on Jun 26

Commit

d45d850

verified ·

1 Parent(s): a5e716b

Update custom_tokenizers.py

Files changed (1) hide show

custom_tokenizers.py CHANGED Viewed

@@ -35,22 +35,30 @@ class Byt5LangTokenizer(T5Tokenizer):
             **kwargs
         )
-        # Создаем byte_decoder — это ключевой недостающий элемент
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
     @property
     def vocab_size(self):
-        # ByT5 использует байтовое представление (256) + специальные токены
         return 256 + self.num_special_tokens
     def get_vocab(self) -> Dict[str, int]:
-        # Словарь из байтовых строк и специальных токенов
         vocab = {chr(i): i for i in range(256)}
         vocab.update(self.special_tokens_encoder)
         return vocab
     def _tokenize(self, text: str) -> List[Union[int, str]]:
-        # Превращает текст в последовательность байт (int), как делает ByT5
         return list(text.encode("utf-8"))
     def _convert_token_to_id(self, token: Union[str, int]) -> int:
@@ -71,7 +79,6 @@ class Byt5LangTokenizer(T5Tokenizer):
             return chr(index)
     def convert_tokens_to_string(self, tokens: List[Union[str, int]]) -> str:
-        # Преобразует список токенов обратно в строку
         decoded = b""
         for token in tokens:
             if isinstance(token, int):

             **kwargs
         )
+        # Создаем byte_decoder — важно для ByT5
         self.byte_decoder = {i: bytes([i]) for i in range(256)}
+        # Добавляем специальные токены
+        self.special_tokens = {
+            eos_token: self.convert_token_to_id(eos_token),
+            unk_token: self.convert_token_to_id(unk_token),
+            pad_token: self.convert_token_to_id(pad_token),
+        }
+        # Реализуем отсутствующие атрибуты
+        self.special_tokens_encoder = self.special_tokens
+        self.special_tokens_decoder = {v: k for k, v in self.special_tokens.items()}
     @property
     def vocab_size(self):
         return 256 + self.num_special_tokens
     def get_vocab(self) -> Dict[str, int]:
         vocab = {chr(i): i for i in range(256)}
         vocab.update(self.special_tokens_encoder)
         return vocab
     def _tokenize(self, text: str) -> List[Union[int, str]]:
         return list(text.encode("utf-8"))
     def _convert_token_to_id(self, token: Union[str, int]) -> int:
             return chr(index)
     def convert_tokens_to_string(self, tokens: List[Union[str, int]]) -> str:
         decoded = b""
         for token in tokens:
             if isinstance(token, int):