Spaces:

Lyti4
/

skladbot-free-ai

Sleeping

App Files Files Community

Lyti4 commited on Jun 26

Commit

a5e716b

verified ·

1 Parent(s): 2cb9cff

Update custom_tokenizers.py

Browse files

Files changed (1) hide show

custom_tokenizers.py +23 -28

custom_tokenizers.py CHANGED Viewed

@@ -1,9 +1,5 @@
-"""
-Модуль с кастомными токенайзерами для моделей Hugging Face
-"""
-from transformers import T5Tokenizer, PreTrainedTokenizer
-from typing import Dict, List, Optional, Tuple, Union
 import os
 import logging
@@ -27,7 +23,6 @@ class Byt5LangTokenizer(T5Tokenizer):
         sp_model_kwargs=None,
         **kwargs
     ):
-        # Базовое определение на основе T5Tokenizer
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
@@ -40,47 +35,47 @@ class Byt5LangTokenizer(T5Tokenizer):
             **kwargs
         )
-        # Дополнительные атрибуты для ByT5
-        self.vocab_file = vocab_file
-        self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
     @property
     def vocab_size(self):
-        # ByT5 использует байтовое представление, обычно 256 байтов + дополнительные токены
         return 256 + self.num_special_tokens
-    def get_vocab(self):
-        # Создаем словарь на основе байтов для ByT5
-        vocab = {self.byte_decoder[i]: i for i in range(256)}
         vocab.update(self.special_tokens_encoder)
         return vocab
-    def _tokenize(self, text):
-        # ByT5 токенизирует на уровне байт (UTF-8)
         return list(text.encode("utf-8"))
-    def _convert_token_to_id(self, token):
-        # Преобразуем токен в ID
         if isinstance(token, str):
             if token in self.special_tokens_encoder:
                 return self.special_tokens_encoder[token]
             else:
-                return ord(token)
         return token
-    def _convert_id_to_token(self, index):
-        # Преобразуем ID в токен
         if index in self.special_tokens_decoder:
             return self.special_tokens_decoder[index]
         else:
             return chr(index)
-    def convert_tokens_to_string(self, tokens):
-        # Преобразуем токены в строку
-        text = ""
         for token in tokens:
-            if token in self.special_tokens_decoder:
-                text += self.special_tokens_decoder[token]
             else:
-                text += token
-        return text

+from transformers import T5Tokenizer
+from typing import Dict, List, Optional, Union
 import os
 import logging
         sp_model_kwargs=None,
         **kwargs
     ):
         super().__init__(
             vocab_file=vocab_file,
             tokenizer_file=tokenizer_file,
             **kwargs
         )
+        # Создаем byte_decoder — это ключевой недостающий элемент
+        self.byte_decoder = {i: bytes([i]) for i in range(256)}
     @property
     def vocab_size(self):
+        # ByT5 использует байтовое представление (256) + специальные токены
         return 256 + self.num_special_tokens
+    def get_vocab(self) -> Dict[str, int]:
+        # Словарь из байтовых строк и специальных токенов
+        vocab = {chr(i): i for i in range(256)}
         vocab.update(self.special_tokens_encoder)
         return vocab
+    def _tokenize(self, text: str) -> List[Union[int, str]]:
+        # Превращает текст в последовательность байт (int), как делает ByT5
         return list(text.encode("utf-8"))
+    def _convert_token_to_id(self, token: Union[str, int]) -> int:
         if isinstance(token, str):
             if token in self.special_tokens_encoder:
                 return self.special_tokens_encoder[token]
             else:
+                try:
+                    return ord(token)
+                except TypeError:
+                    return token
         return token
+    def _convert_id_to_token(self, index: int) -> Union[str, int]:
         if index in self.special_tokens_decoder:
             return self.special_tokens_decoder[index]
         else:
             return chr(index)
+    def convert_tokens_to_string(self, tokens: List[Union[str, int]]) -> str:
+        # Преобразует список токенов обратно в строку
+        decoded = b""
         for token in tokens:
+            if isinstance(token, int):
+                decoded += bytes([token])
             else:
+                decoded += token.encode("utf-8")
+        return decoded.decode("utf-8", errors="replace")