fixie-ai
/

ultravox-v0_3-llama-3_2-1b

Audio-Text-to-Text

feature-extraction

Model card Files Files and versions

farzadab commited on Feb 20

Commit

c84f28d

·

verified ·

1 Parent(s): 0cde4b8

Update ultravox_processing.py

Files changed (1) hide show

ultravox_processing.py +5 -2

ultravox_processing.py CHANGED Viewed

@@ -112,7 +112,8 @@ class UltravoxProcessor(transformers.ProcessorMixin):
         assert (
             tokenizer.eos_token is not None
         ), "The tokenizer has no EOS token. Cannot recover."
-        self.audio_replacement_token_id = tokenizer.get_vocab()[tokenizer.eos_token]
         if tokenizer.pad_token_id is None:
             tokenizer.pad_token_id = tokenizer.eos_token_id
@@ -326,6 +327,8 @@ class UltravoxProcessor(transformers.ProcessorMixin):
             split_input_ids = tokenized_parts["input_ids"]
             input_ids: List[int] = []
             for i, token_len in enumerate(data.get("audio_token_len", [])):
                 if not audio_is_continuation[i]:
                     placeholder_index += 1
@@ -338,7 +341,7 @@ class UltravoxProcessor(transformers.ProcessorMixin):
                 audio_token_start_idx.append(len(input_ids))
-                input_ids.extend([self.audio_replacement_token_id] * token_len)
             # Include any tokens after the last audio.
             placeholder_index += 1

         assert (
             tokenizer.eos_token is not None
         ), "The tokenizer has no EOS token. Cannot recover."
+        self.vocab = tokenizer.get_vocab()
+        self.audio_replacement = tokenizer.eos_token
         if tokenizer.pad_token_id is None:
             tokenizer.pad_token_id = tokenizer.eos_token_id
             split_input_ids = tokenized_parts["input_ids"]
             input_ids: List[int] = []
+            audio_replacement_token_id = self.vocab[self.audio_replacement]
             for i, token_len in enumerate(data.get("audio_token_len", [])):
                 if not audio_is_continuation[i]:
                     placeholder_index += 1
                 audio_token_start_idx.append(len(input_ids))
+                input_ids.extend([audio_replacement_token_id] * token_len)
             # Include any tokens after the last audio.
             placeholder_index += 1