RhapsodyAI
/

MiniCPM-V-Embedding-preview

Feature Extraction

information retrieval

embedding model

visual information retrieval

Model card Files Files and versions

bokesyo commited on Jul 6, 2024

Commit

3e25657

·

verified ·

1 Parent(s): 1fe5c53

Update modeling_minicpmv.py

Files changed (1) hide show

modeling_minicpmv.py +4 -3

modeling_minicpmv.py CHANGED Viewed

@@ -186,7 +186,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
         return model_input
     def _process_list( # pad input tensors
-        self, tokenizer, data_list: List[str], max_inp_length: Optional[int] = None, padding_side: str = "left"
     ):
         # pad_keys = ["input_ids"]
         input_tensors = []
@@ -241,7 +241,7 @@ class MiniCPMV(MiniCPMVPreTrainedModel):
-def pad(orig_items, max_length=None, padding_value=0, padding_side="left"):
     """
     Args:
         orig_items: a list of input_ids, each input_ids should be [1, length_i]
@@ -266,6 +266,7 @@ def pad(orig_items, max_length=None, padding_value=0, padding_side="left"):
     for i, item in enumerate(items):
         length = item.shape[0]
         if padding_side == "left":
             tensor[i, -length:] = item
             attention_mask[i, -length:] = 1
         else:
@@ -445,7 +446,7 @@ class MiniCPMVEmbedding(MiniCPMV): # MiniCPMVEmbedding -> MiniCPMV ->  Ultimatel
             img_list = [[] for i in range(bs)]
         assert bs == len(img_list)
-        model_inputs = self._process_list(tokenizer, data_list, max_inp_length, padding_side="left")
         if vision_hidden_states is None:
             pixel_values = transform_image_mp(img_list, self.transform, self.device, max_workers=8)

         return model_input
     def _process_list( # pad input tensors
+        self, tokenizer, data_list: List[str], max_inp_length: Optional[int] = None, padding_side: str = "right"
     ):
         # pad_keys = ["input_ids"]
         input_tensors = []
+def pad(orig_items, max_length=None, padding_value=0, padding_side="right"):
     """
     Args:
         orig_items: a list of input_ids, each input_ids should be [1, length_i]
     for i, item in enumerate(items):
         length = item.shape[0]
         if padding_side == "left":
+            raise NotImplementedError("left padding can cause model performance degrade, see `https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5/discussions/26`")
             tensor[i, -length:] = item
             attention_mask[i, -length:] = 1
         else:
             img_list = [[] for i in range(bs)]
         assert bs == len(img_list)
+        model_inputs = self._process_list(tokenizer, data_list, max_inp_length, padding_side="right")
         if vision_hidden_states is None:
             pixel_values = transform_image_mp(img_list, self.transform, self.device, max_workers=8)