Spaces:

VanguardAI
/

MultiModal_OpenSource_AI

Paused

VanguardAI commited on Aug 17, 2024

Commit

c39dad7

verified ·

1 Parent(s): dab87df

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -165,10 +165,21 @@ def handle_input(user_prompt, image=None, audio=None, websearch=False, document=
             print("1")
             image = Image.open(image).convert('RGB')
             print("2")
-            messages = [{"role": "user", "content": user_prompt}]
             print("3")
-            response = vqa_model.chat(image=image, msgs=messages, tokenizer=tokenizer,context=None, temperature=0.5)
             print("4")
             return response, None
         else:
             return "Please upload an image.", None

             print("1")
             image = Image.open(image).convert('RGB')
             print("2")
+            # Add preprocessing steps here (see examples above)
+            preprocess = transforms.Compose([
+                transforms.Resize((512, 512)),  # Example size, replace with the correct one
+                transforms.ToTensor(),
+            ])
+            image = preprocess(image)
+            image = image.unsqueeze(0)  # Add batch dimension
+            image = image.to(torch.float32)  # Ensure correct data type
             print("3")
+            messages = [{"role": "user", "content": user_prompt}]
             print("4")
+            response = vqa_model.chat(image=image, msgs=messages, tokenizer=tokenizer, context=None, temperature=0.5)
+            print("5")
             return response, None
         else:
             return "Please upload an image.", None