Spaces:

iamrobotbear
/

blip-vqa-gradio

Paused

iamrobotbear commited on Apr 6, 2023

Commit

f260439

1 Parent(s): cadcb55

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -33,19 +33,19 @@ def blip2_interface(image, prompted_caption_text, vqa_question, chat_context):
     image_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Prompted Image Captioning
-    inputs = processor(image_input, text=prompted_caption_text, return_tensors="pt").to(device, torch.float16)
     generated_ids = model.generate(**inputs, max_new_tokens=20)
     prompted_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Visual Question Answering (VQA)
     prompt = f"Question: {vqa_question} Answer:"
-    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device, torch.float16)
     generated_ids = model.generate(**inputs, max_new_tokens=10)
     vqa_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Chat-based Prompting
     prompt = chat_context + " Answer:"
-    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device, torch.float16)
     generated_ids = model.generate(**inputs, max_new_tokens=10)
     chat_response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()

     image_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Prompted Image Captioning
+    inputs = processor(image_input, text=prompted_caption_text, return_tensors="pt").to(device)
     generated_ids = model.generate(**inputs, max_new_tokens=20)
     prompted_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Visual Question Answering (VQA)
     prompt = f"Question: {vqa_question} Answer:"
+    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device)
     generated_ids = model.generate(**inputs, max_new_tokens=10)
     vqa_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
     # Chat-based Prompting
     prompt = chat_context + " Answer:"
+    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device)
     generated_ids = model.generate(**inputs, max_new_tokens=10)
     chat_response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()