Spaces:

iamrobotbear
/

blip-vqa-gradio

Paused

App Files Files Community

iamrobotbear commited on Mar 30, 2023

Commit

6ded388

1 Parent(s): 235b83d

Create app.py

Browse files

Files changed (1) hide show

app.py +50 -0

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import gradio as gr
+from transformers import AutoProcessor, Blip2ForConditionalGeneration
+import torch
+from PIL import Image
+# Load the BLIP-2 model and processor
+processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
+model = Blip2ForConditionalGeneration.from_pretrained(
+    "Salesforce/blip2-opt-2.7b", device_map="auto", load_in_8bit=True
+)
+# Set device to GPU if available
+device = "cuda" if torch.cuda.is_available() else "cpu"
+def blip2_interface(image, prompted_caption_text, vqa_question, chat_context):
+    # Prepare image input
+    image_input = Image.fromarray(image).convert('RGB')
+    inputs = processor(image_input, return_tensors="pt").to(device, torch.float16)
+    # Image Captioning
+    generated_ids = model.generate(**inputs, max_new_tokens=20)
+    image_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+    # Prompted Image Captioning
+    inputs = processor(image_input, text=prompted_caption_text, return_tensors="pt").to(device, torch.float16)
+    generated_ids = model.generate(**inputs, max_new_tokens=20)
+    prompted_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+    # Visual Question Answering (VQA)
+    prompt = f"Question: {vqa_question} Answer:"
+    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device, torch.float16)
+    generated_ids = model.generate(**inputs, max_new_tokens=10)
+    vqa_answer = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+    # Chat-based Prompting
+    prompt = chat_context + " Answer:"
+    inputs = processor(image_input, text=prompt, return_tensors="pt").to(device, torch.float16)
+    generated_ids = model.generate(**inputs, max_new_tokens=10)
+    chat_response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()
+    return image_caption, prompted_caption, vqa_answer, chat_response
+# Define Gradio input and output components
+image_input = gr.inputs.Image(type="numpy")
+text_input = gr.inputs.Text()
+output_text = gr.outputs.Text()
+# Create Gradio interface
+iface = gr.Interface(