Spaces:

Derr11
/

Der11

Paused

App Files Files Community

Derr11 commited on 24 days ago

Commit

5d70b88

verified ·

1 Parent(s): ecbe307

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -66

app.py CHANGED Viewed

@@ -1,81 +1,84 @@
-import gradio as gr
-from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 import torch
-import spaces # مكتبة ZeroGPU
-# 1. إعدادات النموذج (Qwen3-Omni-Thinking)
-MODEL_ID = "Qwen/Qwen3-Omni-30B-A3B-Thinking"
-print(f"جاري تحميل النموذج العملاق {MODEL_ID}... هذا سيستغرق بضعة دقائق.")
-# إعداد الضغط (4-bit Quantization) لتناسب ذاكرة ZeroGPU
-nf4_config = BitsAndBytesConfig(
-    load_in_4bit=True,
-    bnb_4bit_quant_type="nf4",
-    bnb_4bit_use_double_quant=True,
-    bnb_4bit_compute_dtype=torch.bfloat16
 )
-# تحميل الـ Tokenizer
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-# تحميل النموذج مع الضغط
-# التعديل هنا: استخدام AutoModel بدلاً من AutoModelForCausalLM
-model = AutoModel.from_pretrained(
-    MODEL_ID,
-    quantization_config=nf4_config,
-    device_map="auto",
     trust_remote_code=True
 )
-print("تم تحميل النموذج بنجاح! المعلم جاهز.")
-# 2. دالة التفكير والرد
-@spaces.GPU(duration=120)
-def chat_with_thinking_model(message, history):
-    messages = []
-    for user_msg, bot_msg in history:
-        messages.append({"role": "user", "content": user_msg})
-        messages.append({"role": "assistant", "content": bot_msg})
-    messages.append({"role": "user", "content": message})
-    text = tokenizer.apply_chat_template(
-        messages,
-        tokenize=False,
-        add_generation_prompt=True
-    )
-    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    generated_ids = model.generate(
-        **model_inputs,
-        max_new_tokens=1024,
-        temperature=0.7
-    )
-    generated_ids = [
-        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
-    ]
-    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
-    return response
-# 3. واجهة المستخدم
-custom_css = """
-#chatbot {min-height: 400px;}
-"""
-with gr.Blocks(css=custom_css, theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🧠 Nasaq AI Tutor (Thinking Mode)")
-    gr.Markdown("هذا النموذج يستخدم **Qwen3-Omni-Thinking**. ستلاحظ أنه قد يكتب خطوات تفكيره قبل الإجابة النهائية.")
-    chatbot = gr.ChatInterface(
-        fn=chat_with_thinking_model,
-        examples=["اشرح لي النظرية النسبية وكأنني طفل في الخامسة", "حل المعادلة: س^2 + 5س + 6 = 0 مع الشرح"],
-        cache_examples=False,
-    )
-if __name__ == "__main__":
-    demo.launch()

+import soundfile as sf
 import torch
+from transformers import AutoModelForCausalLM, AutoProcessor
+# تأكد أن ملف qwen_omni_utils.py موجود في نفس المجلد
+from qwen_omni_utils import process_mm_info
+MODEL_PATH = "Qwen/Qwen3-Omni-30B-A3B-Instruct"
+# 1. استخدام AutoModel بدلاً من الاسم المباشر وتفعيل trust_remote_code
+print("Loading model...")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_PATH,
+    dtype="auto",
+    device_map="auto",
+    attn_implementation="flash_attention_2",
+    trust_remote_code=True  # ضروري جداً للنماذج الجديدة
 )
+# 2. استخدام AutoProcessor وتفعيل trust_remote_code
+print("Loading processor...")
+processor = AutoProcessor.from_pretrained(
+    MODEL_PATH,
     trust_remote_code=True
 )
+conversation = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cars.jpg"},
+            {"type": "audio", "audio": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-Omni/demo/cough.wav"},
+            {"type": "text", "text": "What can you see and hear? Answer in one short sentence."}
+        ],
+    },
+]
+USE_AUDIO_IN_VIDEO = True
+# Preparation for inference
+print("Processing inputs...")
+text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
+# تأكد أن دالة process_mm_info تعمل بشكل صحيح مع الروابط
+audios, images, videos = process_mm_info(conversation, use_audio_in_video=USE_AUDIO_IN_VIDEO)
+inputs = processor(
+    text=text,
+    audio=audios,
+    images=images,
+    videos=videos,
+    return_tensors="pt",
+    padding=True,
+    use_audio_in_video=USE_AUDIO_IN_VIDEO
+)
+inputs = inputs.to(model.device).to(model.dtype)
+# Inference
+print("Generating...")
+text_ids, audio = model.generate(
+    **inputs,
+    speaker="Ethan",
+    thinker_return_dict_in_generate=True,
+    use_audio_in_video=USE_AUDIO_IN_VIDEO
+)
+# Decoding text
+output_text = processor.batch_decode(
+    text_ids.sequences[:, inputs["input_ids"].shape[1] :],
+    skip_special_tokens=True,
+    clean_up_tokenization_spaces=False
+)
+print(f"Output Text: {output_text}")
+# Saving audio
+if audio is not None:
+    print("Saving audio to output.wav...")
+    sf.write(
+        "output.wav",
+        audio.reshape(-1).detach().cpu().numpy(),
+        samplerate=24000,
+    )
+    print("Done.")