Spaces:

Derr11
/

Der11

Paused

App Files Files Community

Derr11 commited on 12 days ago

Commit

3f46c32

verified ·

1 Parent(s): 4dd86c0

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -11

app.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import torch
 import spaces # مكتبة ZeroGPU
 # 1. إعدادات النموذج (Qwen3-Omni-Thinking)
-# نستخدم نسخة Thinking للحصول على قدرات الاستنتاج العميق
 MODEL_ID = "Qwen/Qwen3-Omni-30B-A3B-Thinking"
 print(f"جاري تحميل النموذج العملاق {MODEL_ID}... هذا سيستغرق بضعة دقائق.")
@@ -21,7 +20,8 @@ nf4_config = BitsAndBytesConfig(
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 # تحميل النموذج مع الضغط
-model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     quantization_config=nf4_config,
     device_map="auto",
@@ -31,10 +31,8 @@ model = AutoModelForCausalLM.from_pretrained(
 print("تم تحميل النموذج بنجاح! المعلم جاهز.")
 # 2. دالة التفكير والرد
-@spaces.GPU(duration=120) # نزيد الوقت المسموح لأن التفكير يأخذ وقتاً
 def chat_with_thinking_model(message, history):
-    # تجهيز سياق المحادثة
-    # نماذج Thinking لا تحتاج عادةً لـ System Prompt معقد، هي تفهم السياق فوراً
     messages = []
     for user_msg, bot_msg in history:
@@ -43,7 +41,6 @@ def chat_with_thinking_model(message, history):
     messages.append({"role": "user", "content": message})
-    # تحويل النص لأرقام
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
@@ -52,12 +49,10 @@ def chat_with_thinking_model(message, history):
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    # التوليد
-    # نماذج التفكير قد تولد نصوصاً طويلة تشرح فيها خطوات الحل
     generated_ids = model.generate(
         **model_inputs,
-        max_new_tokens=1024, # نعطيه مساحة ليفكر
-        temperature=0.7      # توازن بين الإبداع والدقة
     )
     generated_ids = [

 import gradio as gr
+from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 import torch
 import spaces # مكتبة ZeroGPU
 # 1. إعدادات النموذج (Qwen3-Omni-Thinking)
 MODEL_ID = "Qwen/Qwen3-Omni-30B-A3B-Thinking"
 print(f"جاري تحميل النموذج العملاق {MODEL_ID}... هذا سيستغرق بضعة دقائق.")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 # تحميل النموذج مع الضغط
+# التعديل هنا: استخدام AutoModel بدلاً من AutoModelForCausalLM
+model = AutoModel.from_pretrained(
     MODEL_ID,
     quantization_config=nf4_config,
     device_map="auto",
 print("تم تحميل النموذج بنجاح! المعلم جاهز.")
 # 2. دالة التفكير والرد
+@spaces.GPU(duration=120)
 def chat_with_thinking_model(message, history):
     messages = []
     for user_msg, bot_msg in history:
     messages.append({"role": "user", "content": message})
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
     model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
     generated_ids = model.generate(
         **model_inputs,
+        max_new_tokens=1024,
+        temperature=0.7
     )
     generated_ids = [