Spaces:

Hothaifa
/

Fatwa-hadith-assistant

Sleeping

App Files Files Community

Hothaifa commited on about 1 month ago

Commit

bc12a37

verified ·

1 Parent(s): 092743e

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -41

app.py CHANGED Viewed

@@ -33,14 +33,7 @@ if GEMINI_API_KEY:
     except Exception as e:
         print(f"[ERROR] Failed to init Gemini Client: {e}")
-# ---------------------------------------------------------
-# 2. تعريف التطبيق
-# ---------------------------------------------------------
 app = FastAPI(title="Hajeen Islamic QA API")
-# ---------------------------------------------------------
-# 3. دوال مساعدة عامة
-# ---------------------------------------------------------
 DISCLAIMERS = {
     "ar": "",
     "de": "\n\n(Hinweis: Automatisch übersetzt. Konsultieren Sie das arabische Original.)",
@@ -126,9 +119,7 @@ def check_rate_limit(ip: str):
         raise HTTPException(status_code=429, detail="Rate limit exceeded.")
     dq.append(now)
-# ---------------------------------------------------------
-# 4. إعدادات النماذج والبيانات
-# ---------------------------------------------------------
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 DATA_FILE_ID = "1GMG6fVxhUuBEAHP91c8RAUdUJh5TxY5O"
@@ -154,14 +145,10 @@ def safe_download(file_id, output_path):
         gdown.download(id=file_id, output=output_path, quiet=False)
     except Exception as e:
         print(f"[DOWNLOAD ERROR] {e}")
-# تهيئة النماذج
 model_name = 'aubmindlab/bert-base-arabertv2'
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModel.from_pretrained(model_name).to(device)
 vectorizer = TfidfVectorizer(analyzer="char_wb", ngram_range=(3,5), min_df=1)
-# متغيرات جلوبال
 df_main = pd.DataFrame()
 df_learned = pd.DataFrame()
 df_all = pd.DataFrame()
@@ -180,14 +167,10 @@ def load_hadith_corpora(paths: dict) -> pd.DataFrame:
                     df["matn_clean"] = df["matn_full"].fillna("").apply(normalize_ar)
                 df["source"] = src
                 df["hadith_number"] = df["hadith_number"].astype(str).str.replace(r"\D","",regex=True)
-                # --- FIX: Ensure grading is string and no NaNs ---
                 if "grading" not in df.columns:
                     df["grading"] = ""
                 else:
                     df["grading"] = df["grading"].fillna("").astype(str)
-                # -------------------------------------------------
                 all_dfs.append(df[["source","hadith_number","matn_full","matn_clean","grading"]])
             except Exception as e:
                 print(f"Error loading {src}: {e}")
@@ -206,8 +189,6 @@ async def startup_event():
     safe_download(ID_BUKHARI, PATHS["bukhari"])
     safe_download(ID_MUSLIM, PATHS["muslim"])
     safe_download(ID_MUSNAD, PATHS["musnad"])
-    # تحميل الفتاوى
     if os.path.exists(data_path):
         df_main = pd.read_csv(data_path)
@@ -221,8 +202,6 @@ async def startup_event():
         question_embeddings = np.load(embeddings_path)
         index = faiss.IndexFlatL2(question_embeddings.shape[1])
         index.add(question_embeddings.astype('float32'))
-    # تحميل الأحاديث
     df_all = load_hadith_corpora(PATHS)
     if not df_all.empty:
         tfidf_matrix = vectorizer.fit_transform(df_all["matn_clean"])
@@ -238,9 +217,6 @@ def get_embedding_for_query(text: str):
         outputs = model(**inputs)
     return outputs.last_hidden_state[:, 0, :].cpu().numpy()
-# ---------------------------------------------------------
-# 5. وظيفة Gemini للبحث
-# ---------------------------------------------------------
 def ask_gemini_with_search(query: str, lang: str = "ar"):
     if not gemini_client: return None
     model_id = "gemini-2.0-flash"
@@ -250,11 +226,17 @@ def ask_gemini_with_search(query: str, lang: str = "ar"):
     مهمتك: الإجابة على الأسئلة الشرعية والفتاوى بدقة بناءً على نتائج البحث الموثوقة.
     تعليمات هامة جداً:
-    . أبدأ أجاباتك دائما بـ (الحمدلله والصلاة والسلام على رسول الله أما بعد  :)  واختم جوابك بـ (والله أعلم)
     . لغة الإجابة: المستخدم يسأل بلغة الكود ({lang}). يجب أن تكون إجابتك بالكامل بهذه اللغة ({lang}). لا تجب بالعربية إذا كان السؤال بغيرها.
     . استخدم "بحث Google" دائماً للتأكد من المعلومات من مصادر مثل (إسلام ويب، الإسلام سؤال وجواب، ابن باز).
     . الاختصار المفيد: لا تكثر من الحشو، وأعط الزبدة مع الدليل.
-    . اذكر المصادر في نهاية إجابتك.
     """
     try:
@@ -281,10 +263,6 @@ def ask_gemini_with_search(query: str, lang: str = "ar"):
         print(f"[GEMINI ERROR] {e}")
         return None
-# ---------------------------------------------------------
-# 6. API Endpoints
-# ---------------------------------------------------------
 class SearchRequest(BaseModel):
     query: str
     top_k: int = 1
@@ -315,8 +293,6 @@ def search(request: SearchRequest):
     if guard:
         error_msg = translate_error_detail("عذراً، السؤال غير مناسب.", target_lang)
         raise HTTPException(status_code=400, detail=error_msg)
-    # 1. التعلم الذاتي
     if not df_learned.empty:
         row = df_learned[df_learned["question"] == q]
         if not row.empty:
@@ -330,7 +306,7 @@ def search(request: SearchRequest):
                 "score": 100
             }]}
-    # 2. البحث المحلي (FAISS)
     is_arabic_query = any("\u0600" <= c <= "\u06FF" for c in q)
     if is_arabic_query and index is not None:
         query_emb = get_embedding_for_query(q)
@@ -350,7 +326,7 @@ def search(request: SearchRequest):
                 "score": int(similarity)
             }]}
-    # 3. Gemini Search
     print(f"[INFO] Asking Gemini: {q} (Lang: {target_lang})")
     gemini_answer = ask_gemini_with_search(q, lang=target_lang)
@@ -385,7 +361,7 @@ def feedback(req: FeedbackRequest):
         pd.DataFrame([req.dict()]).to_csv(FEEDBACK_FILE, mode='a', header=False, index=False)
     return {"message": "تم حفظ التقييم."}
-# --- Hadith Logic ---
 SOURCE_ALIAS = {
     "bukhari": "صحيح البخاري", "muslim": "صحيح مسلم", "musnad": "مسند أحمد",
     "صحيح البخاري": "صحيح البخاري", "صحيح مسلم": "صحيح مسلم", "مسند أحمد": "مسند أحمد"
@@ -472,13 +448,8 @@ def hadith_search(req: HadithSearchRequest, request: Request):
             base_score = sims[i] * 100
             fuzz_score = fuzz.token_set_ratio(q_norm, row["matn_clean"])
             source_bonus = 15 if row["source"] == "صحيح البخاري" else (10 if row["source"] == "صحيح مسلم" else 0)
-            # --- FIX: Safe grading check for NaNs ---
-            # Ensure grading value is converted to string before check
             grading_val = str(row.get("grading", "") or "")
             grading_bonus = 5 if "صحيح" in grading_val else 0
-            # ----------------------------------------
             final_score = base_score * 0.5 + fuzz_score * 0.5 + source_bonus + grading_bonus
             candidates.append((row, final_score))

     except Exception as e:
         print(f"[ERROR] Failed to init Gemini Client: {e}")
 app = FastAPI(title="Hajeen Islamic QA API")
 DISCLAIMERS = {
     "ar": "",
     "de": "\n\n(Hinweis: Automatisch übersetzt. Konsultieren Sie das arabische Original.)",
         raise HTTPException(status_code=429, detail="Rate limit exceeded.")
     dq.append(now)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 DATA_FILE_ID = "1GMG6fVxhUuBEAHP91c8RAUdUJh5TxY5O"
         gdown.download(id=file_id, output=output_path, quiet=False)
     except Exception as e:
         print(f"[DOWNLOAD ERROR] {e}")
 model_name = 'aubmindlab/bert-base-arabertv2'
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModel.from_pretrained(model_name).to(device)
 vectorizer = TfidfVectorizer(analyzer="char_wb", ngram_range=(3,5), min_df=1)
 df_main = pd.DataFrame()
 df_learned = pd.DataFrame()
 df_all = pd.DataFrame()
                     df["matn_clean"] = df["matn_full"].fillna("").apply(normalize_ar)
                 df["source"] = src
                 df["hadith_number"] = df["hadith_number"].astype(str).str.replace(r"\D","",regex=True)
                 if "grading" not in df.columns:
                     df["grading"] = ""
                 else:
                     df["grading"] = df["grading"].fillna("").astype(str)
                 all_dfs.append(df[["source","hadith_number","matn_full","matn_clean","grading"]])
             except Exception as e:
                 print(f"Error loading {src}: {e}")
     safe_download(ID_BUKHARI, PATHS["bukhari"])
     safe_download(ID_MUSLIM, PATHS["muslim"])
     safe_download(ID_MUSNAD, PATHS["musnad"])
     if os.path.exists(data_path):
         df_main = pd.read_csv(data_path)
         question_embeddings = np.load(embeddings_path)
         index = faiss.IndexFlatL2(question_embeddings.shape[1])
         index.add(question_embeddings.astype('float32'))
     df_all = load_hadith_corpora(PATHS)
     if not df_all.empty:
         tfidf_matrix = vectorizer.fit_transform(df_all["matn_clean"])
         outputs = model(**inputs)
     return outputs.last_hidden_state[:, 0, :].cpu().numpy()
 def ask_gemini_with_search(query: str, lang: str = "ar"):
     if not gemini_client: return None
     model_id = "gemini-2.0-flash"
     مهمتك: الإجابة على الأسئلة الشرعية والفتاوى بدقة بناءً على نتائج البحث الموثوقة.
     تعليمات هامة جداً:
+    . أنت مختص في الفتاوي والأسألة الشرعية لا تدخل في أمور أخرى، إذا كان السؤال خارج نطاق الشريعة او أنه لا يبدو ك فتوى او سؤال ديني أو أستفسار ديني لا تجيب مثال إذا كان السؤال (ما هي عاصمة سوريا، كم سعر الدولار، هل أنت نموذج لغوي، هل يمكنك تعديل كود،)  أعتذر بأدب وقول (أنا نموذج لغوي تعلمت على الأجابة على الأسألة الشرعية والدينية من مصادر أهل السنة والجماعة، أما سؤالك فيمكنك العثور على أجابة له في Google أو من Gemini أو أنماط أخرى).
+    . أذا تم الأستفسار عن أمر ديني أجب وأحرص على الشرح أذا كان أستفسار وليس سؤال، أما أذا سؤال لا تكثر من الحشو وأعط الزبدة مع الحفاظ على جمالية الجواب.
+    . المستخدم ليس دائماً على حق، ربما يسهو أو يخطأ، أذا اخطأ صحح له أتباعاً لمنهج أهل السنة والجماعة فقط، وحاول مساعدته في العثور على أجابة (دينية فقط)  أما دون ذلك أجب بأعتذار كما ذكرت سابقاً.
+    . أحرص على عدم الأجابة على اسألة سياسية او علمية.
+    . أذا تم فتح نقاش معك قل أنا لا أصلح للنقاشات (أنا فقط أبحث وأجيب على اسألة فتوى او أستفسار)  وشكراً
+    . ميولك يجب أن تكون لمنهج أهل السنة والجماعة فقط أما دون ذلك أعتذر بأدب وقل هداكم الله.
+    . أبدأ أجاباتك دائما بـ (الحمدلله والصلاة والسلام على رسول الله أما بعد :  واختم جوابك بـ (والله أعلم).
     . لغة الإجابة: المستخدم يسأل بلغة الكود ({lang}). يجب أن تكون إجابتك بالكامل بهذه اللغة ({lang}). لا تجب بالعربية إذا كان السؤال بغيرها.
     . استخدم "بحث Google" دائماً للتأكد من المعلومات من مصادر مثل (إسلام ويب، الإسلام سؤال وجواب، ابن باز).
     . الاختصار المفيد: لا تكثر من الحشو، وأعط الزبدة مع الدليل.
+    . اذكر دائماً أن مصادرك هي محرك بحث Google وبالتحديد موقعين أسلام ويب وإسلام سؤال وجواب .
     """
     try:
         print(f"[GEMINI ERROR] {e}")
         return None
 class SearchRequest(BaseModel):
     query: str
     top_k: int = 1
     if guard:
         error_msg = translate_error_detail("عذراً، السؤال غير مناسب.", target_lang)
         raise HTTPException(status_code=400, detail=error_msg)
     if not df_learned.empty:
         row = df_learned[df_learned["question"] == q]
         if not row.empty:
                 "score": 100
             }]}
     is_arabic_query = any("\u0600" <= c <= "\u06FF" for c in q)
     if is_arabic_query and index is not None:
         query_emb = get_embedding_for_query(q)
                 "score": int(similarity)
             }]}
     print(f"[INFO] Asking Gemini: {q} (Lang: {target_lang})")
     gemini_answer = ask_gemini_with_search(q, lang=target_lang)
         pd.DataFrame([req.dict()]).to_csv(FEEDBACK_FILE, mode='a', header=False, index=False)
     return {"message": "تم حفظ التقييم."}
 SOURCE_ALIAS = {
     "bukhari": "صحيح البخاري", "muslim": "صحيح مسلم", "musnad": "مسند أحمد",
     "صحيح البخاري": "صحيح البخاري", "صحيح مسلم": "صحيح مسلم", "مسند أحمد": "مسند أحمد"
             base_score = sims[i] * 100
             fuzz_score = fuzz.token_set_ratio(q_norm, row["matn_clean"])
             source_bonus = 15 if row["source"] == "صحيح البخاري" else (10 if row["source"] == "صحيح مسلم" else 0)
             grading_val = str(row.get("grading", "") or "")
             grading_bonus = 5 if "صحيح" in grading_val else 0
             final_score = base_score * 0.5 + fuzz_score * 0.5 + source_bonus + grading_bonus
             candidates.append((row, final_score))