Spaces:

aelsaeed
/

LibrarySearchSpace

Running

App Files Files Community

aelsaeed commited on Dec 16, 2025

Commit

3eedb01

verified ·

1 Parent(s): cb7e269

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -74

app.py CHANGED Viewed

@@ -23,10 +23,7 @@ model = SentenceTransformer(MODEL_NAME)
 def download_from_drive(file_id, output):
     if not os.path.exists(output):
         url = f"https://drive.google.com/uc?id={file_id}"
-        try:
-            gdown.download(url, output, quiet=True)
-        except Exception:
-            pass
 download_from_drive(DRIVE_BOOKS_ID, BOOKS_FILE)
 download_from_drive(DRIVE_THESES_ID, THESES_FILE)
@@ -39,18 +36,6 @@ def load_and_merge():
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
-    # توحيد عمود العنوان
-    def normalize_title(df):
-        if "Title" not in df.columns:
-            if "العنوان" in df.columns:
-                df["Title"] = df["العنوان"].astype(str)
-            else:
-                df["Title"] = df.iloc[:, 0].astype(str)
-        return df
-    books = normalize_title(books)
-    theses = normalize_title(theses)
     # إضافة نوع المصدر
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
@@ -73,7 +58,7 @@ def build_or_load_embeddings(df, name):
         if len(emb) == len(df):
             return emb
-    texts = df["Title"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path, "wb") as f:
         pickle.dump(emb, f)
@@ -86,50 +71,25 @@ def results_to_html(df):
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
-    # اختيار الأعمدة المطلوبة
-    cols = []
-    if "المؤلف" in df.columns:
-        cols.append("المؤلف")
-    elif "Author" in df.columns:
-        df["المؤلف"] = df["Author"]
-        cols.append("المؤلف")
-    else:
-        df["المؤلف"] = "-"
-        cols.append("المؤلف")
-    if "العنوان" in df.columns:
-        cols.append("العنوان")
-    else:
-        df["العنوان"] = df.get("Title", "-")
-        cols.append("العنوان")
-    if "سنة النشر" in df.columns:
-        cols.append("سنة النشر")
-    else:
-        df["سنة النشر"] = "-"
-        cols.append("سنة النشر")
-    if "الموقع على الرف" in df.columns:
-        cols.append("الموقع على الرف")
-    else:
-        df["الموقع على الرف"] = "-"
-        cols.append("الموقع على الرف")
-    if "المصدر" in df.columns:
-        cols.append("المصدر")
-    else:
-        df["المصدر"] = "-"
-        cols.append("المصدر")
-    df_display = df[cols]
-    # تحويل إلى HTML مع تنسيق بسيط
-    return df_display.to_html(index=False, escape=False, classes="table table-striped")
 # ================== البحث ==================
 def local_search_df(query, mode, source_filter):
-    if not query or not query.strip():
         return "<p>⚠️ اكتب كلمة أو جملة للبحث</p>", pd.DataFrame()
     df_search = library_df.copy()
@@ -138,25 +98,16 @@ def local_search_df(query, mode, source_filter):
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
-    # ---- بحث نصي ----
     if mode == "نصي":
-        col = "العنوان" if "العنوان" in df_search.columns else "Title"
-        df = df_search[df_search[col].astype(str).str.contains(query, case=False, na=False)]
-    # ---- بحث دلالي ----
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
-        df_search = df_search.copy()
         df_search["score"] = scores
         df = df_search.sort_values("score", ascending=False)
-    if df.empty:
-        df = pd.DataFrame([{"نتيجة": "❌ لم يتم العثور على نتائج"}])
-    if "Title" in df.columns:
-        df = df.drop(columns=["Title"])
     return results_to_html(df), df
 # ================== حفظ النتائج Excel ==================
@@ -169,12 +120,11 @@ def save_to_excel(df):
     return tmp.name
 # ================== الواجهة ==================
-with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
-    gr.Markdown("## 🔍 البحث بالمكتبة (ملف موحد)")
-    # صورة المكتبة
-    gr.Image("https://drive.google.com/uc?id=1y1cbJbdXSrhkEM7bMDrAUKr0dTiHPe-y",
-             elem_id="library-image", type="auto")
     query = gr.Textbox(label="اكتب كلمة أو موضوع البحث")
@@ -208,5 +158,4 @@ with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
         outputs=file_out
     )
 app.launch()

 def download_from_drive(file_id, output):
     if not os.path.exists(output):
         url = f"https://drive.google.com/uc?id={file_id}"
+        gdown.download(url, output, quiet=True)
 download_from_drive(DRIVE_BOOKS_ID, BOOKS_FILE)
 download_from_drive(DRIVE_THESES_ID, THESES_FILE)
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
     # إضافة نوع المصدر
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
         if len(emb) == len(df):
             return emb
+    texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path, "wb") as f:
         pickle.dump(emb, f)
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
+    # التأكد من وجود الأعمدة المطلوبة
+    for col in ["المؤلف", "العنوان", "سنة النشر", "الموقع على الرف", "المصدر"]:
+        if col not in df.columns:
+            df[col] = "-"
+    display_cols = ["المؤلف", "العنوان", "سنة النشر", "الموقع على الرف", "المصدر"]
+    df_display = df[display_cols]
+    html_table = df_display.to_html(
+        index=False,
+        escape=False,
+        classes="table table-striped",
+        border=0
+    )
+    return html_table
 # ================== البحث ==================
 def local_search_df(query, mode, source_filter):
+    if not query.strip():
         return "<p>⚠️ اكتب كلمة أو جملة للبحث</p>", pd.DataFrame()
     df_search = library_df.copy()
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
+    # بحث نصي
     if mode == "نصي":
+        df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
+    # بحث دلالي
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
         df_search["score"] = scores
         df = df_search.sort_values("score", ascending=False)
     return results_to_html(df), df
 # ================== حفظ النتائج Excel ==================
     return tmp.name
 # ================== الواجهة ==================
+IMAGE_URL = "https://drive.google.com/uc?id=1y1cbJbdXSrhkEM7bMDrAUKr0dTiHPe-y"
+with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
+    gr.Markdown("## 🔍 البحث في مقتنيات المكتبة")
+    gr.Image(IMAGE_URL, elem_id="header-image")
     query = gr.Textbox(label="اكتب كلمة أو موضوع البحث")
         outputs=file_out
     )
 app.launch()