Spaces:

aelsaeed
/

LibrarySearchSpace

Sleeping

App Files Files Community

aelsaeed commited on Dec 16, 2025

Commit

9cfdb63

verified ·

1 Parent(s): 34a7ba0

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -32

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ import numpy as np
 import os, pickle, tempfile
 from sentence_transformers import SentenceTransformer, util
 import gdown
-import torch
 # ================== إعدادات ==================
 BOOKS_FILE = "book.xlsx"
@@ -17,7 +16,7 @@ DRIVE_THESES_ID = "1K2Mtze6ZdvfKUsFMCOWlRBjDq-ZnJNrv"
 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
-MODEL_NAME = "paraphrase-multilingual-MiniLM-L12-v2"
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
@@ -37,26 +36,30 @@ def load_and_merge():
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
     merged = pd.concat([books, theses], ignore_index=True)
     return merged
 library_df = load_and_merge()
 # ================== Embeddings ==================
-def emb_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
 def build_or_load_embeddings(df, name):
-    path = emb_path(name)
     if os.path.exists(path):
-        with open(path, "rb") as f:
-            emb = pickle.load(f)
-        if len(emb) == len(df):
-            return emb
     texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path, "wb") as f:
@@ -83,42 +86,33 @@ def results_to_html(df):
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
-    # التأكد من وجود الأعمدة المطلوبة
-    for col in ["المؤلف", "العنوان", "سنة النشر", "الموقع على الرف", "المصدر"]:
-        if col not in df.columns:
-            df[col] = "-"
-    display_cols = ["المؤلف", "العنوان", "سنة النشر", "الموقع على الرف", "المصدر"]
-    df_display = df[display_cols]
-    # كل نتيجة في جدول منفصل
-    html_tables = ""
-    for _, row in df_display.iterrows():
-        html_tables += "<table class='styled-table'>"
-        for col in display_cols:
-            html_tables += f"<tr><th>{col}</th><td>{row[col]}</td></tr>"
-        html_tables += "</table><br>"
-    return CUSTOM_CSS + html_tables
 def local_search_df(query, mode, source_filter):
     if not query.strip():
         return "<p>⚠️ اكتب كلمة أو جملة للبحث</p>", pd.DataFrame()
     df_search = library_df.copy()
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
     else:
-        # التأكد من أن embeddings كلها tensors
-        q_emb = torch.tensor(model.encode([query], convert_to_numpy=True), dtype=torch.float32)
-        lib_emb = torch.tensor(library_embeddings, dtype=torch.float32)
-        scores = util.cos_sim(q_emb, lib_emb)[0]
-        df_search["score"] = scores.numpy()
-        # ترتيب من الأعلى إلى الأقل
-        df = df_search.sort_values("score", ascending=False).reset_index(drop=True)
     return results_to_html(df), df
@@ -153,6 +147,7 @@ with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")

 import os, pickle, tempfile
 from sentence_transformers import SentenceTransformer, util
 import gdown
 # ================== إعدادات ==================
 BOOKS_FILE = "book.xlsx"
 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
+MODEL_NAME = "all-MiniLM-L6-v2"
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
+    # إضافة نوع المصدر
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
+    # دمج
     merged = pd.concat([books, theses], ignore_index=True)
     return merged
 library_df = load_and_merge()
 # ================== Embeddings ==================
+def embeddings_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
 def build_or_load_embeddings(df, name):
+    path = embeddings_path(name)
     if os.path.exists(path):
+        try:
+            with open(path, "rb") as f:
+                emb = pickle.load(f)
+            if len(emb) == len(df):
+                return emb
+        except Exception:
+            pass
     texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path, "wb") as f:
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
+    html_all = ""
+    for _, row in df.iterrows():
+        data = {col: row[col] if col in row else "-" for col in ["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر"]}
+        df_row = pd.DataFrame([data])
+        html_all += df_row.to_html(index=False, escape=False, classes="styled-table", border=0) + "<br>"
+    return CUSTOM_CSS + html_all
+# ================== البحث ==================
 def local_search_df(query, mode, source_filter):
     if not query.strip():
         return "<p>⚠️ اكتب كلمة أو جملة للبحث</p>", pd.DataFrame()
     df_search = library_df.copy()
+    # فلترة حسب المصدر
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
+    # بحث نصي
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
+    # بحث دلالي
     else:
+        q_emb = model.encode([query], convert_to_numpy=True)
+        scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
+        df_search["score"] = scores
+        df = df_search.sort_values("score", ascending=False)
     return results_to_html(df), df
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")