Spaces:

aelsaeed
/

LibrarySearchSpace

Running

App Files Files Community

aelsaeed commited on 22 days ago

Commit

be62a9f

verified ·

1 Parent(s): 7c9bc21

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -27

app.py CHANGED Viewed

@@ -16,7 +16,8 @@ DRIVE_THESES_ID = "1K2Mtze6ZdvfKUsFMCOWlRBjDq-ZnJNrv"
 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
-MODEL_NAME = "all-MiniLM-L6-v2"  # نموذج أخف وأسرع
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
@@ -28,26 +29,19 @@ def download_from_drive(file_id, output):
 download_from_drive(DRIVE_BOOKS_ID, BOOKS_FILE)
 download_from_drive(DRIVE_THESES_ID, THESES_FILE)
-# ================== تحميل ودمج الملفات ==================
-def load_and_merge():
-    if not os.path.exists(BOOKS_FILE) or not os.path.exists(THESES_FILE):
-        raise FileNotFoundError("❌ تأكدي من وجود book.xlsx و theses.xlsx")
-    books = pd.read_excel(BOOKS_FILE).fillna("")
-    theses = pd.read_excel(THESES_FILE).fillna("")
-    books["المصدر"] = "كتاب"
-    theses["المصدر"] = "رسالة"
-    merged = pd.concat([books, theses], ignore_index=True)
-    return merged
-library_df = load_and_merge()
-# ================== Embeddings ==================
 def emb_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
 def build_or_load_embeddings(df, name):
     path = emb_path(name)
     if os.path.exists(path):
@@ -58,13 +52,21 @@ def build_or_load_embeddings(df, name):
                 return emb
         except Exception:
             pass
-    texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path,"wb") as f:
         pickle.dump(emb,f)
     return emb
-library_embeddings = build_or_load_embeddings(library_df, "library")
 # ================== CSS ==================
 CUSTOM_CSS = """
@@ -74,25 +76,23 @@ CUSTOM_CSS = """
 .styled-table tr:nth-child(even){background-color:#f9f9f9;}
 .styled-table tr:nth-child(odd){background-color:#fff;}
 .styled-table th{background-color:#4da6ff;color:white;}
-a{color:#0066cc;text-decoration:none;}
-a:hover{text-decoration:underline;}
 </style>
 """
-# ================== عرض النتائج HTML ==================
 def results_to_html(df):
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
-    for col in ["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر","score"]:
         if col not in df.columns:
             df[col] = "-"
     html_results = ""
     for _, row in df.iterrows():
-        single_df = pd.DataFrame([row[["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر","score"]]])
-        html_results += single_df.to_html(index=False, escape=False, classes="styled-table", border=0)
     return CUSTOM_CSS + html_results
 # ================== البحث ==================
@@ -102,16 +102,19 @@ def local_search_df(query, mode, source_filter):
     df_search = library_df.copy()
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
         df_search["score"] = scores
-        df = df_search.sort_values("score", ascending=False).head(20)  # أعلى 20 نتيجة
     return results_to_html(df), df
@@ -124,7 +127,7 @@ def save_to_excel(df):
         df.to_excel(tmp.name, index=False)
     return tmp.name
-# ================== الواجهة ==================
 IMAGE_URL = "https://drive.google.com/uc?id=1y1cbJbdXSrhkEM7bMDrAUKr0dTiHPe-y"
 with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
@@ -146,6 +149,7 @@ with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")

 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
+# ================== تحميل نموذج Semantic ==================
+MODEL_NAME = "all-MiniLM-L6-v2"
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
 download_from_drive(DRIVE_BOOKS_ID, BOOKS_FILE)
 download_from_drive(DRIVE_THESES_ID, THESES_FILE)
+# ================== تحميل الملفات ==================
+books_df = pd.read_excel(BOOKS_FILE).fillna("")
+theses_df = pd.read_excel(THESES_FILE).fillna("")
+# إضافة نوع المصدر
+books_df["المصدر"] = "كتاب"
+theses_df["المصدر"] = "رسالة"
+# ================== مسار الـ embeddings ==================
 def emb_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
+# ================== بناء أو تحميل الـ embeddings ==================
 def build_or_load_embeddings(df, name):
     path = emb_path(name)
     if os.path.exists(path):
                 return emb
         except Exception:
             pass
+    # تأكد من وجود عمود Title
+    if "Title" not in df.columns:
+        df["Title"] = df["العنوان"]
+    texts = df["Title"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
     with open(path,"wb") as f:
         pickle.dump(emb,f)
     return emb
+books_embeddings = build_or_load_embeddings(books_df,"books")
+theses_embeddings = build_or_load_embeddings(theses_df,"theses")
+# ================== دمج المكتبة ==================
+library_df = pd.concat([books_df, theses_df], ignore_index=True)
+library_embeddings = np.concatenate([books_embeddings, theses_embeddings], axis=0)
 # ================== CSS ==================
 CUSTOM_CSS = """
 .styled-table tr:nth-child(even){background-color:#f9f9f9;}
 .styled-table tr:nth-child(odd){background-color:#fff;}
 .styled-table th{background-color:#4da6ff;color:white;}
 </style>
 """
+# ================== عرض النتائج HTML لكل نتيجة ==================
 def results_to_html(df):
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
+    # التأكد من الأعمدة المطلوبة
+    for col in ["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر"]:
         if col not in df.columns:
             df[col] = "-"
     html_results = ""
     for _, row in df.iterrows():
+        row_df = pd.DataFrame([row[["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر"]]])
+        html_results += row_df.to_html(index=False, escape=False, classes="styled-table", border=0)
     return CUSTOM_CSS + html_results
 # ================== البحث ==================
     df_search = library_df.copy()
+    # فلترة حسب المصدر
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
+    # بحث نصي
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
+    # بحث دلالي
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
         df_search["score"] = scores
+        df = df_search.sort_values("score", ascending=False)
     return results_to_html(df), df
         df.to_excel(tmp.name, index=False)
     return tmp.name
+# ================== واجهة Gradio ==================
 IMAGE_URL = "https://drive.google.com/uc?id=1y1cbJbdXSrhkEM7bMDrAUKr0dTiHPe-y"
 with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")