Spaces:

aelsaeed
/

LibrarySearchSpace

Sleeping

App Files Files Community

aelsaeed commited on 29 days ago

Commit

7c9bc21

verified ·

1 Parent(s): 9cfdb63

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -18

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ DRIVE_THESES_ID = "1K2Mtze6ZdvfKUsFMCOWlRBjDq-ZnJNrv"
 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
-MODEL_NAME = "all-MiniLM-L6-v2"
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
@@ -36,25 +36,23 @@ def load_and_merge():
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
-    # إضافة نوع المصدر
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
-    # دمج
     merged = pd.concat([books, theses], ignore_index=True)
     return merged
 library_df = load_and_merge()
 # ================== Embeddings ==================
-def embeddings_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
 def build_or_load_embeddings(df, name):
-    path = embeddings_path(name)
     if os.path.exists(path):
         try:
-            with open(path, "rb") as f:
                 emb = pickle.load(f)
             if len(emb) == len(df):
                 return emb
@@ -62,8 +60,8 @@ def build_or_load_embeddings(df, name):
             pass
     texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
-    with open(path, "wb") as f:
-        pickle.dump(emb, f)
     return emb
 library_embeddings = build_or_load_embeddings(library_df, "library")
@@ -86,12 +84,16 @@ def results_to_html(df):
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
-    html_all = ""
     for _, row in df.iterrows():
-        data = {col: row[col] if col in row else "-" for col in ["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر"]}
-        df_row = pd.DataFrame([data])
-        html_all += df_row.to_html(index=False, escape=False, classes="styled-table", border=0) + "<br>"
-    return CUSTOM_CSS + html_all
 # ================== البحث ==================
 def local_search_df(query, mode, source_filter):
@@ -100,19 +102,16 @@ def local_search_df(query, mode, source_filter):
     df_search = library_df.copy()
-    # فلترة حسب المصدر
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
-    # بحث نصي
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
-    # بحث دلالي
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
         df_search["score"] = scores
-        df = df_search.sort_values("score", ascending=False)
     return results_to_html(df), df
@@ -147,7 +146,6 @@ with gr.Blocks(title="البحث الدلالي بالمكتبة") as app:
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")

 EMB_DIR = "embeddings"
 os.makedirs(EMB_DIR, exist_ok=True)
+MODEL_NAME = "all-MiniLM-L6-v2"  # نموذج أخف وأسرع
 model = SentenceTransformer(MODEL_NAME)
 # ================== تحميل من Drive ==================
     books = pd.read_excel(BOOKS_FILE).fillna("")
     theses = pd.read_excel(THESES_FILE).fillna("")
     books["المصدر"] = "كتاب"
     theses["المصدر"] = "رسالة"
     merged = pd.concat([books, theses], ignore_index=True)
     return merged
 library_df = load_and_merge()
 # ================== Embeddings ==================
+def emb_path(name):
     return os.path.join(EMB_DIR, f"{name}.pkl")
 def build_or_load_embeddings(df, name):
+    path = emb_path(name)
     if os.path.exists(path):
         try:
+            with open(path,"rb") as f:
                 emb = pickle.load(f)
             if len(emb) == len(df):
                 return emb
             pass
     texts = df["العنوان"].astype(str).tolist()
     emb = model.encode(texts, convert_to_numpy=True, show_progress_bar=True)
+    with open(path,"wb") as f:
+        pickle.dump(emb,f)
     return emb
 library_embeddings = build_or_load_embeddings(library_df, "library")
     if df.empty:
         return "<p>❌ لم يتم العثور على نتائج</p>"
+    for col in ["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر","score"]:
+        if col not in df.columns:
+            df[col] = "-"
+    html_results = ""
     for _, row in df.iterrows():
+        single_df = pd.DataFrame([row[["المؤلف","العنوان","سنة النشر","الموقع على الرف","المصدر","score"]]])
+        html_results += single_df.to_html(index=False, escape=False, classes="styled-table", border=0)
+    return CUSTOM_CSS + html_results
 # ================== البحث ==================
 def local_search_df(query, mode, source_filter):
     df_search = library_df.copy()
     if source_filter != "الكل":
         df_search = df_search[df_search["المصدر"] == source_filter]
     if mode == "نصي":
         df = df_search[df_search["العنوان"].str.contains(query, case=False, na=False)]
     else:
         q_emb = model.encode([query], convert_to_numpy=True)
         scores = util.cos_sim(q_emb, library_embeddings)[0].cpu().numpy()
         df_search["score"] = scores
+        df = df_search.sort_values("score", ascending=False).head(20)  # أعلى 20 نتيجة
     return results_to_html(df), df
     )
     btn_search = gr.Button("🔎 بحث")
     df_state = gr.State()
     output_html = gr.HTML()
     file_out = gr.File(label="⬇️ تحميل النتائج")