Spaces:

umarigan
/

SemanticSearch

Sleeping

App Files Files Community

umarigan commited on Mar 26, 2024

Commit

0164e97

verified ·

1 Parent(s): c38bbc6

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -1

app.py CHANGED Viewed

@@ -8,22 +8,32 @@ import pandas as pd
 from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
 from sentence_transformers import SentenceTransformer
 import tempfile
 # Initialize the model globally
 model = SentenceTransformer('all-MiniLM-L6-v2')
 def process_pdf(pdf_path):
     # Open the PDF
     doc = fitz.open(pdf_path)
     texts = [page.get_text() for page in doc]
     return " ".join(texts)
 def create_embeddings(text):
     sentences = text.split(". ")  # A simple split; consider a more robust sentence splitter
     embeddings = model.encode(sentences)
     return embeddings, sentences
 def generate_plot(query, pdf_file):
     # Generate embeddings for the query
     query_embedding = model.encode([query])[0]
@@ -31,6 +41,7 @@ def generate_plot(query, pdf_file):
     text = process_pdf(pdf_file.name)
     embeddings, sentences = create_embeddings(text)
     # Prepare the data for UMAP and visualization
     all_embeddings = np.vstack([embeddings, query_embedding])
     all_sentences = sentences + [query]
@@ -39,6 +50,7 @@ def generate_plot(query, pdf_file):
     umap_transform = umap.UMAP(n_neighbors=15, min_dist=0.0, n_components=2, random_state=42)
     umap_embeddings = umap_transform.fit_transform(all_embeddings)
     # Find the closest sentences to the query
     distances = cosine_similarity([query_embedding], embeddings)[0]
     closest_indices = distances.argsort()[-5:][::-1]  # Adjust the number as needed
@@ -59,16 +71,20 @@ def generate_plot(query, pdf_file):
     hover = HoverTool(tooltips=[("Content", "@content")])
     p.add_tools(hover)
     # Save the plot to an HTML file
     temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".html")
     output_file(temp_file.name)
     save(p)
     return temp_file.name
 def gradio_interface(pdf_file, query):
     plot_path = generate_plot(query, pdf_file)
     with open(plot_path, "r") as f:
         html_content = f.read()
     return html_content
 iface = gr.Interface(
@@ -80,4 +96,4 @@ iface = gr.Interface(
 )
 if __name__ == "__main__":
-    iface.launch()

 from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances
 from sentence_transformers import SentenceTransformer
 import tempfile
+import logging
+# Set up logging
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 # Initialize the model globally
 model = SentenceTransformer('all-MiniLM-L6-v2')
+logging.info("Model loaded successfully.")
 def process_pdf(pdf_path):
+    logging.info(f"Processing PDF: {pdf_path}")
     # Open the PDF
     doc = fitz.open(pdf_path)
     texts = [page.get_text() for page in doc]
+    logging.info("PDF processed successfully.")
     return " ".join(texts)
 def create_embeddings(text):
+    logging.info("Creating embeddings.")
     sentences = text.split(". ")  # A simple split; consider a more robust sentence splitter
     embeddings = model.encode(sentences)
+    logging.info("Embeddings created successfully.")
     return embeddings, sentences
 def generate_plot(query, pdf_file):
+    logging.info("Generating plot.")
     # Generate embeddings for the query
     query_embedding = model.encode([query])[0]
     text = process_pdf(pdf_file.name)
     embeddings, sentences = create_embeddings(text)
+    logging.info("Data prepared for UMAP.")
     # Prepare the data for UMAP and visualization
     all_embeddings = np.vstack([embeddings, query_embedding])
     all_sentences = sentences + [query]
     umap_transform = umap.UMAP(n_neighbors=15, min_dist=0.0, n_components=2, random_state=42)
     umap_embeddings = umap_transform.fit_transform(all_embeddings)
+    logging.info("UMAP transformation completed.")
     # Find the closest sentences to the query
     distances = cosine_similarity([query_embedding], embeddings)[0]
     closest_indices = distances.argsort()[-5:][::-1]  # Adjust the number as needed
     hover = HoverTool(tooltips=[("Content", "@content")])
     p.add_tools(hover)
+    logging.info("Plot created successfully.")
     # Save the plot to an HTML file
     temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".html")
     output_file(temp_file.name)
     save(p)
+    logging.info("Plot saved to file.")
     return temp_file.name
 def gradio_interface(pdf_file, query):
+    logging.info("Gradio interface called.")
     plot_path = generate_plot(query, pdf_file)
     with open(plot_path, "r") as f:
         html_content = f.read()
+    logging.info("Returning HTML content.")
     return html_content
 iface = gr.Interface(
 )
 if __name__ == "__main__":
+    iface.launch()