Spaces:

aquibmoin
/

EM-GEN

Sleeping

App Files Files Community

aquibmoin commited on Mar 25

Commit

c18941c

verified ·

1 Parent(s): b691349

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -2

app.py CHANGED Viewed

@@ -56,34 +56,46 @@ def generate_chunk_id(pdf_file, chunk_text, chunk_idx):
 # Function to process PDFs and upsert embeddings to Pinecone
 def process_pdfs(pdf_files):
     for pdf_file in pdf_files:
         reader = PdfReader(pdf_file.name)
         pdf_text = "".join(page.extract_text() for page in reader.pages if page.extract_text())
         # Split text into smaller chunks
         chunks = [pdf_text[i:i+500] for i in range(0, len(pdf_text), 500)]
         # Generate embeddings in batches
         embeddings = encode_chunks_batch(chunks, batch_size=8)
         # Prepare data for Pinecone with unique IDs
         vectors = [
             (generate_chunk_id(pdf_file, chunk, idx), embedding.tolist(), {"text": chunk})
             for idx, (embedding, chunk) in enumerate(zip(embeddings, chunks))
         ]
         # Upsert embeddings into Pinecone
         index.upsert(vectors)
     # Fetch index stats
     stats = index.describe_index_stats()
-    return f"Processed {len(pdf_files)} PDF(s) successfully and embeddings stored in Pinecone. Current Index Stats: {stats}"
 # Gradio Interface
 demo = gr.Interface(
     fn=process_pdfs,
-    inputs=gr.Files(label="Upload PDFs", file_types=[".pdf"]),
     outputs="text",
     title="NASA Bi-encoder PDF Embedding & Pinecone Storage",
     description="Upload PDF files to generate embeddings with NASA Bi-encoder and store in Pinecone."

 # Function to process PDFs and upsert embeddings to Pinecone
 def process_pdfs(pdf_files):
     for pdf_file in pdf_files:
+        yield "Reading PDF..."
         reader = PdfReader(pdf_file.name)
         pdf_text = "".join(page.extract_text() for page in reader.pages if page.extract_text())
+        yield "Processing PDF..."
         # Split text into smaller chunks
         chunks = [pdf_text[i:i+500] for i in range(0, len(pdf_text), 500)]
+        yield "Generating Embeddings..."
         # Generate embeddings in batches
         embeddings = encode_chunks_batch(chunks, batch_size=8)
+        yield "Embeddings generated successfully...Preparing..."
         # Prepare data for Pinecone with unique IDs
         vectors = [
             (generate_chunk_id(pdf_file, chunk, idx), embedding.tolist(), {"text": chunk})
             for idx, (embedding, chunk) in enumerate(zip(embeddings, chunks))
         ]
+        yield "Pushing to Pinecone...Please wait"
         # Upsert embeddings into Pinecone
         index.upsert(vectors)
     # Fetch index stats
     stats = index.describe_index_stats()
+    yield f"Processed {len(pdf_files)} PDF(s) successfully and embeddings stored in Pinecone. Current Index Stats: {stats}"
 # Gradio Interface
 demo = gr.Interface(
     fn=process_pdfs,
+    inputs=gr.Files(label="Upload PDF", file_types=[".pdf"]),
     outputs="text",
     title="NASA Bi-encoder PDF Embedding & Pinecone Storage",
     description="Upload PDF files to generate embeddings with NASA Bi-encoder and store in Pinecone."