4at-consulting-chatbot

Sleeping

Ahambrahmasmi commited on Jul 2

Commit

cb75cb1

verified ·

1 Parent(s): 261254d

Update scripts/setup.py

Files changed (1) hide show

scripts/setup.py CHANGED Viewed

@@ -20,7 +20,7 @@ load_dotenv()
 def create_docs(input_file: str) -> list[Document]:
     """Reads a JSONL file and converts each line into a LlamaIndex Document."""
     documents = []
-    with open(input_file, "r", encoding="utf-8") as f: # Added encoding for safety
         for line in f:
             data = json.loads(line)
             documents.append(
@@ -28,11 +28,11 @@ def create_docs(input_file: str) -> list[Document]:
                     doc_id=data["doc_id"],
                     text=data["content"],
                     metadata={
-                        "url": data["url"],
-                        "title": data["name"],
-                        "tokens": data["tokens"],
-                        "retrieve_doc": data["retrieve_doc"],
-                        "source": data["source"],
                     },
                     excluded_llm_metadata_keys=[
                         "title",

 def create_docs(input_file: str) -> list[Document]:
     """Reads a JSONL file and converts each line into a LlamaIndex Document."""
     documents = []
+    with open(input_file, "r", encoding="utf-8") as f:
         for line in f:
             data = json.loads(line)
             documents.append(
                     doc_id=data["doc_id"],
                     text=data["content"],
                     metadata={
+                        "url": data["metadata"]["url"], # CORRECTED: Accessing 'url' from 'metadata'
+                        "title": data["metadata"]["name"], # CORRECTED: Accessing 'name' (for title) from 'metadata'
+                        "tokens": data["metadata"]["tokens"], # CORRECTED: Accessing 'tokens' from 'metadata'
+                        "retrieve_doc": data["metadata"]["retrieve_doc"], # CORRECTED: Accessing 'retrieve_doc' from 'metadata'
+                        "source": data["metadata"]["source"], # CORRECTED: Accessing 'source' from 'metadata'
                     },
                     excluded_llm_metadata_keys=[
                         "title",