Spaces:

Supra-Nexus
/

supra-nexus-o2

Sleeping

App Files Files Community

Jan Biermeyer commited on Nov 3

Commit

3379400

1 Parent(s): 34fc1eb

cpu

Browse files

Files changed (2) hide show

app.py +3 -3
rag/rag.py +12 -12

app.py CHANGED Viewed

@@ -17,7 +17,7 @@ import base64
 # Add project root to path for imports
 project_root = Path(__file__).parent
 sys.path.insert(0, str(project_root))
-from rag.rag_m2max import get_supra_rag_m2max
 from rag.model_loader import load_enhanced_model_m2max, get_model_info
 # Page configuration
@@ -645,7 +645,7 @@ def call_enhanced_model_with_rag(prompt: str) -> tuple[Optional[str], float]:
         model, tokenizer = load_enhanced_model_m2max()
         # Get RAG instance
-        rag = get_supra_rag_m2max()
         # Generate response with RAG context
         response = rag.generate_response(prompt, model, tokenizer)
@@ -752,7 +752,7 @@ def main():
         # RAG Status
         try:
-            rag = get_supra_rag_m2max()
             rag_count = len(rag.collection.get()['ids'])
             st.markdown(f"""
             <div class="metric-card">

 # Add project root to path for imports
 project_root = Path(__file__).parent
 sys.path.insert(0, str(project_root))
+from rag.rag import get_supra_rag
 from rag.model_loader import load_enhanced_model_m2max, get_model_info
 # Page configuration
         model, tokenizer = load_enhanced_model_m2max()
         # Get RAG instance
+        rag = get_supra_rag()
         # Generate response with RAG context
         response = rag.generate_response(prompt, model, tokenizer)
         # RAG Status
         try:
+            rag = get_supra_rag()
             rag_count = len(rag.collection.get()['ids'])
             st.markdown(f"""
             <div class="metric-card">

rag/rag.py CHANGED Viewed

@@ -157,20 +157,20 @@ class SupraRAG:
                 st.warning("⚠️ No valid documents found in RAG data file")
     def retrieve_context(self, query: str, n_results: int = 3) -> List[Dict[str, Any]]:
-        """Retrieve relevant context for a query with M2 Max optimizations."""
         try:
-            # Limit query length for M2 Max efficiency
             if len(query) > 500:
                 query = query[:500]
             results = self.collection.query(
                 query_texts=[query],
-                n_results=min(n_results, 5)  # Limit results for M2 Max
             )
             context_docs = []
             for i, doc in enumerate(results['documents'][0]):
-                # Truncate retrieved content for M2 Max memory efficiency
                 content = doc
                 if len(content) > 1500:
                     content = content[:1500] + "..."
@@ -191,15 +191,15 @@ class SupraRAG:
             return []
     def build_enhanced_prompt(self, user_query: str, context_docs: List[Dict[str, Any]]) -> str:
-        """Build enhanced prompt with RAG context and SUPRA facts optimized for M2 Max."""
         # Import SUPRA facts system
         from .supra_facts import build_supra_prompt, inject_facts_for_query
         # Extract RAG context chunks
         rag_context = None
         if context_docs:
-            # Limit context length for M2 Max memory efficiency
-            max_context_length = 2000  # Reduced for M2 Max
             context_text = ""
             for doc in context_docs:
@@ -270,11 +270,11 @@ class SupraRAG:
 # Global RAG instance with device-specific optimizations
 @st.cache_resource
-def get_supra_rag_m2max():
     """Get cached SUPRA RAG instance optimized for CPU/MPS/CUDA."""
-    return SupraRAGM2Max()
-# Backward compatibility
-def get_supra_rag():
     """Backward compatible function that returns device-optimized RAG."""
-    return get_supra_rag_m2max()

                 st.warning("⚠️ No valid documents found in RAG data file")
     def retrieve_context(self, query: str, n_results: int = 3) -> List[Dict[str, Any]]:
+        """Retrieve relevant context for a query with device optimizations."""
         try:
+            # Limit query length for efficiency
             if len(query) > 500:
                 query = query[:500]
             results = self.collection.query(
                 query_texts=[query],
+                n_results=min(n_results, 5)  # Limit results for efficiency
             )
             context_docs = []
             for i, doc in enumerate(results['documents'][0]):
+                # Truncate retrieved content for memory efficiency
                 content = doc
                 if len(content) > 1500:
                     content = content[:1500] + "..."
             return []
     def build_enhanced_prompt(self, user_query: str, context_docs: List[Dict[str, Any]]) -> str:
+        """Build enhanced prompt with RAG context and SUPRA facts with device optimizations."""
         # Import SUPRA facts system
         from .supra_facts import build_supra_prompt, inject_facts_for_query
         # Extract RAG context chunks
         rag_context = None
         if context_docs:
+            # Limit context length for memory efficiency
+            max_context_length = 2000  # Reduced for memory efficiency
             context_text = ""
             for doc in context_docs:
 # Global RAG instance with device-specific optimizations
 @st.cache_resource
+def get_supra_rag():
     """Get cached SUPRA RAG instance optimized for CPU/MPS/CUDA."""
+    return SupraRAG()
+# Backward compatibility (kept for compatibility with old imports)
+def get_supra_rag_m2max():
     """Backward compatible function that returns device-optimized RAG."""
+    return get_supra_rag()