Spaces:

AhmedEwis
/

CMP_AI_RAG

Sleeping

App Files Files Community

AhmedEwis commited on Sep 29

Commit

79b2bc5

verified ·

1 Parent(s): 4a34420

Upload 4 files

Browse files

Files changed (4) hide show

README_HF.md +82 -0
app.py +453 -0
processed_documents.json +0 -0
requirements.txt +13 -35

README_HF.md ADDED Viewed

	@@ -0,0 +1,82 @@

+---
+title: CMA RAG Chatbot
+emoji: 🤖
+colorFrom: blue
+colorTo: purple
+sdk: gradio
+sdk_version: 4.44.0
+app_file: app.py
+pinned: false
+license: mit
+---
+# 🤖 مستشار هيئة أسواق المال الكويتية - نظام RAG التفاعلي
+## نظام ذكي تفاعلي للاستشارات القانونية والتنظيمية
+مساعد ذكي متخصص في قوانين ولوائح هيئة أسواق المال الكويتية، مدرب على جميع الوثائق الرسمية باستخدام تقنيات الذكاء الاصطناعي المتقدمة مع ذاكرة محادثة تفاعلية.
+## ✨ المميزات الرئيسية
+### 🧠 **ذكاء اصطناعي متقدم**
+- **نموذج GPT-4o Mini** للاستجابات الذكية
+- **تقنية RAG** (Retrieval-Augmented Generation)
+- **Vector Embeddings** باستخدام Sentence Transformers
+- **FAISS** لبحث سريع ودقيق
+### 💬 **محادثة تفاعلية**
+- **ذاكرة محادثة** تتذكر السياق السابق
+- **أسئلة متتابعة** مع فهم السياق
+- **محادثة عامة** بالإضافة للاستشارات القانونية
+- **واجهة عربية** بتصميم RTL احترافي
+### 📚 **قاعدة معرفية شاملة**
+- **2,091 مستند** معالج من الوثائق الرسمية
+- **19 مصدر** من كتب ولوائح هيئة أسواق المال
+- **334,809 كلمة** من المحتوى القانوني
+## 🎯 مجالات الخبرة
+يمكن للمستشار الذكي مساعدتك في:
+- قوانين ولوائح الأوراق المالية
+- أنظمة الاستثمار الجماعي
+- قواعد الإدراج والتداول
+- متطلبات الحوكمة والامتثال
+- أحكام مكافحة غسل الأموال
+- التقنيات المالية والابتكار
+## 🚀 كيفية الاستخدام
+### 💬 **للمحادثة العامة:**
+- "السلام عليكم"
+- "كيف حالك؟"
+### ⚖️ **للاستشارات القانونية:**
+- "ما هي أنظمة الاستثمار الجماعي؟"
+- "عرف قواعد الإدراج"
+- "ما هي متطلبات الحوكمة؟"
+### 🔄 **للأسئلة المتتابعة:**
+- "أريد مزيد من التفاصيل"
+- "وضح أكثر"
+## 🔧 التقنيات المستخدمة
+- **OpenAI GPT-4o Mini** - نموذج اللغة الأساسي
+- **Sentence Transformers** - تحويل النصوص لـ embeddings
+- **LangChain** - إطار عمل RAG المتقدم
+- **FAISS** - بحث سريع في المتجهات
+- **Gradio** - واجهة تفاعلية حديثة
+## 📊 إحصائيات النظام
+| المؤشر | القيمة |
+|---------|--------|
+| 📄 المستندات المعالجة | 2,091 |
+| 📚 المصادر الرسمية | 19 |
+| 🧠 نموذج الذكاء الاصطناعي | GPT-4o Mini |
+| 💬 نوع المحادثة | تفاعلية مع ذاكرة |
+---
+**تم تطوير هذا النظام باستخدام أحدث تقنيات الذكاء الاصطناعي لخدمة المجتمع المالي الكويتي** 🇰🇼

app.py ADDED Viewed

	@@ -0,0 +1,453 @@

+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Enhanced CMA RAG Chatbot for Hugging Face Spaces
+Conversational AI with memory for Kuwait Capital Markets Authority documents
+"""
+import os
+import json
+import logging
+import gradio as gr
+from typing import List, Tuple, Dict, Any
+import faiss
+import pickle
+from sentence_transformers import SentenceTransformer
+from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.schema import Document
+from langchain.retrievers import ContextualCompressionRetriever
+from langchain.retrievers.document_compressors import LLMChainExtractor
+from langchain.chat_models import ChatOpenAI
+from langchain.prompts import ChatPromptTemplate
+from langchain.schema.runnable import RunnablePassthrough
+from langchain.schema.output_parser import StrOutputParser
+import uuid
+# Configure logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class EnhancedCMARAGBot:
+    def __init__(self):
+        """Initialize the Enhanced CMA RAG Bot with conversational capabilities"""
+        logger.info("🚀 Starting Enhanced CMA Conversational RAG Chatbot...")
+        logger.info("📚 Loading vector store and initializing conversational AI...")
+        # Initialize embedding model
+        self.embedding_model = HuggingFaceEmbeddings(
+            model_name="sentence-transformers/all-MiniLM-L6-v2",
+            model_kwargs={'device': 'cpu'},
+            encode_kwargs={'normalize_embeddings': True}
+        )
+        logger.info("Embedding model initialized")
+        # Load vector store
+        self.vector_store = self._load_vector_store()
+        logger.info("Vector store loaded successfully")
+        # Initialize OpenAI LLM
+        self.llm = ChatOpenAI(
+            model="gpt-4o-mini",
+            temperature=0.1,
+            max_tokens=1000,
+            openai_api_key=os.getenv("OPENAI_API_KEY")
+        )
+        logger.info("OpenAI LLM initialized with gpt-4o-mini")
+        # Setup retrieval chain
+        self._setup_retrieval_chain()
+        logger.info("Retrieval chain setup completed")
+        # Initialize chat sessions for memory
+        self.chat_sessions: Dict[str, List[Dict[str, str]]] = {}
+        logger.info("Enhanced CMA RAG Bot initialized successfully")
+    def _load_vector_store(self):
+        """Load the pre-built FAISS vector store"""
+        try:
+            vector_store = FAISS.load_local(
+                "faiss_index",
+                self.embedding_model,
+                allow_dangerous_deserialization=True
+            )
+            return vector_store
+        except Exception as e:
+            logger.error(f"Error loading vector store: {e}")
+            # Fallback: create from processed documents
+            return self._create_vector_store_from_documents()
+    def _create_vector_store_from_documents(self):
+        """Create vector store from processed documents as fallback"""
+        try:
+            with open('processed_documents.json', 'r', encoding='utf-8') as f:
+                processed_docs = json.load(f)
+            documents = []
+            for doc_data in processed_docs:
+                doc = Document(
+                    page_content=doc_data['content'],
+                    metadata=doc_data['metadata']
+                )
+                documents.append(doc)
+            # Create vector store
+            vector_store = FAISS.from_documents(documents, self.embedding_model)
+            # Save for future use
+            vector_store.save_local("faiss_index")
+            logger.info("Vector store created and saved from processed documents")
+            return vector_store
+        except Exception as e:
+            logger.error(f"Error creating vector store from documents: {e}")
+            raise
+    def _setup_retrieval_chain(self):
+        """Setup the retrieval chain with enhanced prompts"""
+        # Create retriever
+        self.retriever = self.vector_store.as_retriever(
+            search_type="similarity",
+            search_kwargs={"k": 5}
+        )
+        # Enhanced system prompt for conversational AI
+        system_prompt = """أنت "مستشار CMA"، مساعد ذكي متخصص ومتفهم في قوانين ولوائح هيئة أسواق المال الكويتية.
+شخصيتك:
+- محترف ومتفهم ومساعد
+- تتحدث بطريقة ودودة وطبيعية
+- تتذكر السياق والمحادثات السابقة بدقة
+- تجيب على الأسئلة العامة والمحادثة العادية بطريقة مهذبة
+- تفهم الأسئلة التتابعية والمتابعة بناءً على السياق السابق
+قواعد الإجابة:
+- أجب باللغة العربية دائماً
+- للأسئلة القانونية: استخدم المعلومات من السياق المتوفر فقط
+- للمحادثة العامة (مثل "كيف حالك؟"): أجب بطريقة ودودة ومهذبة
+- عند طلب "مزيد من التفاصيل" أو "توضيح أكثر": ارجع للموضوع السابق في المحادثة وقدم تفاصيل إضافية
+- إذا لم تجد معلومات قانونية في السياق، قل "لا توجد معلومات كافية في الوثائق المتاحة"
+- اذكر مصدر المعلومة (اسم الكتاب ورقم المادة) عند الإمكان
+- كن مفصلاً ودقيقاً في الإجابات القانونية
+- اربط الأسئلة التتابعية بالسياق السابق في المحادثة
+السياق المتاح من وثائق هيئة أسواق المال:
+{context}"""
+        qa_prompt = ChatPromptTemplate.from_messages([
+            ("system", system_prompt),
+            ("human", "تاريخ المحادثة:\n{chat_history}\n\nالسؤال الحالي: {question}")
+        ])
+        # Create the chain
+        self.rag_chain = (
+            {
+                "context": self.retriever | self._format_docs,
+                "question": RunnablePassthrough(),
+                "chat_history": RunnablePassthrough()
+            }
+            | qa_prompt
+            | self.llm
+            | StrOutputParser()
+        )
+    def _format_docs(self, docs):
+        """Format retrieved documents for context"""
+        formatted = []
+        for doc in docs:
+            source = doc.metadata.get('source', 'غير محدد')
+            content = doc.page_content
+            formatted.append(f"المصدر: {source}\nالمحتوى: {content}\n")
+        return "\n---\n".join(formatted)
+    def get_chat_history(self, user_id: str) -> List[Dict[str, str]]:
+        """Get chat history for a user"""
+        return self.chat_sessions.get(user_id, [])
+    def add_to_chat_history(self, user_id: str, user_message: str, bot_response: str):
+        """Add message to chat history"""
+        if user_id not in self.chat_sessions:
+            self.chat_sessions[user_id] = []
+        chat_history = self.chat_sessions[user_id]
+        chat_history.append({"role": "user", "content": user_message})
+        chat_history.append({"role": "assistant", "content": bot_response})
+        # Keep only last 10 messages to manage memory
+        if len(chat_history) > 10:
+            self.chat_sessions[user_id] = chat_history[-10:]
+    def is_legal_question(self, user_input: str) -> bool:
+        """Determine if the question is legal/regulatory in nature"""
+        legal_keywords = [
+            'قانون', 'لائحة', 'نظام', 'قاعدة', 'متطلب', 'شرط', 'إجراء',
+            'هيئة', 'أسواق', 'مال', 'استثمار', 'إدراج', 'تداول', 'حوكمة',
+            'امتثال', 'غسل', 'أموال', 'تقنيات', 'مالية', 'ترخيص', 'رقابة',
+            'عقوبة', 'مخالفة', 'تفتيش', 'بورصة', 'وساطة', 'صندوق',
+            'ما هي', 'عرف', 'اشرح', 'وضح', 'متى', 'كيف', 'أين',
+            'تفاصيل', 'مزيد', 'أكثر', 'توضيح', 'شرح', 'تفسير',
+            'نعم', 'أريد', 'أرغب', 'أود', 'هل يمكن', 'كيفية',
+            'تسهيلات', 'تركز', 'تمويلي', 'أطراف', 'مترابطة', 'احتساب',
+            'حد', 'أعلى', 'نقدية', 'غير نقدية', 'مستخدم', 'ممنوح'
+        ]
+        # Also check if it's a follow-up question
+        followup_phrases = [
+            'مزيد من التفاصيل', 'تفاصيل أكثر', 'وضح أكثر', 'اشرح أكثر',
+            'نعم أريد', 'نعم أرغب', 'أريد تفاصيل', 'أود معرفة',
+            'هل يمكن توضيح', 'كيف يتم', 'ما هو الإجراء'
+        ]
+        user_input_lower = user_input.lower().strip()
+        # Check for follow-up phrases
+        if any(phrase in user_input_lower for phrase in followup_phrases):
+            return True
+        return any(keyword in user_input for keyword in legal_keywords)
+    def get_conversational_response(self, user_input: str) -> str:
+        """Generate conversational responses for non-legal questions"""
+        greetings = ['سلام', 'أهلا', 'مرحبا', 'صباح', 'مساء']
+        how_are_you = ['كيف حالك', 'كيف الحال', 'شلونك', 'كيفك']
+        thanks = ['شكرا', 'شكراً', 'مشكور', 'تسلم']
+        goodbye = ['وداع', 'سلامة', 'باي', 'مع السلامة']
+        user_lower = user_input.lower()
+        if any(greeting in user_lower for greeting in greetings):
+            return """وعليكم السلام ورحمة الله وبركاته. أهلاً وسهلاً بك في مست��ار هيئة أسواق المال الكويتية.
+أنا مستشار ذكي متخصص في قوانين ولوائح هيئة أسواق المال الكويتية، مدرب على جميع الوثائق الرسمية باستخدام تقنيات الذكاء الاصطناعي المتقدمة.
+يمكنني مساعدتك في:
+• قوانين ولوائح الأوراق المالية
+• أنظمة الاستثمار الجماعي
+• قواعد الإدراج والتداول
+• متطلبات الحوكمة والامتثال
+• أحكام مكافحة غسل الأموال
+• التقنيات المالية والابتكار
+كيف يمكنني مساعدتك اليوم؟ 😊"""
+        elif any(how in user_lower for how in how_are_you):
+            return """أنا بخير شكراً لسؤالك! 😊 كيف يمكنني مساعدتك اليوم في موضوع يتعلق بهيئة أسواق المال الكويتية؟
+أنا جاهز للإجابة على أي استفسار قانوني أو تنظيمي، سأكون سعيداً جداً بمساعدتك.
+يمكنك سؤالي عن أي موضوع متعلق بأسواق المال الكويتية! 📚"""
+        elif any(thank in user_lower for thank in thanks):
+            return "العفو! أنا سعيد لمساعدتك. إذا كان لديك أي استفسار آخر حول قوانين ولوائح هيئة أسواق المال، لا تتردد في السؤال! 😊"
+        elif any(bye in user_lower for bye in goodbye):
+            return "مع السلامة! كان من دواعي سروري مساعدتك. أتمنى لك يوماً سعيداً، وأراك قريباً! 👋"
+        else:
+            return """أقدر تفاعلك معي!
+أنا متخصص في الإجابة على الأسئلة المتعلقة بقوانين ولوائح هيئة أسواق المال الكويتية. إذا كان لديك أي استفسار قانوني أو تنظيمي، سأكون سعيداً جداً بمساعدتك.
+يمكنك سؤالي عن أي موضوع متعلق بأسواق المال الكويتية! 📚"""
+    def format_chat_history_for_prompt(self, chat_history: List[Dict[str, str]]) -> str:
+        """Format chat history for the prompt"""
+        if not chat_history:
+            return "لا يوجد تاريخ محادثة سابق."
+        formatted_history = []
+        for message in chat_history[-6:]:  # Last 6 messages for context
+            role = "المستخدم" if message["role"] == "user" else "المستشار"
+            formatted_history.append(f"{role}: {message['content']}")
+        return "\n".join(formatted_history)
+    def get_response(self, user_input: str, user_id: str = None) -> str:
+        """Get response from the RAG system with conversational capabilities"""
+        try:
+            if user_id is None:
+                user_id = str(uuid.uuid4())
+            # Get chat history
+            chat_history = self.get_chat_history(user_id)
+            formatted_history = self.format_chat_history_for_prompt(chat_history)
+            # Check if it's a legal question or general conversation
+            if self.is_legal_question(user_input):
+                # Use RAG for legal questions
+                response = self.rag_chain.invoke({
+                    "question": user_input,
+                    "chat_history": formatted_history
+                })
+            else:
+                # Use conversational responses for general chat
+                response = self.get_conversational_response(user_input)
+            # Add to chat history
+            self.add_to_chat_history(user_id, user_input, response)
+            return response
+        except Exception as e:
+            logger.error(f"Error getting response: {e}")
+            return "عذراً، حدث خطأ أثناء معالجة استفسارك. يرجى المحاولة مرة أخرى."
+# Initialize the bot
+try:
+    bot = EnhancedCMARAGBot()
+    logger.info("Bot initialized successfully")
+except Exception as e:
+    logger.error(f"Failed to initialize bot: {e}")
+    bot = None
+def chat_interface(message, history, user_id_state):
+    """Gradio chat interface"""
+    if bot is None:
+        return "عذراً، النظام غير متاح حالياً. يرجى المحاولة لاحقاً.", history, user_id_state
+    # Generate user ID if not exists
+    if user_id_state is None:
+        user_id_state = str(uuid.uuid4())
+    # Get response
+    response = bot.get_response(message, user_id_state)
+    # Update history
+    history.append((message, response))
+    return "", history, user_id_state
+def get_stats():
+    """Get system statistics"""
+    try:
+        with open('processed_documents.json', 'r', encoding='utf-8') as f:
+            docs = json.load(f)
+        return len(docs), 19, "GPT-4o Mini", "تفاعلية مع ذاكرة"
+    except:
+        return "2,091", "19", "GPT-4o Mini", "تفاعلية مع ذاكرة"
+# Create Gradio interface
+def create_interface():
+    """Create the Gradio interface"""
+    # Get stats
+    doc_count, source_count, model_name, chat_type = get_stats()
+    with gr.Blocks(
+        title="مستشار هيئة أسواق المال الكويتية - نظام RAG التفاعلي",
+        theme=gr.themes.Soft(),
+        css="""
+        .rtl { direction: rtl; text-align: right; }
+        .main-header { background: linear-gradient(135deg, #1e3c72 0%, #2a5298 100%); color: white; padding: 20px; border-radius: 10px; margin-bottom: 20px; }
+        .stats-container { display: flex; gap: 10px; margin-bottom: 20px; }
+        .stat-card { flex: 1; padding: 15px; border-radius: 8px; text-align: center; }
+        .stat-card.docs { background-color: #e3f2fd; }
+        .stat-card.sources { background-color: #e8f5e8; }
+        .stat-card.model { background-color: #fff3e0; }
+        .stat-card.chat { background-color: #f3e5f5; }
+        .examples-container { margin-top: 15px; }
+        .example-section { margin-bottom: 15px; }
+        .example-buttons { display: flex; flex-wrap: wrap; gap: 8px; margin-top: 8px; }
+        .example-btn { padding: 8px 12px; border: 1px solid #ddd; border-radius: 15px; background: #f8f9fa; cursor: pointer; font-size: 12px; }
+        .example-btn:hover { background: #e9ecef; }
+        """
+    ) as interface:
+        # Header
+        gr.HTML(f"""
+        <div class="main-header rtl">
+            <h1>🤖 مستشار هيئة أسواق المال الكويتية</h1>
+            <p>نظام RAG تفاعلي مع ذاكرة محادثة وذكاء اصطناعي محسّن</p>
+            <p>مساعد ذكي متفهم يتذكر المحادثة ويجيب على الأسئلة القانونية والمحادثة العامة</p>
+        </div>
+        """)
+        # Statistics
+        gr.HTML(f"""
+        <div class="stats-container">
+            <div class="stat-card docs">
+                <h3>📄 المستندات</h3>
+                <h2>{doc_count}</h2>
+            </div>
+            <div class="stat-card sources">
+                <h3>📚 المصادر</h3>
+                <h2>{source_count}</h2>
+            </div>
+            <div class="stat-card model">
+                <h3>🧠 النموذج</h3>
+                <h2>{model_name}</h2>
+            </div>
+            <div class="stat-card chat">
+                <h3>💬 المحادثة</h3>
+                <h2>{chat_type}</h2>
+            </div>
+        </div>
+        """)
+        # User ID state (hidden)
+        user_id_state = gr.State(None)
+        # Chat interface
+        with gr.Row():
+            with gr.Column():
+                chatbot = gr.Chatbot(
+                    label="💬 المحادثة مع مستشار CMA",
+                    height=400,
+                    rtl=True,
+                    show_label=True,
+                    container=True,
+                    bubble_full_width=False
+                )
+                with gr.Row():
+                    msg = gr.Textbox(
+                        label="✍️ اكتب رسالتك هنا",
+                        placeholder="يمكنك سؤالي عن القوانين أو حتى المحادثة العامة...",
+                        rtl=True,
+                        scale=4
+                    )
+                    send_btn = gr.Button("📤 إرسال", scale=1)
+        # Examples
+        gr.HTML("""
+        <div class="examples-container rtl">
+            <div class="example-section">
+                <h4>🗣️ محادثة عامة</h4>
+                <div class="example-buttons">
+                    <span class="example-btn">كيف حالك؟</span>
+                    <span class="example-btn">شكراً لك</span>
+                    <span class="example-btn">مع السلامة</span>
+                </div>
+            </div>
+            <div class="example-section">
+                <h4>⚖️ أسئلة قانونية</h4>
+                <div class="example-buttons">
+                    <span class="example-btn">ما هي أنظمة الاستثمار الجماعي؟</span>
+                    <span class="example-btn">عرف قواعد الإدراج</span>
+                    <span class="example-btn">ما هي متطلبات الحوكمة؟</span>
+                </div>
+            </div>
+        </div>
+        """)
+        # Event handlers
+        def respond(message, history, user_id_state):
+            return chat_interface(message, history, user_id_state)
+        msg.submit(respond, [msg, chatbot, user_id_state], [msg, chatbot, user_id_state])
+        send_btn.click(respond, [msg, chatbot, user_id_state], [msg, chatbot, user_id_state])
+    return interface
+# Launch the interface
+if __name__ == "__main__":
+    interface = create_interface()
+    interface.launch(
+        server_name="0.0.0.0",
+        server_port=7860,
+        share=False,
+        show_error=True
+    )

processed_documents.json ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt CHANGED Viewed

@@ -1,35 +1,13 @@
-# Enhanced Arabic Document Chatbot Dependencies
-# Core web framework
-gradio>=4.0.0
-# AI and language models
-google-generativeai>=0.3.0
-openai>=1.3.0
-# Vector search and embeddings
-faiss-cpu>=1.7.4
-sentence-transformers>=2.2.0
-# PDF processing
-PyMuPDF>=1.23.0
-pdfplumber>=0.10.0
-pytesseract>=0.3.10
-easyocr>=1.7.0
-# Data processing
-numpy>=1.24.0
-PyYAML>=6.0
-# Arabic NLP tools
-camel-tools>=1.5.2
-pyarabic>=0.6.15
-arabic-reshaper>=3.0.0
-python-bidi>=0.4.2
-# Utilities
-tenacity>=8.2.0
-# Optional: GPU support (uncomment if needed)
-# faiss-gpu>=1.7.4
-# torch>=2.0.0

+gradio==4.44.0
+langchain==0.1.20
+langchain-community==0.0.38
+langchain-openai==0.1.8
+openai==1.35.15
+faiss-cpu==1.8.0
+sentence-transformers==2.7.0
+transformers==4.41.2
+torch==2.3.1
+numpy==1.24.4
+pandas==2.0.3
+python-dotenv==1.0.1
+tiktoken==0.7.0