Spaces:

Rulga
/

status-law-gbot

Running

App Files Files Community

Rulga commited on Mar 26

Commit

9949f77

1 Parent(s): 80e6314

fix english 1

Browse files

Files changed (2) hide show

app.py +49 -49
src/knowledge_base/dataset.py +30 -30

app.py CHANGED Viewed

@@ -14,26 +14,26 @@ client = InferenceClient(
     token=HF_TOKEN
 )
-# Состояние для хранения контекста
 context_store = {}
 def get_context(message, conversation_id):
-    """Получение контекста из базы знаний"""
     vector_store = load_vector_store()
     if vector_store is None:
-        return "База знаний не найдена. Пожалуйста, создайте её сначала."
     try:
-        # Извлечение контекста
         context_docs = vector_store.similarity_search(message, k=3)
-        context_text = "\n\n".join([f"Из {doc.metadata.get('source', 'неизвестно')}: {doc.page_content}" for doc in context_docs])
-        # Сохраняем контекст для этого разговора
         context_store[conversation_id] = context_text
         return context_text
     except Exception as e:
-        print(f"Ошибка при получении контекста: {str(e)}")
         return ""
 def respond(
@@ -45,30 +45,30 @@ def respond(
     temperature,
     top_p,
 ):
-    # Если это новый разговор, создаем ID
     if not conversation_id:
         import uuid
         conversation_id = str(uuid.uuid4())
-    # Получаем контекст из базы знаний
     context = get_context(message, conversation_id)
-    # Преобразуем историю из формата Gradio в формат OpenAI
     messages = [{"role": "system", "content": system_message}]
     if context:
-        messages[0]["content"] += f"\n\nКонтекст для ответа:\n{context}"
-    # Конвертируем историю в формат OpenAI
     for user_msg, assistant_msg in history:
         messages.extend([
             {"role": "user", "content": user_msg},
             {"role": "assistant", "content": assistant_msg}
         ])
-    # Добавляем текущее сообщение пользователя
     messages.append({"role": "user", "content": message})
-    # Отправляем запрос к API и стримим ответ
     response = ""
     is_complete = False
@@ -80,7 +80,7 @@ def respond(
             temperature=temperature,
             top_p=top_p,
         ):
-            # Проверяем наличие finish_reason в chunk
             if hasattr(chunk.choices[0], 'finish_reason') and chunk.choices[0].finish_reason is not None:
                 is_complete = True
                 break
@@ -90,8 +90,8 @@ def respond(
                 response += token
                 yield [(message, response)], conversation_id
-        # Если ответ завершен, сохраняем историю
-        if is_complete or response:  # добавляем проверку на наличие ответа как запасной вариант
             messages.append({"role": "assistant", "content": response})
             try:
                 from src.knowledge_base.dataset import DatasetManager
@@ -108,32 +108,32 @@ def respond(
                 print(traceback.format_exc())  # Print full traceback for debugging
     except Exception as e:
-        print(f"Ошибка при генерации ответа: {str(e)}")
-        yield [(message, "Произошла ошибка при генерации ответа.")], conversation_id
 def build_kb():
-    """Функция для создания базы знаний"""
     try:
         success, message = create_vector_store()
         return message
     except Exception as e:
-        return f"Ошибка при создании базы знаний: {str(e)}"
 def load_vector_store():
-    """Загрузка базы знаний из датасета"""
     try:
         from src.knowledge_base.dataset import DatasetManager
         dataset = DatasetManager()
         success, store = dataset.download_vector_store()
         if success:
             return store
-        print(f"Ошибка загрузки базы знаний: {store}")
         return None
     except Exception as e:
-        print(f"Ошибка при загрузке базы знаний: {str(e)}")
         return None
-# Создаем интерфейс
 with gr.Blocks() as demo:
     gr.Markdown("# 🤖 Status Law Assistant")
@@ -142,40 +142,40 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column(scale=3):
             chatbot = gr.Chatbot(
-                label="Чат",
                 bubble_full_width=False,
-                avatar_images=["user.png", "assistant.png"]  # опционально
             )
             with gr.Row():
                 msg = gr.Textbox(
-                    label="Ваш вопрос",
-                    placeholder="Введите ваш вопрос...",
                     scale=4
                 )
-                submit_btn = gr.Button("Отправить", variant="primary")
         with gr.Column(scale=1):
-            gr.Markdown("### Управление базой знаний")
-            build_kb_btn = gr.Button("Создать/обновить базу знаний", variant="primary")
-            kb_status = gr.Textbox(label="Статус базы знаний", interactive=False)
-            gr.Markdown("### Настройки генерации")
             max_tokens = gr.Slider(
                 minimum=1,
                 maximum=2048,
                 value=512,
                 step=1,
-                label="Максимальная длина ответа",
-                info="Ограничивает количество токенов в ответе. Больше токенов = длиннее ответ"
             )
             temperature = gr.Slider(
                 minimum=0.1,
                 maximum=2.0,
                 value=0.7,
                 step=0.1,
-                label="Температура",
-                info="Контролирует креативность. Ниже значение = более предсказуемые ответы"
             )
             top_p = gr.Slider(
                 minimum=0.1,
@@ -183,10 +183,10 @@ with gr.Blocks() as demo:
                 value=0.95,
                 step=0.05,
                 label="Top-p",
-                info="Контролирует разнообразие. Ниже значение = более сфокусированные ответы"
             )
-            clear_btn = gr.Button("Очистить историю чата")
     def respond_and_clear(
         message,
@@ -196,7 +196,7 @@ with gr.Blocks() as demo:
         temperature,
         top_p,
     ):
-        # Используем существующую функцию respond
         response_generator = respond(
             message,
             history,
@@ -207,28 +207,28 @@ with gr.Blocks() as demo:
             top_p,
         )
-        # Возвращаем результат и пустую строку для очистки поля ввода
         for response in response_generator:
-            yield response[0], response[1], ""  # chatbot, conversation_id, пустая строка для msg
-    # Обработчики событий
     msg.submit(
         respond_and_clear,
         [msg, chatbot, conversation_id, max_tokens, temperature, top_p],
-        [chatbot, conversation_id, msg]  # Добавляем msg в выходные параметры
     )
     submit_btn.click(
         respond_and_clear,
         [msg, chatbot, conversation_id, max_tokens, temperature, top_p],
-        [chatbot, conversation_id, msg]  # Добавляем msg в выходные параметры
     )
     build_kb_btn.click(build_kb, None, kb_status)
     clear_btn.click(lambda: ([], None), None, [chatbot, conversation_id])
-# Запускаем приложение
 if __name__ == "__main__":
-    # Проверяем доступность базы знаний в датасете
     if not load_vector_store():
-        print("База знаний не найдена. Создайте её через интерфейс.")
     demo.launch()

     token=HF_TOKEN
 )
+# State for storing context
 context_store = {}
 def get_context(message, conversation_id):
+    """Get context from knowledge base"""
     vector_store = load_vector_store()
     if vector_store is None:
+        return "Knowledge base not found. Please create it first."
     try:
+        # Extract context
         context_docs = vector_store.similarity_search(message, k=3)
+        context_text = "\n\n".join([f"From {doc.metadata.get('source', 'unknown')}: {doc.page_content}" for doc in context_docs])
+        # Save context for this conversation
         context_store[conversation_id] = context_text
         return context_text
     except Exception as e:
+        print(f"Error getting context: {str(e)}")
         return ""
 def respond(
     temperature,
     top_p,
 ):
+    # Create ID for new conversation
     if not conversation_id:
         import uuid
         conversation_id = str(uuid.uuid4())
+    # Get context from knowledge base
     context = get_context(message, conversation_id)
+    # Convert history from Gradio format to OpenAI format
     messages = [{"role": "system", "content": system_message}]
     if context:
+        messages[0]["content"] += f"\n\nContext for response:\n{context}"
+    # Convert history to OpenAI format
     for user_msg, assistant_msg in history:
         messages.extend([
             {"role": "user", "content": user_msg},
             {"role": "assistant", "content": assistant_msg}
         ])
+    # Add current user message
     messages.append({"role": "user", "content": message})
+    # Send API request and stream response
     response = ""
     is_complete = False
             temperature=temperature,
             top_p=top_p,
         ):
+            # Check for finish_reason in chunk
             if hasattr(chunk.choices[0], 'finish_reason') and chunk.choices[0].finish_reason is not None:
                 is_complete = True
                 break
                 response += token
                 yield [(message, response)], conversation_id
+        # Save history if response is complete
+        if is_complete or response:  # add response check as fallback
             messages.append({"role": "assistant", "content": response})
             try:
                 from src.knowledge_base.dataset import DatasetManager
                 print(traceback.format_exc())  # Print full traceback for debugging
     except Exception as e:
+        print(f"Error generating response: {str(e)}")
+        yield [(message, "An error occurred while generating the response.")], conversation_id
 def build_kb():
+    """Function to create knowledge base"""
     try:
         success, message = create_vector_store()
         return message
     except Exception as e:
+        return f"Error creating knowledge base: {str(e)}"
 def load_vector_store():
+    """Load knowledge base from dataset"""
     try:
         from src.knowledge_base.dataset import DatasetManager
         dataset = DatasetManager()
         success, store = dataset.download_vector_store()
         if success:
             return store
+        print(f"Error loading knowledge base: {store}")
         return None
     except Exception as e:
+        print(f"Error loading knowledge base: {str(e)}")
         return None
+# Create interface
 with gr.Blocks() as demo:
     gr.Markdown("# 🤖 Status Law Assistant")
     with gr.Row():
         with gr.Column(scale=3):
             chatbot = gr.Chatbot(
+                label="Chat",
                 bubble_full_width=False,
+                avatar_images=["user.png", "assistant.png"]  # optional
             )
             with gr.Row():
                 msg = gr.Textbox(
+                    label="Your question",
+                    placeholder="Enter your question...",
                     scale=4
                 )
+                submit_btn = gr.Button("Send", variant="primary")
         with gr.Column(scale=1):
+            gr.Markdown("### Knowledge Base Management")
+            build_kb_btn = gr.Button("Create/Update Knowledge Base", variant="primary")
+            kb_status = gr.Textbox(label="Knowledge Base Status", interactive=False)
+            gr.Markdown("### Generation Settings")
             max_tokens = gr.Slider(
                 minimum=1,
                 maximum=2048,
                 value=512,
                 step=1,
+                label="Maximum Response Length",
+                info="Limits the number of tokens in response. More tokens = longer response"
             )
             temperature = gr.Slider(
                 minimum=0.1,
                 maximum=2.0,
                 value=0.7,
                 step=0.1,
+                label="Temperature",
+                info="Controls creativity. Lower value = more predictable responses"
             )
             top_p = gr.Slider(
                 minimum=0.1,
                 value=0.95,
                 step=0.05,
                 label="Top-p",
+                info="Controls diversity. Lower value = more focused responses"
             )
+            clear_btn = gr.Button("Clear Chat History")
     def respond_and_clear(
         message,
         temperature,
         top_p,
     ):
+        # Use existing respond function
         response_generator = respond(
             message,
             history,
             top_p,
         )
+        # Return result and empty string to clear input field
         for response in response_generator:
+            yield response[0], response[1], ""  # chatbot, conversation_id, empty string for msg
+    # Event handlers
     msg.submit(
         respond_and_clear,
         [msg, chatbot, conversation_id, max_tokens, temperature, top_p],
+        [chatbot, conversation_id, msg]  # Add msg to output parameters
     )
     submit_btn.click(
         respond_and_clear,
         [msg, chatbot, conversation_id, max_tokens, temperature, top_p],
+        [chatbot, conversation_id, msg]  # Add msg to output parameters
     )
     build_kb_btn.click(build_kb, None, kb_status)
     clear_btn.click(lambda: ([], None), None, [chatbot, conversation_id])
+# Launch application
 if __name__ == "__main__":
+    # Check knowledge base availability in dataset
     if not load_vector_store():
+        print("Knowledge base not found. Please create it through the interface.")
     demo.launch()

src/knowledge_base/dataset.py CHANGED Viewed

@@ -292,40 +292,40 @@ class DatasetManager:
                 if os.path.exists(temp_name):
                     os.unlink(temp_name)
-            print(f"Successfully saved chat history: {filename}")  # Добавляем лог для отладки
             return True, f"Chat history saved successfully as {filename}"
         except Exception as e:
-            print(f"Error in save_chat_history: {str(e)}")  # Добавляем лог для отладки
             return False, f"Failed to save chat history: {str(e)}"
     def get_chat_history(self, conversation_id: Optional[str] = None) -> Tuple[bool, Any]:
         """
-        Получение истории чатов из датасета
         Args:
-            conversation_id: Идентификатор беседы (если None, возвращает все чаты)
         Returns:
-            (успех, история чатов или сообщение об ошибке)
         """
         try:
-            # Получаем список файлов в директории chat_history
             files = self.api.list_repo_files(
                 repo_id=self.dataset_name,
                 repo_type="dataset",
                 path="chat_history"
             )
-            # Фильтруем файлы по conversation_id, если он указан
             if conversation_id:
                 files = [f for f in files if f.startswith(f"chat_history/{conversation_id}_")]
-            # Если файлов нет, возвращаем пустой список
             if not files or all(f.endswith(".gitkeep") for f in files):
                 return True, []
-            # Создаем временную директорию для загрузки файлов
             with tempfile.TemporaryDirectory() as temp_dir:
                 chat_histories = []
@@ -333,7 +333,7 @@ class DatasetManager:
                     if file.endswith(".gitkeep"):
                         continue
-                    # Загружаем файл
                     local_file = self.api.hf_hub_download(
                         repo_id=self.dataset_name,
                         filename=file,
@@ -341,42 +341,42 @@ class DatasetManager:
                         local_dir=temp_dir
                     )
-                    # Читаем содержимое файла
                     with open(local_file, "r", encoding="utf-8") as f:
                         chat_data = json.load(f)
                         chat_histories.append(chat_data)
-                # Сортируем по временной метке
                 chat_histories.sort(key=lambda x: x.get("timestamp", ""), reverse=True)
                 return True, chat_histories
         except Exception as e:
-            return False, f"Ошибка при получении истории чатов: {str(e)}"
     def upload_document(self, file_path: str, document_id: Optional[str] = None) -> Tuple[bool, str]:
         """
-        Загрузка документа в датасет
         Args:
-            file_path: Путь к файлу документа
-            document_id: Идентификатор документа (если None, используется имя файла)
         Returns:
-            (успех, сообщение)
         """
         try:
             if not os.path.exists(file_path):
-                return False, f"Файл не найден: {file_path}"
-            # Если document_id не указан, используем имя файла
             if document_id is None:
                 document_id = os.path.basename(file_path)
-            # Добавляем в��еменную метку к имени файла
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
             filename = f"documents/{document_id}_{timestamp}{os.path.splitext(file_path)[1]}"
-            # Загружаем файл
             self.api.upload_file(
                 path_or_fileobj=file_path,
                 path_in_repo=filename,
@@ -384,19 +384,19 @@ class DatasetManager:
                 repo_type="dataset"
             )
-            return True, f"Документ успешно загружен: {filename}"
         except Exception as e:
-            return False, f"Ошибка при загрузке документа: {str(e)}"
 def test_dataset_connection(token: Optional[str] = None) -> Tuple[bool, str]:
     """
-    Тестовая функция для проверки подключения к датасету
     Args:
-        token: Токен доступа к Hugging Face Hub
     Returns:
-        (успех, сообщение)
     """
     try:
         manager = DatasetManager(token=token)
@@ -405,13 +405,13 @@ def test_dataset_connection(token: Optional[str] = None) -> Tuple[bool, str]:
         if not success:
             return False, message
-        print(f"Тест инициализации: {message}")
-        return True, "Подключение к датасету работает"
     except Exception as e:
-        return False, f"Ошибка подключения к датасету: {str(e)}"
 if __name__ == "__main__":
-    # Тестируем подключение
     success, message = test_dataset_connection()
     print(message)

                 if os.path.exists(temp_name):
                     os.unlink(temp_name)
+            print(f"Successfully saved chat history: {filename}")  # Adding a log for debugging
             return True, f"Chat history saved successfully as {filename}"
         except Exception as e:
+            print(f"Error in save_chat_history: {str(e)}")  # Adding a log for debugging
             return False, f"Failed to save chat history: {str(e)}"
     def get_chat_history(self, conversation_id: Optional[str] = None) -> Tuple[bool, Any]:
         """
+        Get chat history from the dataset
         Args:
+            conversation_id: Conversation identifier (if None, returns all chats)
         Returns:
+            (success, chat history or error message)
         """
         try:
+            # Get list of files in chat_history directory
             files = self.api.list_repo_files(
                 repo_id=self.dataset_name,
                 repo_type="dataset",
                 path="chat_history"
             )
+            # Filter files by conversation_id if specified
             if conversation_id:
                 files = [f for f in files if f.startswith(f"chat_history/{conversation_id}_")]
+            # If no files found, return empty list
             if not files or all(f.endswith(".gitkeep") for f in files):
                 return True, []
+            # Create temporary directory for downloading files
             with tempfile.TemporaryDirectory() as temp_dir:
                 chat_histories = []
                     if file.endswith(".gitkeep"):
                         continue
+                    # Download file
                     local_file = self.api.hf_hub_download(
                         repo_id=self.dataset_name,
                         filename=file,
                         local_dir=temp_dir
                     )
+                    # Read file content
                     with open(local_file, "r", encoding="utf-8") as f:
                         chat_data = json.load(f)
                         chat_histories.append(chat_data)
+                # Sort by timestamp
                 chat_histories.sort(key=lambda x: x.get("timestamp", ""), reverse=True)
                 return True, chat_histories
         except Exception as e:
+            return False, f"Error getting chat history: {str(e)}"
     def upload_document(self, file_path: str, document_id: Optional[str] = None) -> Tuple[bool, str]:
         """
+        Upload document to the dataset
         Args:
+            file_path: Path to the document file
+            document_id: Document identifier (if None, uses filename)
         Returns:
+            (success, message)
         """
         try:
             if not os.path.exists(file_path):
+                return False, f"File not found: {file_path}"
+            # Use filename as document_id if not specified
             if document_id is None:
                 document_id = os.path.basename(file_path)
+            # Add timestamp to filename
             timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
             filename = f"documents/{document_id}_{timestamp}{os.path.splitext(file_path)[1]}"
+            # Upload file
             self.api.upload_file(
                 path_or_fileobj=file_path,
                 path_in_repo=filename,
                 repo_type="dataset"
             )
+            return True, f"Document uploaded successfully: {filename}"
         except Exception as e:
+            return False, f"Error uploading document: {str(e)}"
 def test_dataset_connection(token: Optional[str] = None) -> Tuple[bool, str]:
     """
+    Test function to check dataset connection
     Args:
+        token: Hugging Face Hub access token
     Returns:
+        (success, message)
     """
     try:
         manager = DatasetManager(token=token)
         if not success:
             return False, message
+        print(f"Initialization test: {message}")
+        return True, "Dataset connection is working"
     except Exception as e:
+        return False, f"Dataset connection error: {str(e)}"
 if __name__ == "__main__":
+    # Test connection
     success, message = test_dataset_connection()
     print(message)