Spaces:

akra35567
/

akira

Running

App Files Files Community

akra35567 commited on Nov 9

Commit

0ef5898

1 Parent(s): 666a186

Update modules/local_llm.py

Browse files

Files changed (1) hide show

modules/local_llm.py +27 -33

modules/local_llm.py CHANGED Viewed

@@ -4,10 +4,8 @@ from loguru import logger
 from llama_cpp import Llama
 import threading
-# CAMINHOS OBRIGATÓRIOS NO HF SPACES
 MODEL_PATH = "/home/user/models/openhermes-2.5-mistral-7b.Q4_K_M.gguf"
 FINETUNED_PATH = "/home/user/data/finetuned_hermes"
 _llm_global = None
 _lock = threading.Lock()
@@ -20,35 +18,35 @@ def _get_llm():
         if _llm_global is not None:
             return _llm_global
-        logger.info("Carregando OpenHermes-2.5-Mistral-7B Q4_K_M (4.8 GB RAM)...")
         if not os.path.exists(MODEL_PATH):
-            logger.error("GGUF NÃO ENCONTRADO! Verifica /home/user/models/")
             return None
         try:
             llm = Llama(
                 model_path=MODEL_PATH,
-                n_ctx=4096,
-                n_threads=4,
-                n_batch=512,
                 n_gpu_layers=0,
                 verbose=False,
-                logits_all=True  # Necessário pro stop funcionar direito
             )
-            # CARREGA LORA ANGOLANO
             lora_path = f"{FINETUNED_PATH}/adapter_model.bin"
             if os.path.exists(lora_path):
-                logger.info("LORA ANGOLANO DETECTADO → CARREGANDO...")
                 llm.load_lora(lora_path)
-                logger.info("AKIRA COM SOTAQUE DE LUANDA 100% ATIVA! BUÉ FIXE!")
             _llm_global = llm
-            logger.info("OpenHermes 2.5 Q4_K_M + LoRA → ONLINE EM 4.8 GB! PRONTO PRA KANDANDAR!")
             return llm
         except Exception as e:
-            logger.error(f"ERRO AO CARREGAR GGUF: {e}")
             import traceback
             logger.error(traceback.format_exc())
             return None
@@ -56,27 +54,26 @@ def _get_llm():
 class LocalLLM:
     def __init__(self):
         self.llm = _get_llm()
     def is_available(self) -> bool:
         return self.llm is not None
-    def generate(self, prompt: str, max_tokens: int = 60) -> str:
         if not self.is_available():
-            logger.warning("Hermes local off → usando fallback")
-            return "Modelo local off, usando API."
         try:
-            # PROMPT PERFEITO PRO OPENHERMES GGUF (FUNCIONA 1000000%)
             full_prompt = (
                 "<|im_start|>system\n"
-                "Você é Akira, uma kota fixe de Luanda. Fala sempre em português angolano, bué descontraído, com gírias de Luanda. "
-                "Responde curto, direto e com energia. Nunca uses markdown.<|im_end|>\n"
                 "<|im_start|>user\n"
-                f"{prompt}<|im_end|>\n"
                 "<|im_start|>assistant\n"
             )
-            logger.info(f"[HERMES LOCAL] Gerando {max_tokens} tokens → ~{max_tokens//5}s")
             output = self.llm(
                 full_prompt,
@@ -84,24 +81,21 @@ class LocalLLM:
                 temperature=0.9,
                 top_p=0.95,
                 repeat_penalty=1.12,
-                stop=["<|im_end|>", "</s>", "<|im_start|>", "User:", "Assistant:"],
                 echo=False
             )
             text = output["choices"][0]["text"].strip()
-            # ADICIONA BOTÃO "CONTINUA" SE FOR LONGO
-            if max_tokens <= 80 and len(text.split()) > 18 and not text.lower().endswith(('continua', 'mais', 'kandando')):
-                text += "\n\nEscreve *continua* ou *mais* pra eu kandandar mais, kota! 😎"
-            logger.info(f"[HERMES LOCAL] Respondeu: {text[:120]}...")
             return text
         except Exception as e:
-            logger.error(f"ERRO NA GERAÇÃO LOCAL: {e}")
-            import traceback
-            logger.error(traceback.format_exc())
-            return "Desculpa kota, buguei agora. Tenta de novo ou escreve 'continua'."
-# INSTÂNCIA GLOBAL OBRIGATÓRIA
 HermesLLM = LocalLLM()

 from llama_cpp import Llama
 import threading
 MODEL_PATH = "/home/user/models/openhermes-2.5-mistral-7b.Q4_K_M.gguf"
 FINETUNED_PATH = "/home/user/data/finetuned_hermes"
 _llm_global = None
 _lock = threading.Lock()
         if _llm_global is not None:
             return _llm_global
+        logger.info("CARREGANDO HERMES 7B TURBO → 8-12 SEGUNDOS MÁXIMO!")
         if not os.path.exists(MODEL_PATH):
+            logger.error("GGUF NÃO ENCONTRADO!")
             return None
         try:
             llm = Llama(
                 model_path=MODEL_PATH,
+                n_ctx=2048,           # ← MENOS CONTEXTO = MAIS RÁPIDO
+                n_threads=2,          # ← SÓ 2 vCPU NO HF FREE
+                n_batch=256,          # ← MENOR BATCH = MENOS MEMÓRIA
                 n_gpu_layers=0,
                 verbose=False,
+                logits_all=True,
+                use_mlock=True,       # ← EVITA SWAP (ACELERA MUITO)
+                seed=-1,
             )
             lora_path = f"{FINETUNED_PATH}/adapter_model.bin"
             if os.path.exists(lora_path):
+                logger.info("LORA ANGOLANO CARREGADO → SOTAQUE LUANDA TURBO!")
                 llm.load_lora(lora_path)
             _llm_global = llm
+            logger.info("HERMES 7B TURBO ONLINE → 8-12s POR RESPOSTA!")
             return llm
         except Exception as e:
+            logger.error(f"ERRO HERMES: {e}")
             import traceback
             logger.error(traceback.format_exc())
             return None
 class LocalLLM:
     def __init__(self):
         self.llm = _get_llm()
     def is_available(self) -> bool:
         return self.llm is not None
+    def generate(self, prompt: str, max_tokens: int = 35) -> str:  # ← 35 TOKENS = 8 SEGUNDOS!
         if not self.is_available():
+            return "Akira off, kota."
         try:
             full_prompt = (
                 "<|im_start|>system\n"
+                "Akira é kota fixe de Luanda. Responde bué rápido, curto e com gírias angolanas.\n"
+                "<|im_end|>\n"
                 "<|im_start|>user\n"
+                f"{prompt}\n"
+                "<|im_end|>\n"
                 "<|im_start|>assistant\n"
             )
+            logger.info(f"[HERMES TURBO] Gerando {max_tokens} tokens → 8-12s MÁXIMO!")
             output = self.llm(
                 full_prompt,
                 temperature=0.9,
                 top_p=0.95,
                 repeat_penalty=1.12,
+                stop=["<|im_end|>", "User:", "Assistant:"],
                 echo=False
             )
             text = output["choices"][0]["text"].strip()
+            # BOTÃO CONTINUA
+            if len(text.split()) > 12:
+                text += "\n\n*continua* pra mais, kota! 😎"
+            logger.info(f"[HERMES 8s] {text[:100]}...")
             return text
         except Exception as e:
+            logger.error(f"HERMES BUG: {e}")
+            return "Buguei, tenta de novo."
 HermesLLM = LocalLLM()