Spaces:

akra35567
/

akira

Running

App Files Files Community

akra35567 commited on Nov 9

Commit

38062da

1 Parent(s): e4a367c

Update modules/local_llm.py

Browse files

Files changed (1) hide show

modules/local_llm.py +44 -77

modules/local_llm.py CHANGED Viewed

@@ -1,84 +1,51 @@
-# modules/local_llm.py
 import os
 from loguru import logger
-from llama_cpp import Llama
-import threading
-MODEL_PATH = "/home/user/models/openhermes-2.5-mistral-7b.Q4_K_M.gguf"
 FINETUNED_PATH = "/home/user/data/finetuned_hermes"
-_llm_global = None
-_lock = threading.Lock()
-def _get_llm():
-    global _llm_global
-    if _llm_global is not None:
-        return _llm_global
-    with _lock:
-        if _llm_global is not None:
-            return _llm_global
-        logger.info("CARREGANDO OPENHERMES 7B Q4_K_M → 8-12s POR RESPOSTA!")
-        if not os.path.exists(MODEL_PATH):
-            logger.error("GGUF NÃO ENCONTRADO! Verifica /home/user/models/")
-            return None
-        try:
-            llm = Llama(
-                model_path=MODEL_PATH,
-                n_ctx=2048,
-                n_threads=2,       # ← SÓ 2 vCPU NO FREE
-                n_batch=256,
-                n_gpu_layers=0,
                 verbose=False,
-                use_mlock=True,
-                logits_all=True
             )
-            lora_path = f"{FINETUNED_PATH}/adapter_model.bin"
             if os.path.exists(lora_path):
-                logger.info("LORA ANGOLANO DETECTADO → CARREGANDO SOTAQUE DE LUANDA!")
-                llm.load_lora(lora_path)
-            _llm_global = llm
-            logger.info("OPENHERMES 7B + LORA → ONLINE EM 4.8GB! PRONTO PRA KANDANDAR!")
-            return llm
-        except Exception as e:
-            logger.error(f"ERRO: {e}")
-            return None
-class LocalLLM:
-    def __init__(self):
-        self.llm = _get_llm()
-    def is_available(self) -> bool:
-        return self.llm is not None
-    def generate(self, prompt: str, max_tokens: int = 60) -> str:
-        if not self.is_available():
-            return "Akira off, kota."
-        try:
-            full_prompt = f"<|im_start|>system\nTu és Akira, kota fixe de Luanda. Fala bué descontraído com gírias angolanas.<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
-            output = self.llm(
-                full_prompt,
-                max_tokens=max_tokens,
-                temperature=0.9,
-                top_p=0.95,
-                repeat_penalty=1.12,
-                stop=["<|im_end|>", "</s>"],
-                echo=False
-            )
-            text = output["choices"][0]["text"].strip()
-            logger.info(f"[OPENHERMES 8s] {text[:100]}...")
-            return text
-        except Exception as e:
-            logger.error(f"ERRO: {e}")
-            return "Buguei, kota! Tenta de novo."
-HermesLLM = LocalLLM()

+# modules/local_llm.py — VERSÃO FINAL: RAM ATÉ O PESCOÇO, CPU EM PAZ!
+from llama_cpp import Llama
 import os
 from loguru import logger
 FINETUNED_PATH = "/home/user/data/finetuned_hermes"
+GGUF_PATH = "/home/user/data/OpenHermes-2.5-Mistral-7B-Q4_K_M.gguf"  # mantido só pro fallback
+class HermesLLM:
+    _llm = None
+    @classmethod
+    def is_available(cls):
+        return os.path.exists(GGUF_PATH)
+    @classmethod
+    def _get_llm(cls):
+        if cls._llm is None:
+            logger.info("CARREGANDO OPENHERMES 7B EM 8BIT → RAM MÁXIMA, CPU MÍNIMA!")
+            cls._llm = Llama(
+                model_path=GGUF_PATH,
+                n_ctx=4096,              # contexto gigante (usa mais RAM)
+                n_batch=512,             # batch grande = mais RAM, menos CPU
+                n_threads=2,             # só 2 threads CPU!
+                n_gpu_layers=0,          # tudo na RAM
+                use_mlock=True,          # trava na RAM física (nunca swap!)
                 verbose=False,
+                # FORÇA USAR TODA RAM POSSÍVEL:
+                n_parts=1,               # 1 parte = carrega tudo de uma vez
+                seed=-1,
+                logits_all=True,
             )
+            # CARREGA LORA DIRETO (se existir)
+            lora_path = f"{FINETUNED_PATH}/lora_leve"
             if os.path.exists(lora_path):
+                logger.info("LORA ANGOLANO CARREGADO NA RAM → SOTAQUE DE LUANDA TURBINADO!")
+                cls._llm.load_lora(lora_path)
+        return cls._llm
+    @classmethod
+    def generate(cls, prompt: str, max_tokens: int = 60):
+        llm = cls._get_llm()
+        output = llm(
+            prompt,
+            max_tokens=max_tokens,
+            temperature=0.7,
+            top_p=0.9,
+            stop=["<|im_end|>", "\n\n"],
+            echo=False
+        )
+        return output["choices"][0]["text"]