Spaces:

Leonardo0711
/

astrohunters-llm

Paused

App Files Files Community

Leonardo0711 commited on Oct 4

Commit

ef31123

verified ·

1 Parent(s): b97fe5e

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -9

app.py CHANGED Viewed

@@ -36,10 +36,11 @@ def env_list(name: str) -> list[str]:
 # ------------------ Config ------------------
-MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-7B-Instruct-GGUF")
-# Si te falta RAM en CPU Basic, usa q3_k_m:
-# export MODEL_PATTERN=qwen2.5-7b-instruct-q3_k_m-*.gguf
-MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-7b-instruct-q4_k_m-*.gguf")
 # Carpeta de modelos en /data (escribible en Docker Spaces)
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/data/models"))
@@ -48,12 +49,12 @@ MODELS_DIR.mkdir(parents=True, exist_ok=True)
 # Rendimiento (overrides por variables de entorno)
 CPU_COUNT = os.cpu_count() or 2
 N_THREADS = env_int("N_THREADS", max(1, CPU_COUNT - 1))
-N_BATCH = env_int("N_BATCH", 64)          # bajar si vas muy justo de RAM
-N_CTX = env_int("N_CTX", 2048)            # 2048 va bien en CPU basic
 # Decodificación / longitud por defecto
-DEF_TEMPERATURE = env_float("LLM_TEMPERATURE", 0.6)
-DEF_TOP_P = env_float("LLM_TOP_P", 0.95)
 DEF_MAX_TOKENS = env_int("LLM_MAX_TOKENS", 160)          # longitud típica
 MAX_TOKENS_CAP = env_int("LLM_MAX_TOKENS_CAP", 320)      # tope duro
@@ -64,6 +65,7 @@ Eres Astrohunters-Guide, un asistente en español.
 - Si te paso una URL, lees su contenido y lo usas como contexto.
 """)
 # CORS
 # Opciones:
 #  - ALLOW_ALL_ORIGINS=1   (menos seguro, útil en pruebas)
@@ -138,7 +140,11 @@ def run_llm(
         max_tokens=clamp_tokens(max_tokens),
         stream=False,
     )
-    return out["choices"][0]["message"]["content"].strip()
 # ------------------ FastAPI ------------------

 # ------------------ Config ------------------
+# ⇩⇩ Cambiado a Qwen 2.5 3B (mejor para CPU Basic gratuito)
+MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-3B-Instruct-GGUF")
+# Opción rápida/ligera: q3_k_m si vas muy justo de RAM:
+#   MODEL_PATTERN=qwen2.5-3b-instruct-q3_k_m-*.gguf
+MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-3b-instruct-q4_k_m-*.gguf")
 # Carpeta de modelos en /data (escribible en Docker Spaces)
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/data/models"))
 # Rendimiento (overrides por variables de entorno)
 CPU_COUNT = os.cpu_count() or 2
 N_THREADS = env_int("N_THREADS", max(1, CPU_COUNT - 1))
+N_BATCH = env_int("N_BATCH", 64)          # bajar si vas justo de RAM
+N_CTX = env_int("N_CTX", 1536)            # 1536-2048 ok; menos = más rápido
 # Decodificación / longitud por defecto
+DEF_TEMPERATURE = env_float("LLM_TEMPERATURE", 0.4)  # un poco más bajo para menos alucinación
+DEF_TOP_P = env_float("LLM_TOP_P", 0.9)
 DEF_MAX_TOKENS = env_int("LLM_MAX_TOKENS", 160)          # longitud típica
 MAX_TOKENS_CAP = env_int("LLM_MAX_TOKENS_CAP", 320)      # tope duro
 - Si te paso una URL, lees su contenido y lo usas como contexto.
 """)
 # CORS
 # Opciones:
 #  - ALLOW_ALL_ORIGINS=1   (menos seguro, útil en pruebas)
         max_tokens=clamp_tokens(max_tokens),
         stream=False,
     )
+    try:
+        return out["choices"][0]["message"]["content"].strip()
+    except Exception:
+        # fallback defensivo
+        return str(out)[:1000]
 # ------------------ FastAPI ------------------