Spaces:

Leonardo0711
/

astrohunters-llm

Paused

App Files Files Community

Leonardo0711 commited on Oct 4

Commit

950bb84

verified ·

1 Parent(s): ef31123

Update app.py

Browse files

Files changed (1) hide show

app.py +84 -40

app.py CHANGED Viewed

@@ -3,7 +3,7 @@
 import os, glob, textwrap
 from pathlib import Path
-from typing import Optional
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
@@ -22,76 +22,128 @@ def env_int(name: str, default: int) -> int:
     except Exception:
         return default
 def env_float(name: str, default: float) -> float:
     try:
         return float(os.getenv(name, "").strip() or default)
     except Exception:
         return default
-def env_list(name: str) -> list[str]:
     raw = os.getenv(name, "").strip()
     return [x.strip() for x in raw.split(",") if x.strip()]
 # ------------------ Config ------------------
-# ⇩⇩ Cambiado a Qwen 2.5 3B (mejor para CPU Basic gratuito)
 MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-3B-Instruct-GGUF")
-# Opción rápida/ligera: q3_k_m si vas muy justo de RAM:
-#   MODEL_PATTERN=qwen2.5-3b-instruct-q3_k_m-*.gguf
-MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-3b-instruct-q4_k_m-*.gguf")
 # Carpeta de modelos en /data (escribible en Docker Spaces)
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/data/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
-# Rendimiento (overrides por variables de entorno)
 CPU_COUNT = os.cpu_count() or 2
 N_THREADS = env_int("N_THREADS", max(1, CPU_COUNT - 1))
-N_BATCH = env_int("N_BATCH", 64)          # bajar si vas justo de RAM
-N_CTX = env_int("N_CTX", 1536)            # 1536-2048 ok; menos = más rápido
-# Decodificación / longitud por defecto
-DEF_TEMPERATURE = env_float("LLM_TEMPERATURE", 0.4)  # un poco más bajo para menos alucinación
 DEF_TOP_P = env_float("LLM_TOP_P", 0.9)
-DEF_MAX_TOKENS = env_int("LLM_MAX_TOKENS", 160)          # longitud típica
-MAX_TOKENS_CAP = env_int("LLM_MAX_TOKENS_CAP", 320)      # tope duro
 SYSTEM_DEFAULT = textwrap.dedent("""\
 Eres Astrohunters-Guide, un asistente en español.
 - Respondes con precisión y sin inventar datos.
 - Sabes explicar resultados de exoplanetas (período, duración, profundidad, SNR, radio).
-- Si te paso una URL, lees su contenido y lo usas como contexto.
 """)
 # CORS
-# Opciones:
-#  - ALLOW_ALL_ORIGINS=1   (menos seguro, útil en pruebas)
-#  - CORS_ORIGINS="https://dominio1,https://dominio2"
 allow_all = os.getenv("ALLOW_ALL_ORIGINS", "").strip() in ("1", "true", "yes")
 CORS_ORIGINS = env_list("CORS_ORIGINS")
 if not CORS_ORIGINS:
-    # defaults cómodos para tu caso
     CORS_ORIGINS = [
         "https://pruebas.nataliacoronel.com",
         "https://*.nataliacoronel.com",
     ]
-# ------------------ Descarga del modelo ------------------
-print(f"[Boot] Descargando {MODEL_REPO} patrón {MODEL_PATTERN} en {MODELS_DIR} ...")
-snapshot_dir = snapshot_download(
-    repo_id=MODEL_REPO,
-    local_dir=str(MODELS_DIR),
-    allow_patterns=[MODEL_PATTERN],
-)
-candidates = sorted(glob.glob(str(Path(snapshot_dir) / MODEL_PATTERN)))
-if not candidates:
-    raise FileNotFoundError(f"No hay shards para {MODEL_PATTERN} en {snapshot_dir}")
-MODEL_PATH = candidates[0]
-print(f"[Boot] Usando shard: {MODEL_PATH}")
 # ------------------ Carga LLaMA.cpp ------------------
@@ -120,13 +172,11 @@ def fetch_url_text(url: str, max_chars: int = 6000) -> str:
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
 def clamp_tokens(requested: Optional[int]) -> int:
     if requested is None or requested <= 0:
         return DEF_MAX_TOKENS
     return max(1, min(requested, MAX_TOKENS_CAP))
 def run_llm(
     messages,
     temperature: Optional[float] = None,
@@ -143,7 +193,6 @@ def run_llm(
     try:
         return out["choices"][0]["message"]["content"].strip()
     except Exception:
-        # fallback defensivo
         return str(out)[:1000]
@@ -176,7 +225,6 @@ class PredictIn(BaseModel):
     temperature: Optional[float] = None
     top_p: Optional[float] = None
 class PredictURLIn(BaseModel):
     prompt: str
     url: Optional[str] = None
@@ -203,7 +251,6 @@ def healthz():
         },
     }
 @app.get("/")
 def root():
     return {
@@ -211,7 +258,6 @@ def root():
         "endpoints": ["/healthz", "/run_predict", "/run_predict_with_url", "/docs"],
     }
 @app.post("/run_predict")
 def run_predict(body: PredictIn):
     messages = [
@@ -226,7 +272,6 @@ def run_predict(body: PredictIn):
     )
     return {"reply": reply}
 @app.post("/run_predict_with_url")
 def run_predict_with_url(body: PredictURLIn):
     web_ctx = fetch_url_text(body.url) if body.url else ""
@@ -243,7 +288,6 @@ def run_predict_with_url(body: PredictURLIn):
     )
     return {"reply": reply}
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=int(os.getenv("PORT", "7860")))

 import os, glob, textwrap
 from pathlib import Path
+from typing import Optional, List
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
     except Exception:
         return default
 def env_float(name: str, default: float) -> float:
     try:
         return float(os.getenv(name, "").strip() or default)
     except Exception:
         return default
+def env_list(name: str) -> List[str]:
     raw = os.getenv(name, "").strip()
     return [x.strip() for x in raw.split(",") if x.strip()]
 # ------------------ Config ------------------
+# ⇩⇩ modelo 3B (mejor para Spaces CPU gratis)
 MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-3B-Instruct-GGUF")
+# Si defines MODEL_PATTERN lo respetamos; si no, probamos varios patrones típicos.
+PRIMARY_PATTERN = os.getenv("MODEL_PATTERN", "").strip()
 # Carpeta de modelos en /data (escribible en Docker Spaces)
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/data/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
+# Rendimiento
 CPU_COUNT = os.cpu_count() or 2
 N_THREADS = env_int("N_THREADS", max(1, CPU_COUNT - 1))
+N_BATCH = env_int("N_BATCH", 64)
+N_CTX = env_int("N_CTX", 1536)  # 1536–2048 ok en CPU basic
+# Decodificación / longitudes
+DEF_TEMPERATURE = env_float("LLM_TEMPERATURE", 0.4)  # un poco más bajo → menos alucinación
 DEF_TOP_P = env_float("LLM_TOP_P", 0.9)
+DEF_MAX_TOKENS = env_int("LLM_MAX_TOKENS", 160)
+MAX_TOKENS_CAP = env_int("LLM_MAX_TOKENS_CAP", 320)
 SYSTEM_DEFAULT = textwrap.dedent("""\
 Eres Astrohunters-Guide, un asistente en español.
 - Respondes con precisión y sin inventar datos.
 - Sabes explicar resultados de exoplanetas (período, duración, profundidad, SNR, radio).
+- Si te paso una URL, lees su contenido y la usas como contexto.
 """)
 # CORS
 allow_all = os.getenv("ALLOW_ALL_ORIGINS", "").strip() in ("1", "true", "yes")
 CORS_ORIGINS = env_list("CORS_ORIGINS")
 if not CORS_ORIGINS:
     CORS_ORIGINS = [
         "https://pruebas.nataliacoronel.com",
         "https://*.nataliacoronel.com",
     ]
+# ------------------ Resolución robusta del archivo GGUF ------------------
+def resolve_model_path(repo: str, models_dir: Path, primary_pattern: str) -> str:
+    """
+    Descarga sólo los archivos que necesitamos probando varios patrones comunes de Qwen 3B.
+    Devuelve la ruta al GGUF elegido o lanza FileNotFoundError.
+    """
+    # Patrones preferidos (ordenados por calidad/viabilidad en CPU gratuita)
+    patterns = []
+    if primary_pattern:
+        patterns.append(primary_pattern)
+    # 3B suele venir sin sufijo -00001-of-00001
+    patterns += [
+        "qwen2.5-3b-instruct-q4_k_m-*.gguf",
+        "qwen2.5-3b-instruct-q4_k_m.gguf",
+        "qwen2.5-3b-instruct-q4_0-*.gguf",
+        "qwen2.5-3b-instruct-q4_0.gguf",
+        "qwen2.5-3b-instruct-q3_k_m-*.gguf",
+        "qwen2.5-3b-instruct-q3_k_m.gguf",
+    ]
+    # Como último recurso (no deseable porque puede bajar más de un archivo):
+    # patterns.append("*.gguf")
+    # 1) Intento de descarga con allow_patterns = lista de patrones
+    print(f"[Boot] Descargando {repo} con patrones: {patterns}")
+    snapshot_dir = snapshot_download(
+        repo_id=repo,
+        local_dir=str(models_dir),
+        allow_patterns=patterns,
+    )
+    # 2) Buscar candidatos en el snapshot por prioridad
+    def glob_once(pat: str) -> List[str]:
+        return sorted(glob.glob(str(Path(snapshot_dir) / pat)))
+    all_candidates: List[str] = []
+    for pat in patterns:
+        cs = glob_once(pat)
+        if cs:
+            all_candidates.extend(cs)
+    # Filtro por 'instruct' y '3b' primero
+    def score(path: str) -> tuple:
+        p = Path(path).name.lower()
+        # prioridad por quant y por coincidencia "instruct" / "3b"
+        quant_order = ["q4_k_m", "q4_0", "q3_k_m", "q5_k_m", "q3_0"]
+        q_idx = next((i for i, q in enumerate(quant_order) if q in p), 99)
+        instruct_bonus = 0 if "instruct" in p else 50
+        size_bonus = 0  # opcional: podrías usar tamaño
+        return (instruct_bonus, q_idx, size_bonus, p)
+    all_candidates = sorted(set(all_candidates), key=score)
+    if not all_candidates:
+        # Intenta listar qué hay para debug
+        existing = sorted(glob.glob(str(Path(snapshot_dir) / "*.gguf")))
+        raise FileNotFoundError(
+            "No se encontró ningún GGUF en el repo con los patrones probados.\n"
+            f"Repo: {repo}\n"
+            f"Snapshot: {snapshot_dir}\n"
+            f"Intentados: {patterns}\n"
+            f"Encontrados (*.gguf): {[Path(x).name for x in existing]}"
+        )
+    chosen = all_candidates[0]
+    print(f"[Boot] Usando GGUF: {chosen}")
+    return chosen
+print(f"[Boot] Preparando modelo en {MODELS_DIR} ...")
+MODEL_PATH = resolve_model_path(MODEL_REPO, MODELS_DIR, PRIMARY_PATTERN)
 # ------------------ Carga LLaMA.cpp ------------------
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
 def clamp_tokens(requested: Optional[int]) -> int:
     if requested is None or requested <= 0:
         return DEF_MAX_TOKENS
     return max(1, min(requested, MAX_TOKENS_CAP))
 def run_llm(
     messages,
     temperature: Optional[float] = None,
     try:
         return out["choices"][0]["message"]["content"].strip()
     except Exception:
         return str(out)[:1000]
     temperature: Optional[float] = None
     top_p: Optional[float] = None
 class PredictURLIn(BaseModel):
     prompt: str
     url: Optional[str] = None
         },
     }
 @app.get("/")
 def root():
     return {
         "endpoints": ["/healthz", "/run_predict", "/run_predict_with_url", "/docs"],
     }
 @app.post("/run_predict")
 def run_predict(body: PredictIn):
     messages = [
     )
     return {"reply": reply}
 @app.post("/run_predict_with_url")
 def run_predict_with_url(body: PredictURLIn):
     web_ctx = fetch_url_text(body.url) if body.url else ""
     )
     return {"reply": reply}
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=int(os.getenv("PORT", "7860")))