Spaces:

Leonardo0711
/

astrohunters-llm

Paused

App Files Files Community

Leonardo0711 commited on Oct 4

Commit

2d96246

verified ·

1 Parent(s): e283af9

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -82

app.py CHANGED Viewed

@@ -3,41 +3,58 @@
 import os, glob, textwrap
 from pathlib import Path
-from threading import Lock
-from fastapi import FastAPI, Body
 from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import HTMLResponse, JSONResponse
-from huggingface_hub import snapshot_download
-from llama_cpp import Llama
 import requests
 from bs4 import BeautifulSoup
-# ===== Carpeta para el modelo (NO usar /app) =====
-MODELS_DIR = Path(os.getenv("MODELS_DIR", "/tmp/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
-# ===== Modelo (GGUF) =====
-MODEL_REPO    = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-7B-Instruct-GGUF")
-# Para CPU basic puedes poner en Variables: MODEL_PATTERN=qwen2.5-7b-instruct-q3_k_m-*.gguf
-MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-7b-instruct-q4_k_m-*.gguf")
 print(f"[Boot] Descargando {MODEL_REPO} patrón {MODEL_PATTERN} en {MODELS_DIR} ...")
 snapshot_dir = snapshot_download(
     repo_id=MODEL_REPO,
     local_dir=str(MODELS_DIR),
     allow_patterns=[MODEL_PATTERN],
 )
-candidates = sorted(glob.glob(str(MODELS_DIR / MODEL_PATTERN)))
 if not candidates:
     raise FileNotFoundError(f"No hay shards para {MODEL_PATTERN} en {snapshot_dir}")
 MODEL_PATH = candidates[0]
 print(f"[Boot] Usando shard: {MODEL_PATH}")
-# Hilos seguros para CPU Basic
-N_THREADS = max(1, (os.cpu_count() or 2) - 1)
 llm = Llama(
     model_path=MODEL_PATH,
     n_ctx=4096,
@@ -46,101 +63,81 @@ llm = Llama(
     n_gpu_layers=0,
     verbose=False,
 )
-_llm_lock = Lock()
-SYSTEM_DEFAULT = textwrap.dedent("""\
-Eres Astrohunters-Guide, un asistente en español.
-- Respondes con precisión y sin inventar datos.
-- Sabes explicar resultados de exoplanetas (período, duración, profundidad, SNR, radio).
-- Si te paso una URL, lees su contenido y lo usas como contexto.
-""")
 def fetch_url_text(url: str, max_chars: int = 6000) -> str:
     try:
         r = requests.get(url, timeout=15)
         r.raise_for_status()
         soup = BeautifulSoup(r.text, "html.parser")
-        for t in soup(["script", "style", "noscript"]): t.remove()
         txt = " ".join(soup.get_text(separator=" ").split())
         return txt[:max_chars]
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
 def run_llm(messages, temperature=0.6, top_p=0.95, max_tokens=768) -> str:
-    with _llm_lock:
-        out = llm.create_chat_completion(
-            messages=messages,
-            temperature=temperature,
-            top_p=top_p,
-            max_tokens=max_tokens,
-            stream=False,
-        )
     return out["choices"][0]["message"]["content"].strip()
-# ===== FastAPI =====
-app = FastAPI(title="Astrohunters LLM API", version="1.0.0")
-# CORS (ajusta ALLOWED_ORIGINS en Settings → Variables si quieres limitar a tu dominio)
-ALLOWED_ORIGINS = os.getenv("ALLOWED_ORIGINS", "*").split(",")
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=ALLOWED_ORIGINS,
-    allow_credentials=True,
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
 @app.get("/healthz")
 def healthz():
-    return {"ok": True}
 @app.post("/run_predict")
-def run_predict(body: dict = Body(...)):
-    prompt = body.get("prompt", "")
-    system = body.get("system", "")
     messages = [
-        {"role": "system", "content": system or SYSTEM_DEFAULT},
-        {"role": "user", "content": prompt},
     ]
     reply = run_llm(messages, max_tokens=512)
     return {"reply": reply}
 @app.post("/run_predict_with_url")
-def run_predict_with_url(body: dict = Body(...)):
-    prompt = body.get("prompt", "")
-    url    = body.get("url", "")
-    system = body.get("system", "")
-    web_ctx = fetch_url_text(url) if url else ""
-    user_msg = prompt if not web_ctx else f"{prompt}\n\n[CONTEXTO_WEB]\n{web_ctx}"
     messages = [
-        {"role": "system", "content": system or SYSTEM_DEFAULT},
         {"role": "user", "content": user_msg},
     ]
     reply = run_llm(messages, max_tokens=700)
     return {"reply": reply}
-# Página mínima de prueba
-@app.get("/", response_class=HTMLResponse)
-def home():
-    return """
-<!doctype html>
-<html>
-<head><meta charset="utf-8"><title>Astrohunters LLM API</title></head>
-<body style="font-family:system-ui;max-width:800px;margin:40px auto">
-  <h2>🛰️ Astrohunters LLM API</h2>
-  <p>Endpoints: <code>/healthz</code>, <code>/run_predict</code>, <code>/run_predict_with_url</code>, y <a href="/docs">/docs</a> (Swagger).</p>
-  <textarea id="q" rows="4" style="width:100%" placeholder="Escribe tu pregunta..."></textarea>
-  <button id="btn">Preguntar</button>
-  <pre id="out"></pre>
-<script>
-document.getElementById('btn').onclick = async () => {
-  const r = await fetch('/run_predict', {
-    method:'POST', headers:{'Content-Type':'application/json'},
-    body: JSON.stringify({prompt: document.getElementById('q').value})
-  });
-  const j = await r.json();
-  document.getElementById('out').textContent = j.reply || JSON.stringify(j,null,2);
-};
-</script>
-</body></html>
-"""

 import os, glob, textwrap
 from pathlib import Path
+from typing import Optional
+from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel
 import requests
 from bs4 import BeautifulSoup
+from huggingface_hub import snapshot_download
+from llama_cpp import Llama
+# ------------------ Config ------------------
+MODEL_REPO = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-7B-Instruct-GGUF")
+# Si te falta RAM en CPU Basic: exporta MODEL_PATTERN=qwen2.5-7b-instruct-q3_k_m-*.gguf
+MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-7b-instruct-q4_k_m-*.gguf")
+# Carpeta de modelos en /data (escribible en Docker Spaces)
+MODELS_DIR = Path(os.getenv("MODELS_DIR", "/data/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
+N_THREADS = max(1, (os.cpu_count() or 2) - 1)
+SYSTEM_DEFAULT = textwrap.dedent("""\
+Eres Astrohunters-Guide, un asistente en español.
+- Respondes con precisión y sin inventar datos.
+- Sabes explicar resultados de exoplanetas (período, duración, profundidad, SNR, radio).
+- Si te paso una URL, lees su contenido y lo usas como contexto.
+""")
+ALLOWED_ORIGINS = [
+    # agrega tu dominio(s) aquí
+    "https://pruebas.nataliacoronel.com",
+    "https://*.nataliacoronel.com",
+    # durante pruebas puedes permitir todo, pero es menos seguro:
+    os.getenv("ALLOW_ALL_ORIGINS", "") and "*",
+]
+ALLOWED_ORIGINS = [o for o in ALLOWED_ORIGINS if o]
+# ------------------ Descarga del modelo ------------------
 print(f"[Boot] Descargando {MODEL_REPO} patrón {MODEL_PATTERN} en {MODELS_DIR} ...")
 snapshot_dir = snapshot_download(
     repo_id=MODEL_REPO,
     local_dir=str(MODELS_DIR),
     allow_patterns=[MODEL_PATTERN],
 )
+candidates = sorted(glob.glob(str(Path(snapshot_dir) / MODEL_PATTERN)))
 if not candidates:
     raise FileNotFoundError(f"No hay shards para {MODEL_PATTERN} en {snapshot_dir}")
 MODEL_PATH = candidates[0]
 print(f"[Boot] Usando shard: {MODEL_PATH}")
+# ------------------ Carga LLaMA.cpp ------------------
 llm = Llama(
     model_path=MODEL_PATH,
     n_ctx=4096,
     n_gpu_layers=0,
     verbose=False,
 )
 def fetch_url_text(url: str, max_chars: int = 6000) -> str:
     try:
         r = requests.get(url, timeout=15)
         r.raise_for_status()
         soup = BeautifulSoup(r.text, "html.parser")
+        for t in soup(["script", "style", "noscript"]):
+            t.decompose()
         txt = " ".join(soup.get_text(separator=" ").split())
         return txt[:max_chars]
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
 def run_llm(messages, temperature=0.6, top_p=0.95, max_tokens=768) -> str:
+    out = llm.create_chat_completion(
+        messages=messages,
+        temperature=temperature,
+        top_p=top_p,
+        max_tokens=max_tokens,
+        stream=False,
+    )
     return out["choices"][0]["message"]["content"].strip()
+# ------------------ FastAPI ------------------
+app = FastAPI(title="Astrohunters LLM API", docs_url="/docs", redoc_url=None)
+if ALLOWED_ORIGINS:
+    app.add_middleware(
+        CORSMiddleware,
+        allow_origins=ALLOWED_ORIGINS,
+        allow_credentials=True,
+        allow_methods=["*"],
+        allow_headers=["*"],
+    )
+class PredictIn(BaseModel):
+    prompt: str
+    system: Optional[str] = None
+class PredictURLIn(BaseModel):
+    prompt: str
+    url: Optional[str] = None
+    system: Optional[str] = None
 @app.get("/healthz")
 def healthz():
+    return {"ok": True, "model": os.path.basename(MODEL_PATH), "threads": N_THREADS}
+@app.get("/")
+def root():
+    return {
+        "name": "Astrohunters LLM API",
+        "endpoints": ["/healthz", "/run_predict", "/run_predict_with_url", "/docs"],
+    }
 @app.post("/run_predict")
+def run_predict(body: PredictIn):
     messages = [
+        {"role": "system", "content": body.system or SYSTEM_DEFAULT},
+        {"role": "user", "content": body.prompt},
     ]
     reply = run_llm(messages, max_tokens=512)
     return {"reply": reply}
 @app.post("/run_predict_with_url")
+def run_predict_with_url(body: PredictURLIn):
+    web_ctx = fetch_url_text(body.url) if body.url else ""
+    user_msg = body.prompt if not web_ctx else f"{body.prompt}\n\n[CONTEXTO_WEB]\n{web_ctx}"
     messages = [
+        {"role": "system", "content": body.system or SYSTEM_DEFAULT},
         {"role": "user", "content": user_msg},
     ]
     reply = run_llm(messages, max_tokens=700)
     return {"reply": reply}
+if __name__ == "__main__":
+    import uvicorn, os
+    uvicorn.run(app, host="0.0.0.0", port=int(os.getenv("PORT", "7860")))