Spaces:

Leonardo0711
/

astrohunters-llm

Paused

App Files Files Community

Leonardo0711 commited on Oct 4

Commit

5b5f5ea

verified ·

1 Parent(s): b6a3f56

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -77

app.py CHANGED Viewed

@@ -3,25 +3,24 @@
 import os, glob, textwrap
 from pathlib import Path
-import gradio as gr
 from huggingface_hub import snapshot_download
 from llama_cpp import Llama
 import requests
 from bs4 import BeautifulSoup
-from fastapi import FastAPI, Body
-from fastapi.middleware.cors import CORSMiddleware
-from gradio.routes import mount_gradio_app
-# ===== Dónde guardar el modelo (NO usar /app) =====
-# Gratis/ephemeral: /tmp/models   |  Persistente (si contratas storage): /data/models
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/tmp/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
 # ===== Modelo (GGUF) =====
 MODEL_REPO    = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-7B-Instruct-GGUF")
-# Si falta RAM o quieres descargar más rápido: exporta MODEL_PATTERN=qwen2.5-7b-instruct-q3_k_m-*.gguf
 MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-7b-instruct-q4_k_m-*.gguf")
 print(f"[Boot] Descargando {MODEL_REPO} patrón {MODEL_PATTERN} en {MODELS_DIR} ...")
@@ -47,6 +46,7 @@ llm = Llama(
     n_gpu_layers=0,
     verbose=False,
 )
 SYSTEM_DEFAULT = textwrap.dedent("""\
 Eres Astrohunters-Guide, un asistente en español.
@@ -60,73 +60,29 @@ def fetch_url_text(url: str, max_chars: int = 6000) -> str:
         r = requests.get(url, timeout=15)
         r.raise_for_status()
         soup = BeautifulSoup(r.text, "html.parser")
-        for t in soup(["script", "style", "noscript"]): t.decompose()
         txt = " ".join(soup.get_text(separator=" ").split())
         return txt[:max_chars]
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
-def run_llm(messages, temperature=0.6, top_p=0.95, max_tokens=768):
-    out = llm.create_chat_completion(
-        messages=messages,
-        temperature=temperature,
-        top_p=top_p,
-        max_tokens=max_tokens,
-        stream=False,
-    )
     return out["choices"][0]["message"]["content"].strip()
-# ====== Lógica API ======
-def api_run_predict(prompt: str, system: str = "") -> str:
-    messages = [
-        {"role": "system", "content": system or SYSTEM_DEFAULT},
-        {"role": "user", "content": prompt},
-    ]
-    return run_llm(messages, max_tokens=512)
-def api_run_predict_with_url(prompt: str, url: str = "", system: str = "") -> str:
-    web_ctx = fetch_url_text(url) if url else ""
-    user_msg = prompt if not web_ctx else f"{prompt}\n\n[CONTEXTO_WEB]\n{web_ctx}"
-    messages = [
-        {"role": "system", "content": system or SYSTEM_DEFAULT},
-        {"role": "user", "content": user_msg},
-    ]
-    return run_llm(messages, max_tokens=700)
-# ====== UI de chat (Gradio) ======
-with gr.Blocks(title="Astrohunters LLM (Qwen2.5 7B)") as chat_ui:
-    gr.Markdown("## 🛰️ Astrohunters LLM (Qwen2.5 7B Instruct, GGUF — CPU Basic)")
-    with gr.Row():
-        with gr.Column(scale=3):
-            chat = gr.Chatbot(height=420, type="tuples")
-            with gr.Row():
-                txt = gr.Textbox(placeholder="Escribe tu pregunta...", scale=4)
-                btn = gr.Button("Enviar", scale=1, variant="primary")
-        with gr.Column(scale=2):
-            system_tb = gr.Textbox(label="System prompt", value=SYSTEM_DEFAULT, lines=10)
-            url_tb = gr.Textbox(label="URL (opcional): Cargar contenido web", placeholder="https://...")
-    def chat_infer(history, system_prompt, user, url_to_load):
-        web_ctx = fetch_url_text(url_to_load.strip()) if url_to_load and url_to_load.strip() else ""
-        messages = [{"role": "system", "content": system_prompt or SYSTEM_DEFAULT}]
-        for u, a in history:
-            if u: messages.append({"role": "user", "content": u})
-            if a: messages.append({"role": "assistant", "content": a})
-        user_msg = user or ""
-        if web_ctx:
-            user_msg = f"{user_msg}\n\n[CONTEXTO_WEB]\n{web_ctx}"
-        messages.append({"role": "user", "content": user_msg})
-        reply = run_llm(messages, max_tokens=700)
-        history.append((user, reply))
-        return history, ""
-    btn.click(chat_infer, inputs=[chat, system_tb, txt, url_tb], outputs=[chat, txt])
-    txt.submit(chat_infer, inputs=[chat, system_tb, txt, url_tb], outputs=[chat, txt])
-# ====== FastAPI + CORS + endpoints REST ======
-api = FastAPI()
 ALLOWED_ORIGINS = os.getenv("ALLOWED_ORIGINS", "*").split(",")
-api.add_middleware(
     CORSMiddleware,
     allow_origins=ALLOWED_ORIGINS,
     allow_credentials=True,
@@ -134,25 +90,57 @@ api.add_middleware(
     allow_headers=["*"],
 )
-@api.get("/healthz")
 def healthz():
     return {"ok": True}
-@api.post("/run_predict")
 def run_predict(body: dict = Body(...)):
     prompt = body.get("prompt", "")
     system = body.get("system", "")
-    return {"reply": api_run_predict(prompt, system)}
-@api.post("/run_predict_with_url")
 def run_predict_with_url(body: dict = Body(...)):
     prompt = body.get("prompt", "")
     url    = body.get("url", "")
     system = body.get("system", "")
-    return {"reply": api_run_predict_with_url(prompt, url, system)}
-# Montamos la UI de Gradio en "/"
-app = mount_gradio_app(api, chat_ui, path="/")
-if __name__ == "__main__":
-    chat_ui.queue(max_size=16).launch(server_name="0.0.0.0", server_port=7860)

 import os, glob, textwrap
 from pathlib import Path
+from threading import Lock
+from fastapi import FastAPI, Body
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import HTMLResponse, JSONResponse
 from huggingface_hub import snapshot_download
 from llama_cpp import Llama
 import requests
 from bs4 import BeautifulSoup
+# ===== Carpeta para el modelo (NO usar /app) =====
 MODELS_DIR = Path(os.getenv("MODELS_DIR", "/tmp/models"))
 MODELS_DIR.mkdir(parents=True, exist_ok=True)
 # ===== Modelo (GGUF) =====
 MODEL_REPO    = os.getenv("MODEL_REPO", "Qwen/Qwen2.5-7B-Instruct-GGUF")
+# Para CPU basic puedes poner en Variables: MODEL_PATTERN=qwen2.5-7b-instruct-q3_k_m-*.gguf
 MODEL_PATTERN = os.getenv("MODEL_PATTERN", "qwen2.5-7b-instruct-q4_k_m-*.gguf")
 print(f"[Boot] Descargando {MODEL_REPO} patrón {MODEL_PATTERN} en {MODELS_DIR} ...")
     n_gpu_layers=0,
     verbose=False,
 )
+_llm_lock = Lock()
 SYSTEM_DEFAULT = textwrap.dedent("""\
 Eres Astrohunters-Guide, un asistente en español.
         r = requests.get(url, timeout=15)
         r.raise_for_status()
         soup = BeautifulSoup(r.text, "html.parser")
+        for t in soup(["script", "style", "noscript"]): t.remove()
         txt = " ".join(soup.get_text(separator=" ").split())
         return txt[:max_chars]
     except Exception as e:
         return f"[No se pudo cargar {url}: {e}]"
+def run_llm(messages, temperature=0.6, top_p=0.95, max_tokens=768) -> str:
+    with _llm_lock:
+        out = llm.create_chat_completion(
+            messages=messages,
+            temperature=temperature,
+            top_p=top_p,
+            max_tokens=max_tokens,
+            stream=False,
+        )
     return out["choices"][0]["message"]["content"].strip()
+# ===== FastAPI =====
+app = FastAPI(title="Astrohunters LLM API", version="1.0.0")
+# CORS (ajusta ALLOWED_ORIGINS en Settings → Variables si quieres limitar a tu dominio)
 ALLOWED_ORIGINS = os.getenv("ALLOWED_ORIGINS", "*").split(",")
+app.add_middleware(
     CORSMiddleware,
     allow_origins=ALLOWED_ORIGINS,
     allow_credentials=True,
     allow_headers=["*"],
 )
+@app.get("/healthz")
 def healthz():
     return {"ok": True}
+@app.post("/run_predict")
 def run_predict(body: dict = Body(...)):
     prompt = body.get("prompt", "")
     system = body.get("system", "")
+    messages = [
+        {"role": "system", "content": system or SYSTEM_DEFAULT},
+        {"role": "user", "content": prompt},
+    ]
+    reply = run_llm(messages, max_tokens=512)
+    return {"reply": reply}
+@app.post("/run_predict_with_url")
 def run_predict_with_url(body: dict = Body(...)):
     prompt = body.get("prompt", "")
     url    = body.get("url", "")
     system = body.get("system", "")
+    web_ctx = fetch_url_text(url) if url else ""
+    user_msg = prompt if not web_ctx else f"{prompt}\n\n[CONTEXTO_WEB]\n{web_ctx}"
+    messages = [
+        {"role": "system", "content": system or SYSTEM_DEFAULT},
+        {"role": "user", "content": user_msg},
+    ]
+    reply = run_llm(messages, max_tokens=700)
+    return {"reply": reply}
+# Página mínima de prueba
+@app.get("/", response_class=HTMLResponse)
+def home():
+    return """
+<!doctype html>
+<html>
+<head><meta charset="utf-8"><title>Astrohunters LLM API</title></head>
+<body style="font-family:system-ui;max-width:800px;margin:40px auto">
+  <h2>🛰️ Astrohunters LLM API</h2>
+  <p>Endpoints: <code>/healthz</code>, <code>/run_predict</code>, <code>/run_predict_with_url</code>, y <a href="/docs">/docs</a> (Swagger).</p>
+  <textarea id="q" rows="4" style="width:100%" placeholder="Escribe tu pregunta..."></textarea>
+  <button id="btn">Preguntar</button>
+  <pre id="out"></pre>
+<script>
+document.getElementById('btn').onclick = async () => {
+  const r = await fetch('/run_predict', {
+    method:'POST', headers:{'Content-Type':'application/json'},
+    body: JSON.stringify({prompt: document.getElementById('q').value})
+  });
+  const j = await r.json();
+  document.getElementById('out').textContent = j.reply || JSON.stringify(j,null,2);
+};
+</script>
+</body></html>
+"""