Spaces:

OpceanAI
/

Yuuki-api

Running

aguitauwu commited on 11 days ago

Commit

08540f7

1 Parent(s): f419ee9

owo

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -2,21 +2,16 @@ FROM python:3.10-slim
 WORKDIR /app
-# Instalar dependencias del sistema
 RUN apt-get update && apt-get install -y \
     git \
     curl \
     && rm -rf /var/lib/apt/lists/*
-# Copiar e instalar dependencias Python primero (cache de Docker)
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# Copiar código
 COPY app.py .
-# Pre-descargar el modelo durante el build
-# (no en runtime, así el container arranca rápido)
 RUN python -c "\
 from transformers import AutoTokenizer, AutoModelForCausalLM; \
 print('Downloading tokenizer...'); \
@@ -27,9 +22,7 @@ print('Done!')"
 EXPOSE 7860
-# Healthcheck para saber cuando el servidor está listo
 HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
     CMD curl -f http://localhost:7860/health || exit 1
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

 WORKDIR /app
 RUN apt-get update && apt-get install -y \
     git \
     curl \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
 COPY app.py .
 RUN python -c "\
 from transformers import AutoTokenizer, AutoModelForCausalLM; \
 print('Downloading tokenizer...'); \
 EXPOSE 7860
 HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
     CMD curl -f http://localhost:7860/health || exit 1
 CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py CHANGED Viewed

@@ -13,7 +13,6 @@ app = FastAPI(
     version="1.0.0"
 )
-# CORS para que Yuuki-chat pueda llamar desde el browser
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -21,7 +20,6 @@ app.add_middleware(
     allow_headers=["*"],
 )
-# Cargar modelo una sola vez al arrancar
 print(f"Loading tokenizer from {MODEL_ID}...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
@@ -31,7 +29,7 @@ model = AutoModelForCausalLM.from_pretrained(
     torch_dtype=torch.float32
 ).to("cpu")
-model.eval()  # Modo inferencia (más rápido, menos memoria)
 print("Model ready!")
@@ -48,6 +46,19 @@ class GenerateResponse(BaseModel):
     time_ms: int
 @app.get("/health")
 def health():
     return {"status": "ok", "model": MODEL_ID}
@@ -78,7 +89,6 @@ def generate(req: GenerateRequest):
                 repetition_penalty=1.1,
             )
-        # Solo devolver tokens NUEVOS (no el prompt)
         new_tokens = output[0][input_length:]
         response_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
@@ -92,4 +102,3 @@ def generate(req: GenerateRequest):
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

     version="1.0.0"
 )
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_headers=["*"],
 )
 print(f"Loading tokenizer from {MODEL_ID}...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     torch_dtype=torch.float32
 ).to("cpu")
+model.eval()
 print("Model ready!")
     time_ms: int
+@app.get("/")
+def root():
+    return {
+        "message": "Yuuki Local Inference API",
+        "model": MODEL_ID,
+        "endpoints": {
+            "health": "GET /health",
+            "generate": "POST /generate",
+            "docs": "GET /docs"
+        }
+    }
 @app.get("/health")
 def health():
     return {"status": "ok", "model": MODEL_ID}
                 repetition_penalty=1.1,
             )
         new_tokens = output[0][input_length:]
         response_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

requirements.txt CHANGED Viewed

@@ -4,4 +4,3 @@ transformers==4.45.0
 torch==2.4.1
 pydantic==2.9.0
 accelerate==0.34.2

 torch==2.4.1
 pydantic==2.9.0
 accelerate==0.34.2