lucaslucas1's picture
Update README.md
1984127 verified
|
raw
history blame
1.06 kB

GAIA Benchmark Agent

Este proyecto implementa un agente que responde preguntas del benchmark GAIA y envía los resultados al endpoint oficial para calcular el score.

🚀 Cómo usar este Space

  1. Pregunta manual

    • Escribe una pregunta en el cuadro de texto y haz clic en Submit.
    • El agente responderá y mostrará un feedback simulado.
  2. Ejecutar todo el benchmark

    • Haz clic en Run & Submit All.
    • El agente responderá todas las preguntas del benchmark y enviará las respuestas al servidor oficial.
    • Verás el score real, el número de respuestas correctas y el mensaje del sistema.

📂 Estructura del proyecto

  • app.py: Lógica principal del agente y la interfaz Gradio.
  • utils.py: Funciones auxiliares para normalización y reformulación de prompts.
  • requirements.txt: Dependencias necesarias para ejecutar el Space.
  • README.md: Documentación del proyecto.

✅ Requisitos

  • Python 3.9+
  • Hugging Face Spaces

Instala las dependencias:

pip install -r requirements.txt