GAIA Benchmark Agent
Este proyecto implementa un agente que responde preguntas del benchmark GAIA y envía los resultados al endpoint oficial para calcular el score.
🚀 Cómo usar este Space
Pregunta manual
- Escribe una pregunta en el cuadro de texto y haz clic en Submit.
- El agente responderá y mostrará un feedback simulado.
Ejecutar todo el benchmark
- Haz clic en Run & Submit All.
- El agente responderá todas las preguntas del benchmark y enviará las respuestas al servidor oficial.
- Verás el score real, el número de respuestas correctas y el mensaje del sistema.
📂 Estructura del proyecto
app.py: Lógica principal del agente y la interfaz Gradio.utils.py: Funciones auxiliares para normalización y reformulación de prompts.requirements.txt: Dependencias necesarias para ejecutar el Space.README.md: Documentación del proyecto.
✅ Requisitos
- Python 3.9+
- Hugging Face Spaces
Instala las dependencias:
pip install -r requirements.txt