FeedCette semaineArticle
otherHuggingFace Blog

Gaia2 and ARE: Empowering the community to study agents

Gaia2 est un nouveau benchmark d’évaluation d’agents conçu pour simuler des conditions du monde réel (lecture/écriture, bruit, échecs d’API, tâches temporelles). Il s’appuie sur le framework open-source ARE pour exécuter, déboguer et comparer des agents sur des scénarios humains complexes. Gaia2 et ARE visent à faciliter le debug et l’analyse des agents open‑world.

publié 22 SEPT. 2025★★★★
Lire la sourcehuggingface.co/blog/gaia2
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
Source
HuggingFace Blog
Ingéré
22 SEPT. 2025 · 19:10
Score édito
4.0 / 5