Gaia2 and ARE: Empowering the community to study agents
Gaia2 est un nouveau benchmark d’évaluation d’agents conçu pour simuler des conditions du monde réel (lecture/écriture, bruit, échecs d’API, tâches temporelles). Il s’appuie sur le framework open-source ARE pour exécuter, déboguer et comparer des agents sur des scénarios humains complexes. Gaia2 et ARE visent à faciliter le debug et l’analyse des agents open‑world.