articleHuggingFace Blog

Fixing Open LLM Leaderboard with Math-Verify

Math-Verify a remis à plat l'évaluation des LLM sur le Open LLM Leaderboard, en réévaluant 3 751 modèles sur 1 324 problèmes de maths difficiles. L'article explique les failles de l'ancienne méthode (format de réponse, parsing SymPy) et décrit les améliorations qui permettent une comparaison plus juste et robuste des modèles.

publié 14 FÉVR. 2025★★★★★

Lire la sourcehuggingface.co/blog/math_verify_leaderboard

[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern

Source: HuggingFace Blog
Ingéré: 14 FÉVR. 2025 · 19:10
Score édito: 4.0 / 5