articleHuggingFace Blog
Fixing Open LLM Leaderboard with Math-Verify
Math-Verify a remis à plat l'évaluation des LLM sur le Open LLM Leaderboard, en réévaluant 3 751 modèles sur 1 324 problèmes de maths difficiles. L'article explique les failles de l'ancienne méthode (format de réponse, parsing SymPy) et décrit les améliorations qui permettent une comparaison plus juste et robuste des modèles.
publié 14 FÉVR. 2025★★★★★
Lire la sourcehuggingface.co/blog/math_verify_leaderboard
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
- Source
- HuggingFace Blog
- Ingéré
- 14 FÉVR. 2025 · 19:10
- Score édito
- 4.0 / 5