articleHuggingFace Blog
Fixing Open LLM Leaderboard with Math-Verify
Math-Verify a remis à plat l'évaluation des LLM sur le Open LLM Leaderboard, en réévaluant 3 751 modèles sur 1 324 problèmes de maths difficiles. L'article explique les failles de l'ancienne méthode (format de réponse, parsing SymPy) et décrit les améliorations qui permettent une comparaison plus juste et robuste des modèles.
published FEB 14, 2025★★★★★
Read the sourcehuggingface.co/blog/math_verify_leaderboard
[*] Opens in a new tab · no tracking on Lantern's side
- Source
- HuggingFace Blog
- Ingested
- FEB 14, 2025 · 19:10
- Editorial score
- 4.0 / 5