articleHuggingFace Blog

Fixing Open LLM Leaderboard with Math-Verify

Math-Verify a remis à plat l'évaluation des LLM sur le Open LLM Leaderboard, en réévaluant 3 751 modèles sur 1 324 problèmes de maths difficiles. L'article explique les failles de l'ancienne méthode (format de réponse, parsing SymPy) et décrit les améliorations qui permettent une comparaison plus juste et robuste des modèles.

published FEB 14, 2025★★★★★

Read the sourcehuggingface.co/blog/math_verify_leaderboard

[*] Opens in a new tab · no tracking on Lantern's side

Source: HuggingFace Blog
Ingested: FEB 14, 2025 · 19:10
Editorial score: 4.0 / 5