articleHuggingFace Blog

3LM: A Benchmark for Arabic LLMs in STEM and Code

3LM est un benchmark multidomaine pour évaluer les LLM arabes en STEM et en code, déployant trois jeux de données (Native STEM MCQs, Synthetic STEM et Arabic Code Benchmarks) et des métriques comme pass@1 via EvalPlus. Le pipeline combine OCR, génération par LLM et vérifications humaines, et propose l'accès aux jeux sur HuggingFace et le code sur GitHub.

publié 01 AOÛT 2025★★★★★

Lire la sourcehuggingface.co/blog/tiiuae/3lm-benchmark

[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern

Source: HuggingFace Blog
Ingéré: 01 AOÛT 2025 · 19:10
Score édito: 4.0 / 5