articleHuggingFace Blog
3LM: A Benchmark for Arabic LLMs in STEM and Code
3LM est un benchmark multidomaine pour évaluer les LLM arabes en STEM et en code, déployant trois jeux de données (Native STEM MCQs, Synthetic STEM et Arabic Code Benchmarks) et des métriques comme pass@1 via EvalPlus. Le pipeline combine OCR, génération par LLM et vérifications humaines, et propose l'accès aux jeux sur HuggingFace et le code sur GitHub.
publié 01 AOÛT 2025★★★★★
Lire la sourcehuggingface.co/blog/tiiuae/3lm-benchmark
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
- Source
- HuggingFace Blog
- Ingéré
- 01 AOÛT 2025 · 19:10
- Score édito
- 4.0 / 5