FeedCette semaineArticle
articleHuggingFace Blog

PipelineRL

PipelineRL introduit des mises à jour de poids en vol pendant l'entraînement RL des LLM, permettant un débit d'inférence élevé tout en restant proche de l'on-policy. L'étude montre des résultats compétitifs sur 7B et 32B par rapport à Open-Reasoner-Zero sur AIME 2024 et MATH 500, avec une implémentation plus simple (pas de fonction valeur et sans pénalité KL).

publié 25 AVR. 2025★★★★
Lire la sourcehuggingface.co/blog/ServiceNow/pipelinerl
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
Source
HuggingFace Blog
Ingéré
25 AVR. 2025 · 19:10
Score édito
4.0 / 5