FeedCette semaineArticle
articleHuggingFace Blog

Differential Transformer V2

L'article présente Differential Transformer V2, une variante d'attention qui double les heads de requête tout en conservant le nombre de heads clé/valeur, permettant des décodages plus rapides sans kernel personnalisé. Le mécanisme différentiel combine les résultats de deux projections d'attention avec un paramètre λ par tête, simplifié par une contrainte de magnitude Softmax. Les auteurs démontrent par ablation et benchmarks des gains de débit et une compatibilité avec FlashAttention.

publié 20 JANV. 2026★★★★★
Lire la sourcehuggingface.co/blog/microsoft/diff-attn-v2
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
Source
HuggingFace Blog
Ingéré
20 JANV. 2026 · 19:10
Score édito
5.0 / 5