articleHuggingFace Blog

SigLIP 2: A better multilingual vision language encoder

SigLIP 2 expands Google's multilingual vision-language encoder family by adding additional training objectives to SigLIP's sigmoid loss, boosting semantic understanding, localization, and dense features. It outperforms SigLIP across scales on zero-shot classification, image-text retrieval, and transfer tasks, and introduces a dynamic resolution (naflex) variant for aspect-ratio-sensitive downstream work. The release catalogs multiple models (Base, Large, So400m, Giant) with varied patch sizes, 2

publié 21 FÉVR. 2025★★★★★

Lire la sourcehuggingface.co/blog/siglip2

[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern

Source: HuggingFace Blog
Ingéré: 21 FÉVR. 2025 · 19:10
Score édito: 3.0 / 5