FeedCette semaineArticle
articleHuggingFace Blog

PaliGemma 2 Mix - New Instruction Vision Language Models by Google

Google publie PaliGemma 2 Mix, une famille de modèles vision-langage fine-tunés sur OCR, captioning et autres tâches. Disponibles en 3B/10B/28B et résolutions jusqu'à 896x896, ils permettent d’estimer les performances après fine-tuning sur des tâches en aval. L'article détaille des prompts open-ended et des prefixes (caption, describe, ocr, answer) ainsi que des invites pour détection et segmentation, avec une démo.

publié 19 FÉVR. 2025★★★★
Lire la sourcehuggingface.co/blog/paligemma2mix
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
Source
HuggingFace Blog
Ingéré
19 FÉVR. 2025 · 19:10
Score édito
4.0 / 5