articleHuggingFace Blog
PaliGemma 2 Mix - New Instruction Vision Language Models by Google
Google publie PaliGemma 2 Mix, une famille de modèles vision-langage fine-tunés sur OCR, captioning et autres tâches. Disponibles en 3B/10B/28B et résolutions jusqu'à 896x896, ils permettent d’estimer les performances après fine-tuning sur des tâches en aval. L'article détaille des prompts open-ended et des prefixes (caption, describe, ocr, answer) ainsi que des invites pour détection et segmentation, avec une démo.
publié 19 FÉVR. 2025★★★★★
Lire la sourcehuggingface.co/blog/paligemma2mix
[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern
- Source
- HuggingFace Blog
- Ingéré
- 19 FÉVR. 2025 · 19:10
- Score édito
- 4.0 / 5