articleHuggingFace Blog
PaliGemma 2 Mix - New Instruction Vision Language Models by Google
Google publie PaliGemma 2 Mix, une famille de modèles vision-langage fine-tunés sur OCR, captioning et autres tâches. Disponibles en 3B/10B/28B et résolutions jusqu'à 896x896, ils permettent d’estimer les performances après fine-tuning sur des tâches en aval. L'article détaille des prompts open-ended et des prefixes (caption, describe, ocr, answer) ainsi que des invites pour détection et segmentation, avec une démo.
published FEB 19, 2025★★★★★
Read the sourcehuggingface.co/blog/paligemma2mix
[*] Opens in a new tab · no tracking on Lantern's side
- Source
- HuggingFace Blog
- Ingested
- FEB 19, 2025 · 19:10
- Editorial score
- 4.0 / 5