articleHuggingFace Blog

Smol2Operator: Post-Training GUI Agents for Computer Use

L’article présente Smol2Operator, une méthode de post-entraînement qui donne à un VLM léger (SmolVLM2-2.2B-Instruct) des capacités de compréhension et d’interaction avec les interfaces graphiques. En deux phases — d’abord l’ancrage perçu, puis la cognition/agenticité — les auteurs transforment des données hétérogènes en un espace d’actions unifié et open source. Ils libèrent modèles, données, outils et recettes pour reproduire et étendre la recherche.

published SEP 23, 2025★★★★★

Read the sourcehuggingface.co/blog/smol2operator

[*] Opens in a new tab · no tracking on Lantern's side

Source: HuggingFace Blog
Ingested: SEP 23, 2025 · 19:10
Editorial score: 4.0 / 5