articleHuggingFace Blog

Accelerating LLM Inference with TGI on Intel Gaudi

Text Generation Inference intègre désormais le support Gaudi d'Intel directement dans TGI, avec une architecture multi-backend et compatibilité Gaudi1/2/3. L'article présente les bénéfices (diversité matérielle, coût, production-ready features) et liste les modèles optimisés (Llama 3.x, Mistral, Mixtral) et donne un démarrage rapide (Docker + exemple curl) pour lancer TGI sur Gaudi. Il mentionne aussi le FP8 via Intel Neural Compressor et invite à tester et contribuer.

publié 28 MARS 2025★★★★★

Lire la sourcehuggingface.co/blog/intel-gaudi-backend-for-tgi

[*] Ouvre dans un nouvel onglet · pas de tracking côté Lantern

Source: HuggingFace Blog
Ingéré: 28 MARS 2025 · 19:10
Score édito: 4.0 / 5