Transformers v5: Nuova release stabile con boost prestazionale

Hugging Face ha annunciato la release stabile di Transformers v5, un aggiornamento significativo che introduce diverse ottimizzazioni e nuove funzionalità.

Performance migliorata

La nuova versione promette incrementi prestazionali notevoli, in particolare per i modelli Mixture-of-Experts (MoE), con accelerazioni stimate tra 6x e 11x. Questo dovrebbe tradursi in tempi di inference ridotti e maggiore efficienza nell'utilizzo delle risorse.

Tokenizer semplificati

L'API per i tokenizer è stata semplificata, eliminando la distinzione tra tokenizer "slow" e "fast". Il nuovo approccio dovrebbe rendere più semplice l'integrazione e l'utilizzo dei tokenizer, con un backend esplicito e performance migliorate.

Caricamento dinamico dei pesi

Il caricamento dinamico dei pesi è stato ottimizzato, rendendolo più veloce e consentendo l'utilizzo di MoE con quantization, tensor parallelism (tp) e PEFT (Parameter-Efficient Fine-Tuning).

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti in dettaglio.

È disponibile una guida alla migrazione per facilitare il passaggio alla nuova versione. Hugging Face invita gli utenti a segnalare eventuali problemi riscontrati durante l'utilizzo di Transformers v5.

Transformers v5: Nuova release stabile con boost prestazionale

Performance migliorata

Tokenizer semplificati

Caricamento dinamico dei pesi

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Unsloth accelera il fine-tuning dei modelli di embedding

Nuova versione in arrivo per Gemma, l'LLM di Google

Ouro-2.6B-Thinking: inference funzionante per il modello di ByteDance

👥 Unisciti a 160+ appassionati di AI