Hugging Face ha annunciato la release stabile di Transformers v5, un aggiornamento significativo che introduce diverse ottimizzazioni e nuove funzionalitร .
Performance migliorata
La nuova versione promette incrementi prestazionali notevoli, in particolare per i modelli Mixture-of-Experts (MoE), con accelerazioni stimate tra 6x e 11x. Questo dovrebbe tradursi in tempi di inference ridotti e maggiore efficienza nell'utilizzo delle risorse.
Tokenizer semplificati
L'API per i tokenizer รจ stata semplificata, eliminando la distinzione tra tokenizer "slow" e "fast". Il nuovo approccio dovrebbe rendere piรน semplice l'integrazione e l'utilizzo dei tokenizer, con un backend esplicito e performance migliorate.
Caricamento dinamico dei pesi
Il caricamento dinamico dei pesi รจ stato ottimizzato, rendendolo piรน veloce e consentendo l'utilizzo di MoE con quantization, tensor parallelism (tp) e PEFT (Parameter-Efficient Fine-Tuning).
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti in dettaglio.
ร disponibile una guida alla migrazione per facilitare il passaggio alla nuova versione. Hugging Face invita gli utenti a segnalare eventuali problemi riscontrati durante l'utilizzo di Transformers v5.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!