PyTorch 2.11 รจ disponibile con una serie di aggiornamenti mirati a migliorare le prestazioni e l'usabilitร del framework, soprattutto in scenari di training distribuito e inference su diverse piattaforme hardware.
Novitร Principali
- Differentiable Collectives for Distributed Training: Introdotto il supporto alla differenziazione per le comunicazioni collettive, consentendo di retropropagare il gradiente attraverso le operazioni collettive. Questo semplifica l'implementazione di tecniche avanzate di training distribuito.
- FlexAttention con FlashAttention-4: Il backend FlashAttention-4 per FlexAttention, ora disponibile su GPU NVIDIA Hopper e Blackwell, promette incrementi di velocitร da 1.2x a 3.2x rispetto all'implementazione Triton esistente per carichi di lavoro compute-bound. Questa funzionalitร รจ ancora in fase di sviluppo.
- Espansione MPS (Apple Silicio): Ampliato il supporto per i dispositivi Apple Silicio, con nuove funzioni di distribuzione e la migrazione di operatori esistenti.
- Supporto all'export per RNN/LSTM su GPU: I moduli RNN (LSTM, GRU, ecc.) possono ora essere esportati su GPU, con supporto al tracing di LSTM con shape dinamici. Questo amplia i tipi di modello che possono essere distribuiti usando
torch.exportper l'inference in produzione. - XPUGraph per GPU Intel: Introdotto il supporto a XPUGraph per ottimizzare l'esecuzione su GPU Intel, riducendo l'overhead della CPU.
Altre Novitร
- Supporto per asserzioni device-side su ROCm (AMD) e ottimizzazioni per l'operatore TopK.
- Aggiunto il supporto per GEMM a mezza precisione FP16 tramite OpenBLAS su CPU, utile per scenari di inference su dispositivi edge.
- CUDA 13 รจ ora la versione predefinita.
- Torchscript รจ stato deprecato.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!