PyTorch 2.11: supporto esteso per GPU e training distribuito

PyTorch 2.11 è disponibile con una serie di aggiornamenti mirati a migliorare le prestazioni e l'usabilità del framework, soprattutto in scenari di training distribuito e inference su diverse piattaforme hardware.

Novità Principali

Differentiable Collectives for Distributed Training: Introdotto il supporto alla differenziazione per le comunicazioni collettive, consentendo di retropropagare il gradiente attraverso le operazioni collettive. Questo semplifica l'implementazione di tecniche avanzate di training distribuito.
FlexAttention con FlashAttention-4: Il backend FlashAttention-4 per FlexAttention, ora disponibile su GPU NVIDIA Hopper e Blackwell, promette incrementi di velocità da 1.2x a 3.2x rispetto all'implementazione Triton esistente per carichi di lavoro compute-bound. Questa funzionalità è ancora in fase di sviluppo.
Espansione MPS (Apple Silicio): Ampliato il supporto per i dispositivi Apple Silicio, con nuove funzioni di distribuzione e la migrazione di operatori esistenti.
Supporto all'export per RNN/LSTM su GPU: I moduli RNN (LSTM, GRU, ecc.) possono ora essere esportati su GPU, con supporto al tracing di LSTM con shape dinamici. Questo amplia i tipi di modello che possono essere distribuiti usando torch.export per l'inference in produzione.
XPUGraph per GPU Intel: Introdotto il supporto a XPUGraph per ottimizzare l'esecuzione su GPU Intel, riducendo l'overhead della CPU.

Altre Novità

Supporto per asserzioni device-side su ROCm (AMD) e ottimizzazioni per l'operatore TopK.
Aggiunto il supporto per GEMM a mezza precisione FP16 tramite OpenBLAS su CPU, utile per scenari di inference su dispositivi edge.
CUDA 13 è ora la versione predefinita.
Torchscript è stato deprecato.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.

PyTorch 2.11: supporto esteso per GPU e training distribuito

Novità Principali

Altre Novità

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

PyTorch 2.10: supporto migliorato per GPU AMD, Intel e NVIDIA

DeepSpeed: training multimodale e ottimizzazione della memoria

MoEBlaze: nuovo framework per training efficiente di MoE su GPU