PyTorch 2.11 รจ disponibile con una serie di aggiornamenti mirati a migliorare le prestazioni e l'usabilitร  del framework, soprattutto in scenari di training distribuito e inference su diverse piattaforme hardware.

Novitร  Principali

  • Differentiable Collectives for Distributed Training: Introdotto il supporto alla differenziazione per le comunicazioni collettive, consentendo di retropropagare il gradiente attraverso le operazioni collettive. Questo semplifica l'implementazione di tecniche avanzate di training distribuito.
  • FlexAttention con FlashAttention-4: Il backend FlashAttention-4 per FlexAttention, ora disponibile su GPU NVIDIA Hopper e Blackwell, promette incrementi di velocitร  da 1.2x a 3.2x rispetto all'implementazione Triton esistente per carichi di lavoro compute-bound. Questa funzionalitร  รจ ancora in fase di sviluppo.
  • Espansione MPS (Apple Silicio): Ampliato il supporto per i dispositivi Apple Silicio, con nuove funzioni di distribuzione e la migrazione di operatori esistenti.
  • Supporto all'export per RNN/LSTM su GPU: I moduli RNN (LSTM, GRU, ecc.) possono ora essere esportati su GPU, con supporto al tracing di LSTM con shape dinamici. Questo amplia i tipi di modello che possono essere distribuiti usando torch.export per l'inference in produzione.
  • XPUGraph per GPU Intel: Introdotto il supporto a XPUGraph per ottimizzare l'esecuzione su GPU Intel, riducendo l'overhead della CPU.

Altre Novitร 

  • Supporto per asserzioni device-side su ROCm (AMD) e ottimizzazioni per l'operatore TopK.
  • Aggiunto il supporto per GEMM a mezza precisione FP16 tramite OpenBLAS su CPU, utile per scenari di inference su dispositivi edge.
  • CUDA 13 รจ ora la versione predefinita.
  • Torchscript รจ stato deprecato.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.