L'addestramento di modelli di intelligenza artificiale sta diventando significativamente più economico. Andrej Karpathy stima una riduzione dei costi di circa il 40% annuo per l'addestramento di modelli come GPT-2. Questo calo è attribuibile a diversi fattori, tra cui progressi nell'hardware, nel software e negli algoritmi.

Fattori chiave di riduzione dei costi

  • Flash Attention 3: Un'implementazione ottimizzata dell'attenzione che offre un miglioramento di circa il 9% nel throughput (token/sec). L'unificazione delle API per training e inference e il layout nativo dei tensori contribuiscono a questa efficienza.
  • Sliding window attention: L'implementazione di pattern SSSL permette di risparmiare risorse computazionali senza compromettere la qualità del modello.
  • Muon optimizer: Una revisione completa dell'ottimizzatore Muon, con l'introduzione di Polar Express e NorMuon per la riduzione della varianza, e un approccio prudente al weight decay con uno schedule lineare.
  • Per-layer residual scalars: L'utilizzo di scalar residuali per ogni layer (x = λ_resid * x + λ_x0 * x0) ha mostrato un miglioramento costante su modelli di diverse dimensioni.
  • Value Embeddings at alternating layers: Posizionare i value embeddings in layer alternati si è dimostrato più efficace rispetto ad altre configurazioni.
  • BOS-aligned dataloader: L'utilizzo di un dataloader allineato al token BOS (Beginning of Sequence) ha reso superfluo l'addestramento a metà percorso.
  • Hyperparameter sweep at scale: L'esecuzione di un'ampia ricerca di iperparametri (320 esperimenti) ha permesso di identificare valori ottimali, evidenziando come il tuning su piccola scala non sia sempre trasferibile.
  • Scaling law discovery: La misurazione empirica del rapporto ottimale tra token e parametri (circa 10) è cruciale per ottimizzare l'addestramento di reti neurali.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.