L'iterazione Newton-Schulz (NS) è diventata sempre più interessante per il suo ruolo nell'ottimizzatore Muon e nella varietà di Stiefel. Tuttavia, l'iterazione NS convenzionale soffre di inefficienza e instabilità. Sebbene siano stati introdotti vari miglioramenti all'iterazione NS, questi non si discostano dal paradigma iterativo convenzionale, il che potrebbe aumentare notevolmente l'onere computazionale a causa dei ripetuti prodotti di matrici lungo la dimensione lunga.

UNSO: Un approccio unificato

Per affrontare questo problema, un nuovo studio introduce un framework unificato, denominato Unified Newton-Schulz Orthogonalization (UNSO). Questo approccio consolida la struttura iterativa, evitando un'espansione polinomiale. Invece, valuta il ruolo di ogni potenza di matrice, rimuove i termini insignificanti e fornisce un polinomio raccomandato con coefficienti apprendibili. Questi coefficienti apprendibili vengono quindi ottimizzati, ottenendo prestazioni eccezionali con una convergenza stabile.

Il codice del metodo è disponibile su GitHub: https://github.com/greekinRoma/Unified_Newton_Schulz_Orthogonalization.