GFN v2.5.0: inferenza a memoria costante e extrapolazione di sequenze
Manifold Laboratory ha presentato GFN (Geodesic Flow Networks) v2.5.0, una nuova architettura che affronta il sequence modeling in modo innovativo. A differenza dei modelli basati su Transformer, che richiedono una quantità di memoria O(N^2) a causa del meccanismo di attenzione, e delle RNN standard, che soffrono di gradienti che svaniscono, GFN raggiunge una complessità di memoria O(1) durante l'inferenza e mostra una stabilità a orizzonte infinito grazie all'integrazione simplettica.
Caratteristiche principali
- Memoria Costante: GFN codifica l'intera cronologia della sequenza nella posizione e nella velocità di una particella latente, eliminando la necessità di memorizzare la cronologia.
- Generalizzazione Zero-Shot: Il modello generalizza perfettamente a lunghezze superiori di ordini di grandezza rispetto alla formazione.
- Stabilità: L'introduzione di RiemannianAdam e dell'integrazione simplettica garantisce aggiornamenti dei parametri che rispettano la geometria del collettore e la conservazione dell'energia del sistema.
Risultati
La release v2.5.0 dimostra una generalizzazione zero-shot perfetta su task algoritmici con sequenze fino a 10.000 token, mantenendo un footprint di memoria strettamente limitato a circa 60MB. A L=1.000, GFN dimostra una riduzione di 234x nell'overhead di memoria rispetto ai modelli Transformer.
Implementazione tecnica
GFN utilizza tecniche come l'integrazione Leapfrog, simboli di Christoffel di basso rango e la normalizzazione della velocità per ottimizzare le prestazioni e la stabilità.
Limitazioni note e roadmap
Il team di sviluppo sta lavorando per migliorare la latenza in eager-mode tramite kernel CUDA personalizzati e per validare il modello su dataset su larga scala. Inoltre, è in corso la ricerca su geometrie ibride tramite combinazioni di esperti Euclidean, Hyperbolic e Spherical.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!