GFN v2.5.0: inferenza a memoria costante e extrapolazione di sequenze

Manifold Laboratory ha presentato GFN (Geodesic Flow Networks) v2.5.0, una nuova architettura che affronta il sequence modeling in modo innovativo. A differenza dei modelli basati su Transformer, che richiedono una quantità di memoria O(N^2) a causa del meccanismo di attenzione, e delle RNN standard, che soffrono di gradienti che svaniscono, GFN raggiunge una complessità di memoria O(1) durante l'inferenza e mostra una stabilità a orizzonte infinito grazie all'integrazione simplettica.

Caratteristiche principali

  • Memoria Costante: GFN codifica l'intera cronologia della sequenza nella posizione e nella velocità di una particella latente, eliminando la necessità di memorizzare la cronologia.
  • Generalizzazione Zero-Shot: Il modello generalizza perfettamente a lunghezze superiori di ordini di grandezza rispetto alla formazione.
  • Stabilità: L'introduzione di RiemannianAdam e dell'integrazione simplettica garantisce aggiornamenti dei parametri che rispettano la geometria del collettore e la conservazione dell'energia del sistema.

Risultati

La release v2.5.0 dimostra una generalizzazione zero-shot perfetta su task algoritmici con sequenze fino a 10.000 token, mantenendo un footprint di memoria strettamente limitato a circa 60MB. A L=1.000, GFN dimostra una riduzione di 234x nell'overhead di memoria rispetto ai modelli Transformer.

Implementazione tecnica

GFN utilizza tecniche come l'integrazione Leapfrog, simboli di Christoffel di basso rango e la normalizzazione della velocità per ottimizzare le prestazioni e la stabilità.

Limitazioni note e roadmap

Il team di sviluppo sta lavorando per migliorare la latenza in eager-mode tramite kernel CUDA personalizzati e per validare il modello su dataset su larga scala. Inoltre, è in corso la ricerca su geometrie ibride tramite combinazioni di esperti Euclidean, Hyperbolic e Spherical.