L'apprendimento contrastivo multimodale su larga scala ha dimostrato notevoli progressi nell'ottenere rappresentazioni ricche e trasferibili. Tuttavia, un nuovo studio evidenzia come questo approccio tenda a trattare le dimensioni delle feature in modo uniforme, trascurando la struttura spettrale intrinseca delle feature apprese.

Spectral Disentanglement and Enhancement (SDE)

Il documento introduce Spectral Disentanglement and Enhancement (SDE), un framework che mira a colmare il divario tra la geometria degli spazi embedded e le loro proprietร  spettrali. SDE utilizza la decomposizione a valori singolari per partizionare adattivamente le dimensioni delle feature in tre categorie:

  • Segnali forti: catturano la semantica critica per il task.
  • Segnali deboli: riflettono correlazioni accessorie.
  • Rumore: rappresenta perturbazioni irrilevanti.

Successivamente, viene applicata una strategia di spectral enhancement basata su un curriculum, amplificando selettivamente i componenti informativi. Infine, viene introdotta una loss contrastiva dual-domain che ottimizza l'allineamento sia nello spazio delle feature che in quello spettrale.

Risultati

Gli esperimenti su benchmark multimodali su larga scala dimostrano che SDE migliora costantemente la robustezza e la generalizzazione delle rappresentazioni, superando i metodi allo stato dell'arte. SDE si integra facilmente con le pipeline contrastive esistenti, offrendo una soluzione efficace per l'apprendimento di rappresentazioni multimodali.