Compass-Embedding v4 per l'e-commerce multilingue

La rapida espansione dell'e-commerce globale nei mercati emergenti ha evidenziato la mancanza di rappresentazioni semantiche di alta qualitร  per le lingue con poche risorse. Questo collo di bottiglia influisce negativamente sui sistemi di ricerca, raccomandazione e recupero delle informazioni.

Compass-Embedding v4 รจ un framework di embedding multilingue ad alta efficienza, specificamente ottimizzato per scenari di e-commerce nel Sud-est asiatico (SEA). In questi contesti, la scarsitร  di dati, la supervisione imperfetta e i rigidi vincoli di produzione rappresentano sfide significative per il machine learning.

Le tre sfide affrontate

Compass-Embedding v4 affronta tre sfide principali:

  1. False negativi nel training contrastivo: Il training contrastivo con batch di grandi dimensioni e supervisione di task misti introduce falsi negativi sistematici che degradano l'allineamento semantico. Per risolvere questo problema, รจ stato proposto Class-Aware Masking (CAM), una modifica leggera all'obiettivo InfoNCE che sopprime i negativi in-batch non validi e migliora la discriminazione semantica senza alterare l'efficienza del training.
  2. Dati limitati per le lingue SEA: Le lingue SEA con poche risorse soffrono di una copertura dati limitata e disomogenea. Per ovviare a ciรฒ, รจ stato costruito un corpus di training diversificato attraverso la generazione di dati sintetici basati sul contesto, la traduzione cross-linguale e la costruzione di dati strutturati per l'e-commerce, consentendo un apprendimento multilingue e specifico per il dominio.
  3. Inferenza ad alta velocitร : L'implementazione in produzione richiede un'inferenza ad alta velocitร  preservando la qualitร  dell'embedding. A tal fine, รจ stata combinata la formazione con batch di grandi dimensioni guidata dalla robustezza con l'unione di modelli sferici per mitigare la bruciatura catastrofica, e l'inferenza รจ stata ottimizzata tramite vLLM e quantizzazione FP8.

Le valutazioni su benchmark multilingue e task di e-commerce proprietari dimostrano che Compass-Embedding v4 raggiunge prestazioni all'avanguardia sulle principali lingue SEA, superando significativamente i modelli di embedding generici nel recupero e nella classificazione specifici per il dominio, pur mantenendo prestazioni competitive sulle lingue con molte risorse.