Taalas sta sviluppando un approccio innovativo per l'inference di modelli linguistici di grandi dimensioni (LLM): integrare l'architettura del modello e i suoi pesi direttamente nell'hardware.

Dettagli della tecnicia

Invece di utilizzare memorie HBM esterne e sistemi complessi di packaging, Taalas incide il modello completo su un singolo chip di silicio. Questo, secondo l'azienda, permette di ottenere:

  • Latenza inferiore a 1 millisecondo
  • Oltre 17.000 token al secondo per utente
  • Costi di produzione inferiori di 20 volte
  • Efficienza energetica 10 volte superiore
  • Tempi di sviluppo da modello software a chip ASIC di soli 60 giorni

L'azienda afferma di aver raggiunto questi risultati con un team di soli 24 tecnici e un investimento di 30 milioni di dollari. Il loro dimostratore utilizza Llama 3.1 8B e supporta il fine-tuning LoRA.

Implicazioni

Questo approccio potrebbe essere particolarmente interessante per applicazioni dove la latenza รจ critica, come modelli vocali in tempo reale, generazione di avatar in tempo reale e computer vision. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.