Taalas: LLM integrati nell'hardware, fino a 16.000 token/secondo

Taalas sta sviluppando un approccio innovativo per l'inference di modelli linguistici di grandi dimensioni (LLM): integrare l'architettura del modello e i suoi pesi direttamente nell'hardware.

Dettagli della tecnicia

Invece di utilizzare memorie HBM esterne e sistemi complessi di packaging, Taalas incide il modello completo su un singolo chip di silicio. Questo, secondo l'azienda, permette di ottenere:

Latenza inferiore a 1 millisecondo
Oltre 17.000 token al secondo per utente
Costi di produzione inferiori di 20 volte
Efficienza energetica 10 volte superiore
Tempi di sviluppo da modello software a chip ASIC di soli 60 giorni

L'azienda afferma di aver raggiunto questi risultati con un team di soli 24 tecnici e un investimento di 30 milioni di dollari. Il loro dimostratore utilizza Llama 3.1 8B e supporta il fine-tuning LoRA.

Implicazioni

Questo approccio potrebbe essere particolarmente interessante per applicazioni dove la latenza è critica, come modelli vocali in tempo reale, generazione di avatar in tempo reale e computer vision. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Taalas: LLM integrati nell'hardware, fino a 16.000 token/secondo

Dettagli della tecnicia

Implicazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Spesa per chip AI vicina a 1 trilione di dollari

OpenAI investe 10 miliardi di dollari in chip IA di Cerebras

Packaging avanzato di chip: i limiti si fanno sentire con l'IA

👥 Unisciti a 160+ appassionati di AI