Taalas sta sviluppando un approccio innovativo per l'inference di modelli linguistici di grandi dimensioni (LLM): integrare l'architettura del modello e i suoi pesi direttamente nell'hardware.
Dettagli della tecnicia
Invece di utilizzare memorie HBM esterne e sistemi complessi di packaging, Taalas incide il modello completo su un singolo chip di silicio. Questo, secondo l'azienda, permette di ottenere:
- Latenza inferiore a 1 millisecondo
- Oltre 17.000 token al secondo per utente
- Costi di produzione inferiori di 20 volte
- Efficienza energetica 10 volte superiore
- Tempi di sviluppo da modello software a chip ASIC di soli 60 giorni
L'azienda afferma di aver raggiunto questi risultati con un team di soli 24 tecnici e un investimento di 30 milioni di dollari. Il loro dimostratore utilizza Llama 3.1 8B e supporta il fine-tuning LoRA.
Implicazioni
Questo approccio potrebbe essere particolarmente interessante per applicazioni dove la latenza รจ critica, come modelli vocali in tempo reale, generazione di avatar in tempo reale e computer vision. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!