Taalas, una startup specializzata in hardware per inference, ha reso disponibile un chatbot dimostrativo e un'API, entrambi alimentati da un chip ASIC sviluppato internamente.
Inference ad alta velocità
La piattaforma raggiunge una velocità di inference di 16.000 token al secondo utilizzando il modello Llama 3.1 8B. La scelta di un modello di dimensioni contenute è stata intenzionale, per validare il concetto di inference accelerata tramite hardware dedicato. Taalas sta ora concentrando i suoi sforzi su modelli più complessi.
Accesso gratuito
Nonostante lo sviluppo di soluzioni più avanzate, Taalas offre accesso gratuito alla sua demo, permettendo agli utenti di sperimentare direttamente le capacità del suo chip. Sono disponibili un chatbot dimostrativo e un'API per l'inference.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!