L'inference locale di modelli linguistici di grandi dimensioni (LLM) sta compiendo un balzo in avanti.

Inference accelerata su silicio

ChatJimmy.ai ha annunciato di aver raggiunto una velocitร  di 15.414 token al secondo, utilizzando una tecnicia proprietaria chiamata "mask ROM recall fabric". In sostanza, i pesi del modello sono incisi direttamente nel silicio, creando un Application-Specific Integrated Circuit (ASIC) dedicato all'inference.

Implicazioni per l'hardware AI

Questo approccio elimina la necessitร  di memoria HBM o VRAM, rimuovendo potenziali colli di bottiglia. La discussione verte ora sull'opportunitร  di investire in hardware AI general-purpose, come le unitร  Gigabyte AI TOP ATOM basate su architettura NVIDIA Spark/Grace Blackwell, oppure attendere la diffusione di questi ASIC specializzati. Per chi valuta deployment on-premise, esistono trade-off da considerare, come discusso nei framework analitici di AI-RADAR su /llm-onpremise.

Considerazioni sul futuro

La domanda chiave รจ se questa tecnicia segnerร  l'inizio di un'era in cui l'inference LLM sarร  dominata da chip dedicati, rendendo obsoleti gli approcci basati su GPU general-purpose.