Inferenza batte Training: vLLM guida la transizione

L'annuncio del round di finanziamento seed da 150 milioni di dollari per vLLM (Inferact), con una valutazione di 800 milioni, segna un punto di svolta nel panorama dell'intelligenza artificiale. Per i due anni precedenti, gli investimenti si sono concentrati principalmente sul training di modelli di fondazione e sulla creazione di cluster di calcolo massicci.

Ora, il collo di bottiglia si è spostato sull'inferenza, ovvero sull'efficienza con cui questi modelli vengono utilizzati. Questo cambiamento convalida diverse tendenze osservate nella comunità open source:

  • Software > Hardware: Acquistare più GPU H100 non è più sufficiente. È necessario uno stack software efficiente (PagedAttention, kernel specializzati) per sfruttarle appieno. L'ottimizzazione software per l'inferenza è diventata cruciale.
  • La corsa alla standardizzazione: vLLM punta a diventare il "Linux dell'inferenza", il motore predefinito per operare su architetture NVIDIA, AMD e Intel. Resta da vedere se, con queste risorse, si concentreranno sulla compatibilità orizzontale (rendere utilizzabili AMD/Intel) o sull'ottimizzazione verticale (ridurre ulteriormente la latenza su CUDA).

La sfida principale non è più la velocità di trasmissione (token batch), ma la latenza, in particolare i tempi di avvio a freddo e il time-to-first-token.