Chip fotonico per accelerare la KV cache

Un nuovo approccio per accelerare la selezione dei blocchi nella KV cache dei modelli linguistici di grandi dimensioni (LLM) è stato proposto da un ricercatore nel campo della nanofotonica. La soluzione si basa sull'utilizzo di un chip fotonico, denominato PRISM, che promette di superare i limiti delle tradizionali scansioni GPU.

PRISM: scansione ottica O(1)

Il metodo PRISM sostituisce la scansione lineare (O(N)) dei blocchi della KV cache con una trasmissione ottica. La query viene codificata come luce e suddivisa simultaneamente in tutti gli N blocchi tramite uno splitter passivo. La similarità viene calcolata istantaneamente, rendendo la selezione indipendente dalla dimensione del contesto (O(1)).

Performance e consumi

Simulazioni su chip fotonici TFLN indicano un miglioramento di 944 volte nella velocità di selezione e una riduzione di 18.000 volte nel consumo energetico rispetto alle scansioni GPU con un contesto di 1 milione di token. In scenari con 100 milioni di token, PRISM si dimostra 5.3 volte più veloce rispetto a Quest (batch=128, Qwen2.5-7B) nel processo di decodifica totale.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.