Chip fotonico per KV cache: seleziona 944x più veloce, consuma 18.000x meno

Chip fotonico per accelerare la KV cache

Un nuovo approccio per accelerare la selezione dei blocchi nella KV cache dei modelli linguistici di grandi dimensioni (LLM) è stato proposto da un ricercatore nel campo della nanofotonica. La soluzione si basa sull'utilizzo di un chip fotonico, denominato PRISM, che promette di superare i limiti delle tradizionali scansioni GPU.

PRISM: scansione ottica O(1)

Il metodo PRISM sostituisce la scansione lineare (O(N)) dei blocchi della KV cache con una trasmissione ottica. La query viene codificata come luce e suddivisa simultaneamente in tutti gli N blocchi tramite uno splitter passivo. La similarità viene calcolata istantaneamente, rendendo la selezione indipendente dalla dimensione del contesto (O(1)).

Performance e consumi

Simulazioni su chip fotonici TFLN indicano un miglioramento di 944 volte nella velocità di selezione e una riduzione di 18.000 volte nel consumo energetico rispetto alle scansioni GPU con un contesto di 1 milione di token. In scenari con 100 milioni di token, PRISM si dimostra 5.3 volte più veloce rispetto a Quest (batch=128, Qwen2.5-7B) nel processo di decodifica totale.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.

Chip fotonico per KV cache: seleziona 944x più veloce, consuma 18.000x meno

Chip fotonico per accelerare la KV cache

PRISM: scansione ottica O(1)

Performance e consumi

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Neurophos: chip fotonico 10.000 volte più piccolo

Nvidia accelera la fotonica al silicio: produzione di massa nel 2026

La spesa AI dei colossi tech rimodella le filiere globali