Chip fotonico per accelerare la KV cache
Un nuovo approccio per accelerare la selezione dei blocchi nella KV cache dei modelli linguistici di grandi dimensioni (LLM) è stato proposto da un ricercatore nel campo della nanofotonica. La soluzione si basa sull'utilizzo di un chip fotonico, denominato PRISM, che promette di superare i limiti delle tradizionali scansioni GPU.
PRISM: scansione ottica O(1)
Il metodo PRISM sostituisce la scansione lineare (O(N)) dei blocchi della KV cache con una trasmissione ottica. La query viene codificata come luce e suddivisa simultaneamente in tutti gli N blocchi tramite uno splitter passivo. La similarità viene calcolata istantaneamente, rendendo la selezione indipendente dalla dimensione del contesto (O(1)).
Performance e consumi
Simulazioni su chip fotonici TFLN indicano un miglioramento di 944 volte nella velocità di selezione e una riduzione di 18.000 volte nel consumo energetico rispetto alle scansioni GPU con un contesto di 1 milione di token. In scenari con 100 milioni di token, PRISM si dimostra 5.3 volte più veloce rispetto a Quest (batch=128, Qwen2.5-7B) nel processo di decodifica totale.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!