**Introduzione** I sistemi multi-agente basati su modelli LLM (Large Language Model) sono coinvolti in una sfida critica: la trasmissione eccessiva di informazioni contestuali tra gli agenti consuma banda e risorse computazionali. Le approcci tradizionali ignorano rappresentazioni semantiche interne e inviano testo puro, costringendo gli agenti riceventi a ricalcolare simili rappresentazioni in modo da zero. Q-KVComm è un nuovo protocollo che consente la trasmissione diretta di rappresentazioni cache chiave-valore (KV) compresse tra agenti LLM. Q-KVComm combina tre innovazioni chiave: (1) quantizzazione a livello strato adattiva che assegna bit-riferimento variabili in base alla profilazione di sensibilità, (2) estrazione dell'informazione ibrida che preserva fatti critici su diverse aree concettuali, e (3) calibratura degli architetture diverse stabilendo la comunicazione cruciale. **Esperimenti** Gli esperimenti condotti su tre dataset diversi di quesitonaria per domande mostrano che Q-KVComm raggiunge compressioni del 5-6 volte mentre mantiene la fidelità semantica, con qualità di coerenza superiori al 0,77 in tutte le situazioni. Il protocollo esibisce prestazioni robuste sotto modelli di dimensioni (1,1B-1,5B parametri) e si adatta alle applicazioni real-world comprese conversazione QA e ragionamento multi-salto. **Impatto** Il lavoro istituisce un nuovo paradigma per la comunicazione degli agenti LLM, spostando la scelta da informazioni testuali a rappresentazioni di base.