Un utente di Claude Code ha riscontrato un problema di performance significativo: il riprocessamento completo del prompt a ogni richiesta.

Analisi del problema

L'analisi dei log ha rivelato che Claude Code aggiungeva un header di billing (x-anthropic-billing-header) come messaggio di sistema. Il valore di questo header cambiava a ogni richiesta, forzando il sistema a riprocessare l'intero prompt invece di utilizzare la cache KV.

Soluzione

La soluzione consiste nel disabilitare l'invio di questo header. L'utente ha trovato una discussione online che suggeriva di impostare la variabile d'ambiente CLAUDE_CODE_ATTRIBUTION_HEADER a "0" nel file settings.json di Claude Code (tipicamente in ~/.claude/settings.json).

Implementazione

Dopo aver modificato il file di configurazione, la cache KV รจ tornata a funzionare correttamente, migliorando significativamente le performance. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.