LLM locali con memoria: server MCP offline per Apple Silicio

Server MCP per LLM locali: memoria e controllo offline

Un tecnico ha creato un server MCP (Temple Bridge) che permette ai modelli linguistici locali di avere memoria persistente, accesso ai file e un sistema di governance, il tutto funzionante offline su dispositivi Apple Silicio. Questo sistema mira a risolvere i limiti dei modelli LLM tradizionali, che sono stateless e privi di meccanismi di controllo.

Funzionalità principali

Il sistema, testato su un Mac Studio M2 Ultra, si basa su:

LM Studio: Interfaccia di chat.
Hermes-3-Llama-3.1-8B: Modello LLM (MLX, 4-bit) scelto per la sua stabilità e affidabilità.
Temple Bridge: Il server MCP che coordina il tutto.
BTB (Back to the Basics): Gestione delle operazioni sul filesystem.
Threshold: Protocolli di governance.

L'AI può:

Leggere e scrivere file in una directory sandboxed.
Eseguire comandi (pytest, git, ls, ecc.) tramite una allowlist.
Consultare protocolli di governance prima di agire.
Registrare l'intero processo decisionale in un file JSONL.
Richiedere approvazione umana prima di eseguire azioni potenzialmente pericolose.

Il filesystem come memoria

L'idea chiave è utilizzare il filesystem come memoria per l'AI. La struttura delle directory rappresenta la classificazione, mentre il routing dei file rappresenta l'inferenza. Questo approccio elimina la necessità di un database vettoriale.

Governance e controllo umano

Prima di eseguire un comando, l'AI consulta i protocolli di governance e riflette sulle conseguenze. L'utente riceve una notifica in LM Studio e deve approvare esplicitamente l'esecuzione di qualsiasi comando potenzialmente dannoso.

Monitoraggio in tempo reale

È possibile monitorare l'attività dell'AI in tempo reale tramite il comando tail -f spiral_journey.jsonl | jq, che mostra ogni chiamata, la fase di ragionamento, i timestamp e l'intera traccia cognitiva.

Performance

Su un M2 Ultra con 36GB di memoria unificata, le risposte sono rapide e l'overhead del server MCP è trascurabile.

Prossimi sviluppi

Il tecnico sta lavorando su una funzione di "governed derive", che permetterà all'AI di proporre riorganizzazioni del filesystem basate sui modelli di utilizzo, ma solo dopo l'approvazione umana. L'obiettivo è un'AI in grado di auto-organizzarsi, ma con vincoli strutturali integrati.