Un appassionato ha implementato una soluzione per sostituire i modelli di Anthropic in Claude-Code con modelli NVIDIA NIM, sfruttando un'API gratuita che consente fino a 40 richieste al minuto.

Dettagli dell'implementazione

L'implementazione funge da middleware tra Claude-Code e NVIDIA NIM, offrendo un'alternativa per l'inference di modelli linguistici. L'utente ha anche sostituito l'app mobile di Claude con Telegram, consentendo l'invio di task e la visualizzazione del lavoro in autonomia.

Caratteristiche principali

Tra le caratteristiche distintive di questa implementazione, spicca la preservazione dei token di ragionamento tra le chiamate agli strumenti, consentendo a modelli come GLM 4.7 e Kimi-K2.5 di sfruttare appieno il contesto delle interazioni precedenti. รˆ presente anche un sistema di rilevamento rapido dei prefissi per i comandi bash, che evita di inviare richieste di classificazione all'LLM, velocizzando l'esecuzione. Sono integrati meccanismi di rate limiting e gestione della concorrenza delle sessioni. L'architettura modulare del codice facilita l'aggiunta di ulteriori provider o applicazioni di messaggistica.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.