Un utente su Reddit ha descritto come eseguire localmente un flusso di lavoro simile a Claude Code, utilizzando OpenCode, llama.cpp e il modello GLM-4.7 Flash. L'obiettivo รจ replicare l'esperienza di sviluppo offerta da Claude, ma sfruttando risorse di calcolo locali.

Configurazione e parametri

La configurazione prevede l'utilizzo di CUDA per l'accelerazione tramite GPU. I parametri specifici utilizzati includono:

  • CUDA_VISIBLE_DEVICES=0,1,2: selezione delle GPU da utilizzare.
  • llama-server --jinja --host 0.0.0.0: avvio del server llama.cpp.
  • -m /mnt/models1/GLM/GLM-4.7-Flash-Q8_0.gguf: specifica del modello GLM-4.7 Flash quantizzato a 8 bit.
  • --ctx-size 200000: impostazione della dimensione del contesto a 200.000 token.
  • --parallel 1 --batch-size 2048 --ubatch-size 1024: parametri per la gestione dei batch.
  • --flash-attn on: abilitazione di flash attention per migliorare l'efficienza.
  • --cache-ram 61440: allocazione di 61440 MB di RAM per la cache.
  • --context-shift: abilitazione dello spostamento del contesto.

La configurazione descritta dimostra come sia possibile, con gli strumenti appropriati e una conoscenza approfondita dei parametri, replicare localmente flussi di lavoro tipicamente associati a servizi cloud, mantenendo il controllo completo sui dati e sull'infrastruttura.