Un confronto apparentemente minuscolo può spostare i termini dell’intero dibattito sui modelli locali. È quello che suggerisce un post apparso su Reddit, in cui si commenta una recente pubblicazione di StepFun dedicata al modello Step 3.7 Flash. Secondo il blog, eseguire il modello con un set di istruzioni chiamato "CC" — verosimilmente un richiamo ai prompt system che caratterizzano Claude Code — ha prodotto risultati di gran lunga migliori rispetto a Hermes, il sistema di prompt open source che da tempo fa da riferimento per chi vuole trasformare un LLM generico in un assistente competente.

Il passaggio non è puramente tecnico. Mette in evidenza quanto la scelta dello strato di "orchestrazione" — il modo in cui si danno le istruzioni al modello — possa incidere sulle performance effettive di un LLM, specie in ambiti delicati come la generazione di codice. Hermes, sviluppato dalla community di Nous Research, è diventato uno standard perché offre un bilanciamento tra capacità conversazionale e mancanza di filtri, molto apprezzato in contesti on-premise dove il controllo diretto del modello è un requisito. Ma l’adozione di un approccio più strutturato, mutuato da Claude e dalla sua attitudine a scomporre un problema in passaggi logici, sembra pagare particolarmente quando il modello deve trasformare specifiche in funzioni, test e script.

Per chi valuta un deployment di LLM on-premise, questo segnale pesa più di quanto appaia. La discussione su costi e hardware — GPU, VRAM, quantization — rischia di oscurare una variabile altrettanto determinante: la bontà del "sistema" che avvolge il modello. Non si tratta solo di scegliere tra 7B o 70B di parametri, ma di investire tempo nella messa a punto di prompt template che siano coerenti con il dominio d’uso. Un prompt ispirato a Claude non è direttamente replicabile perché Claude Code è un prodotto Anthropic e non un set di istruzioni esportabile; tuttavia, la direzione è chiara: affinare le modalità di interazione può ridurre la necessità di modelli più grandi, con un impatto diretto sul TCO e sul consumo energetico.

C’è poi il nodo della riproducibilità. Le aziende che tengono i dati dentro i propri confini, per vincoli GDPR o di proprietà intellettuale, non possono affidarsi ciecamente a benchmark che riguardano solo l’inference nuda. Devono poter replicare pipeline di test in cui il modello venga interrogato esattamente come avverrà in produzione. Il caso di Step 3.7 Flash con prompt alla Claude dimostra che anche piccoli cambi di sintassi e di ruolo ("scrivi codice come un ingegnere senior") possono spostare i punteggi in modo rilevante.

Non ci sono numeri nella fonte originale, né benchmark validati da terzi. Ma l’eco di questa osservazione è già sufficiente per ricordare che la corsa all’on-premise non si vince solo con l’hardware. Si gioca anche sul piano della configurazione software e della cultura ingegneristica che si mette attorno al modello.