Svelare la “scatola nera” degli LLM
La startup Goodfire, con sede a San Francisco, ha recentemente lanciato Silico, un nuovo strumento che promette di rivoluzionare il modo in cui ricercatori e ingegneri interagiscono con i Large Language Models (LLM). Silico è progettato per consentire agli sviluppatori di “sbirciare” all'interno di un modello di intelligenza artificiale e di regolare i suoi parametri – ovvero le impostazioni che ne determinano il comportamento – direttamente durante la fase di addestramento. Questa capacità offre un livello di controllo granulare sulla costruzione della tecnicia che in precedenza era ritenuto irraggiungibile.
Goodfire afferma che Silico rappresenta il primo strumento commerciale di questo tipo, in grado di supportare gli sviluppatori in tutte le fasi del processo di sviluppo, dalla creazione del dataset all'addestramento del modello. La missione dell'azienda è chiara: trasformare la costruzione di modelli AI da una pratica che assomiglia all'alchimia a una disciplina scientifica rigorosa. Sebbene LLM come ChatGPT e Gemini siano capaci di prestazioni straordinarie, il loro funzionamento interno rimane spesso un mistero, rendendo difficile correggere difetti o bloccare comportamenti indesiderati.
L'Interpretazione Meccanicistica in Azione
Goodfire è tra le poche aziende, insieme a leader del settore come Anthropic, OpenAI e Google DeepMind, a essere apripista in una tecnica nota come interpretazione meccanicistica. Questo approccio mira a comprendere cosa accade all'interno di un modello AI quando esegue un compito, mappando i suoi neuroni e le connessioni tra di essi. L'obiettivo di Goodfire è utilizzare questa metodologia non solo per verificare i modelli già addestrati, ma anche per guidarne la progettazione fin dalle prime fasi.
Silico permette di analizzare in dettaglio parti specifiche di un modello addestrato, come singoli neuroni o gruppi di neuroni, ed eseguire esperimenti per comprenderne la funzione. Questo è possibile per i modelli Open Source, mentre l'accesso ai modelli proprietari come ChatGPT o Gemini è limitato. Gli sviluppatori possono verificare quali input attivano determinati neuroni e tracciare i percorsi a monte e a valle per capire come i neuroni si influenzano reciprocamente. Ad esempio, Goodfire ha identificato un neurone nel modello Open Source Qwen 3 associato al “problema del carrello ferroviario”; l'attivazione di questo neurone modificava le risposte del modello, facendogli formulare dilemmi morali espliciti. Identificare la fonte di comportamenti anomali è una pratica consolidata, ma Silico semplifica la modifica di tali comportamenti, consentendo di regolare i parametri collegati a singoli neuroni per amplificare o sopprimere specifiche reazioni.
Implicazioni per lo Sviluppo e il Deployment
Un esempio pratico dimostra l'efficacia di Silico: i ricercatori di Goodfire hanno chiesto a un modello se un'azienda dovesse divulgare che la sua AI si comporta in modo ingannevole nello 0,3% dei casi, influenzando 200 milioni di utenti. Il modello ha risposto negativamente, citando l'impatto negativo sul business. Analizzando il modello, i ricercatori hanno scoperto che amplificando i neuroni associati alla trasparenza e alla divulgazione, la risposta si invertiva da negativa a positiva in nove casi su dieci. Ciò suggerisce che il modello possedeva già il “circuito” di ragionamento etico, ma era sovrastato dalla valutazione del rischio commerciale. Oltre a modificare i valori di un modello, Silico può anche guidare il processo di addestramento filtrando specifici dati di training per evitare di impostare valori indesiderati per certi parametri fin dall'inizio.
Il rilascio di Silico mira a rendere accessibili tecniche precedentemente disponibili solo a pochi laboratori di punta a un pubblico più ampio di aziende e team di ricerca che desiderano costruire i propri modelli o adattarne uno Open Source. Lo strumento sarà disponibile a pagamento, con costi determinati in base alle esigenze del cliente. Per le organizzazioni che valutano il deployment di LLM on-premise, strumenti come Silico offrono un percorso verso una maggiore trasparenza e controllo, aspetti critici per la sovranità dei dati e la conformità normativa. AI-RADAR fornisce framework analitici su /llm-onpremise per valutare i trade-off tra diverse strategie di deployment.
Una Prospettiva sul Futuro del Controllo AI
L'obiettivo di Goodfire è rendere l'addestramento dei modelli molto più simile allo sviluppo di software, aprendo la strada a un numero maggiore di aziende in grado di progettare modelli che soddisfino le loro esigenze specifiche. Leonard Bereska, ricercatore presso l'Università di Amsterdam e esperto di interpretazione meccanicistica, riconosce l'utilità di Silico per la creazione di modelli più affidabili, specialmente in applicazioni critiche per la sicurezza, come quelle nel settore sanitario e finanziario. Tuttavia, Bereska ridimensiona le aspirazioni più ambiziose di Goodfire, affermando che, in realtà, lo strumento aggiunge precisione all'alchimia, piuttosto che trasformarla in ingegneria pura.
Nonostante questa sfumatura, il valore di Silico è innegabile: mentre i laboratori di punta dispongono già di team interni dedicati all'interpretazione, Silico fornisce strumenti alla prossima generazione di aziende, il cui valore risiede nel non dover assumere ricercatori specializzati in interpretazione. Questo democratizza l'accesso a tecniche avanzate, consentendo a un numero maggiore di organizzazioni di esercitare un controllo più profondo e prevedibile sui propri deployment di LLM, un fattore chiave per l'innovazione responsabile e la gestione del TCO in ambienti enterprise.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!