Un team di ricercatori ha sviluppato ConlangCrafter, un modello capace di generare linguaggi artificiali rispettando regole fonologiche e morfosintattiche. Più creativo e coerente dei LLM generalisti, lo strumento è già disponibile online e apre nuove strade nello studio delle strutture linguistiche e del loro impatto sui modelli di NLP.
I modelli Orthrus con head a diffusione stanno per atterrare su Hugging Face, accompagnati dal codice completo di training e evaluation. Una combinazione che può cambiare le carte per chi cerca controllo e sovranità nel self-hosting di LLM, rendendo trasparente l’intero ciclo di vita.
Nonostante la popolarità del fine-tuning sui modelli Qwen, mancano riscontri concreti su versioni realmente superiori alla base. Un’indagine sulle possibili cause tecniche e sulle implicazioni per chi valuta deployment on-premise, dove l’adattamento a dati proprietari è cruciale ma rischia di diventare un boomerang senza metriche solide.
DeepSeek pubblica su Hugging Face il modello V4-Pro-DSpark e il paper tecnico DSpark. Un rilascio che alimenta la strategia di chi punta su LLM self-hosted e sovranità dei dati, riducendo la dipendenza dal cloud.
Il modello Ornith-1.0-35B è stato quantizzato a Q3_K_M, scendendo a 16.8 GB su disco e ~17 GiB di VRAM caricata. Verificato con metriche KL divergence e comportamento 14/14, cede solo 16 punti di accordo top-1 rispetto a Q6_K ma dimezza la memoria necessaria. Throughput fino a 493 tok/s su singola GPU con llama.cpp. Tutto open-source su HuggingFace.
Un utente con fondi per hardware ma non per crediti cloud vuole distillare un LLM per theorem proving su Rocq, dove i modelli scarseggiano. La via on-premise solleva questioni di costo, controllo e specializzazione che meritano un’analisi approfondita.
L’amministrazione Trump ha concesso a più di 100 aziende e agenzie governative l’uso di Mythos 5 di Anthropic, estendendo i permessi anche ai dipendenti non americani. La mossa accelera l’adozione di LLM in ambiti sensibili e riapre il dibattito su controllo, residenza dei dati e convenienza di un deployment on-premise.
Dopo settimane di negoziati, la Casa Bianca ha autorizzato Anthropic a ripristinare l'accesso al suo modello più avanzato, Mythos, per un gruppo selezionato di aziende e agenzie governative statunitensi. Una decisione che sottolinea il ruolo sempre più strategico dei modelli di frontiera.
L'ultima preview di OpenAI mostra progressi in coding, scienza e sicurezza, ma resta un servizio cloud: per chi punta alla sovranità dei dati il divario con le alternative self-hosted va analizzato con attenzione.
Know2Guess distingue risposte fondate e congetture nei LLM con un design multi-zona e contamination-aware. 1.200 domande in cinque domini, etichette esplicite di astensione e metadati sul rischio di contaminazione guidano la valutazione di Qwen2.5, Llama-3 e FLAN-T5. I risultati mostrano che l'astensione produttiva rimane critica, ma il protocollo replicabile del dataset pubblico fornisce un riferimento per audit di affidabilità e contaminazione.
Un nuovo approccio gerarchico sfrutta le relazioni tra frasi per individuare il bias con maggiore accuratezza. Prestazioni superiori del 2,6% in F1, multi-task e architettura modulare: una strada percorribile per chi cerca soluzioni self-hosted nel trattamento automatizzato dell’informazione.
Una pipeline di generazione dati isola feature lineari a cascata nei LLM per individuare e correggere la sycophancy, la tendenza dei modelli a cercare conferma dall’utente. Il metodo batte o eguaglia i giudizi automatici e il prompt engineering, ma con carico computazionale inferiore e maggiore interpretabilità, offrendo un vantaggio netto per chi gestisce modelli in locale.
Anthropic sostiene che accumulare influenza sia necessario per uno sviluppo responsabile dell’AI. I critici parlano di concentrazione di potere. Per chi gestisce LLM in locale, la tensione tra controllo centralizzato e sovranità dei dati apre un dibattito su chi garantisce davvero la sicurezza.
OpenAI avrebbe deciso di rendere disponibile il nuovo modello GPT 5.6 soltanto a un gruppo ristretto di partner, anziché al grande pubblico, su indicazione dell’amministrazione Trump per ragioni di sicurezza. La notizia riaccende il dibattito sul controllo degli LLM e spinge le aziende a considerare il deployment on-premise per evitare dipendenze e garantire sovranità sui dati.
Un team internazionale ha sviluppato il Generative Causal Testing, un framework che distilla i modelli black-box di predizione cerebrale in spiegazioni verbali verificabili. I test fMRI confermano le ipotesi e portano alla luce nuove micro-regioni corticali, offrendo una strada per riunire modelli predittivi e scienza interpretabile.
La startup di Mountain View ha chiuso un round Series A da 100 milioni di dollari guidato da Khosla Ventures. L’obiettivo è un LLM che non fornisca risposte errate, superando uno dei limiti più critici degli attuali modelli probabilistici.
DeepReinforce AI pubblica quattro modelli con architetture dense e Mixture of Experts. Dichiarati risultati SOTA sui benchmark, ma la cautela è d'obbligo: i test indipendenti diranno se le prestazioni reggono. Per i carichi on-premise, la famiglia offre un ventaglio raro di taglie, aprendo scenari di deployment granulare.
Un nuovo approccio che combina un campionatore con backtrack e un modello verificatore della stessa dimensione consente a un LLM da 0,5 miliardi di parametri di raggiungere prestazioni di coding paragonabili a modelli 2-4 volte più grandi. Il prezzo da pagare è il raddoppio della VRAM, un aumento del carico computazionale tra 1,5 e 3 volte e un rallentamento del 5-30% nella decodifica. La tecnica, integrabile in llama.cpp ma non prevista per vLLM o SGLang, apre prospettive concrete per il self-hosting di modelli più piccoli e affidabili.
Nemotron-TwoTower-30B-A3B-Base-BF16 abbandona la decodifica sequenziale per un’architettura che riempie blocchi di token simultaneamente. La qualità resta al 98,7% del modello autoregressivo di partenza, mentre il throughput di generazione balza a 2,42 volte. Un segnale per chi progetta stack di inference on-premise: la via diffusiva potrebbe ridefinire l’equazione tra potenza hardware e velocità.
Una ricerca mostra che un pugno di volontari può condizionare il comportamento di un LLM su temi sensibili. Analizzando Llama 3.1 8B, le sezioni di Wikipedia editate da attivisti per il benessere animale dominano il 68% dei documenti più influenti per certe query. Un segnale cruciale per chi gestisce modelli on-premise e deve presidiare l’allineamento ai propri valori.