📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Un team di ricercatori ha sviluppato ConlangCrafter, un modello capace di generare linguaggi artificiali rispettando regole fonologiche e morfosintattiche. Più creativo e coerente dei LLM generalisti, lo strumento è già disponibile online e apre nuove strade nello studio delle strutture linguistiche e del loro impatto sui modelli di NLP.

2026-06-27 Fonte

Nonostante la popolarità del fine-tuning sui modelli Qwen, mancano riscontri concreti su versioni realmente superiori alla base. Un’indagine sulle possibili cause tecniche e sulle implicazioni per chi valuta deployment on-premise, dove l’adattamento a dati proprietari è cruciale ma rischia di diventare un boomerang senza metriche solide.

2026-06-27 Fonte

Il modello Ornith-1.0-35B è stato quantizzato a Q3_K_M, scendendo a 16.8 GB su disco e ~17 GiB di VRAM caricata. Verificato con metriche KL divergence e comportamento 14/14, cede solo 16 punti di accordo top-1 rispetto a Q6_K ma dimezza la memoria necessaria. Throughput fino a 493 tok/s su singola GPU con llama.cpp. Tutto open-source su HuggingFace.

2026-06-27 Fonte

L’amministrazione Trump ha concesso a più di 100 aziende e agenzie governative l’uso di Mythos 5 di Anthropic, estendendo i permessi anche ai dipendenti non americani. La mossa accelera l’adozione di LLM in ambiti sensibili e riapre il dibattito su controllo, residenza dei dati e convenienza di un deployment on-premise.

2026-06-27 Fonte

Know2Guess distingue risposte fondate e congetture nei LLM con un design multi-zona e contamination-aware. 1.200 domande in cinque domini, etichette esplicite di astensione e metadati sul rischio di contaminazione guidano la valutazione di Qwen2.5, Llama-3 e FLAN-T5. I risultati mostrano che l'astensione produttiva rimane critica, ma il protocollo replicabile del dataset pubblico fornisce un riferimento per audit di affidabilità e contaminazione.

2026-06-26 Fonte

Una pipeline di generazione dati isola feature lineari a cascata nei LLM per individuare e correggere la sycophancy, la tendenza dei modelli a cercare conferma dall’utente. Il metodo batte o eguaglia i giudizi automatici e il prompt engineering, ma con carico computazionale inferiore e maggiore interpretabilità, offrendo un vantaggio netto per chi gestisce modelli in locale.

2026-06-26 Fonte

Anthropic sostiene che accumulare influenza sia necessario per uno sviluppo responsabile dell’AI. I critici parlano di concentrazione di potere. Per chi gestisce LLM in locale, la tensione tra controllo centralizzato e sovranità dei dati apre un dibattito su chi garantisce davvero la sicurezza.

2026-06-26 Fonte

OpenAI avrebbe deciso di rendere disponibile il nuovo modello GPT 5.6 soltanto a un gruppo ristretto di partner, anziché al grande pubblico, su indicazione dell’amministrazione Trump per ragioni di sicurezza. La notizia riaccende il dibattito sul controllo degli LLM e spinge le aziende a considerare il deployment on-premise per evitare dipendenze e garantire sovranità sui dati.

2026-06-25 Fonte

Un team internazionale ha sviluppato il Generative Causal Testing, un framework che distilla i modelli black-box di predizione cerebrale in spiegazioni verbali verificabili. I test fMRI confermano le ipotesi e portano alla luce nuove micro-regioni corticali, offrendo una strada per riunire modelli predittivi e scienza interpretabile.

2026-06-25 Fonte

DeepReinforce AI pubblica quattro modelli con architetture dense e Mixture of Experts. Dichiarati risultati SOTA sui benchmark, ma la cautela è d'obbligo: i test indipendenti diranno se le prestazioni reggono. Per i carichi on-premise, la famiglia offre un ventaglio raro di taglie, aprendo scenari di deployment granulare.

2026-06-25 Fonte

Un nuovo approccio che combina un campionatore con backtrack e un modello verificatore della stessa dimensione consente a un LLM da 0,5 miliardi di parametri di raggiungere prestazioni di coding paragonabili a modelli 2-4 volte più grandi. Il prezzo da pagare è il raddoppio della VRAM, un aumento del carico computazionale tra 1,5 e 3 volte e un rallentamento del 5-30% nella decodifica. La tecnica, integrabile in llama.cpp ma non prevista per vLLM o SGLang, apre prospettive concrete per il self-hosting di modelli più piccoli e affidabili.

2026-06-25 Fonte

Nemotron-TwoTower-30B-A3B-Base-BF16 abbandona la decodifica sequenziale per un’architettura che riempie blocchi di token simultaneamente. La qualità resta al 98,7% del modello autoregressivo di partenza, mentre il throughput di generazione balza a 2,42 volte. Un segnale per chi progetta stack di inference on-premise: la via diffusiva potrebbe ridefinire l’equazione tra potenza hardware e velocità.

2026-06-25 Fonte

Una ricerca mostra che un pugno di volontari può condizionare il comportamento di un LLM su temi sensibili. Analizzando Llama 3.1 8B, le sezioni di Wikipedia editate da attivisti per il benessere animale dominano il 68% dei documenti più influenti per certe query. Un segnale cruciale per chi gestisce modelli on-premise e deve presidiare l’allineamento ai propri valori.

2026-06-25 Fonte