📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Un nuovo studio introduce RSEA, un agente LLM ricorsivo auto-evolvente che migliora le proprie strategie, skill e playbook tramite un meccanismo di selezione rigoroso. Valutato su un'infrastruttura locale condivisa, RSEA dimostra come un'evoluzione controllata del contesto sia cruciale per la stabilità e la sicurezza, evidenziando i rischi degli approcci non protetti. Le implicazioni sono significative per i deployment on-premise che richiedono affidabilità.

2026-06-30 Fonte

Jensen Huang, CEO di Nvidia, anticipa una nuova frontiera per l'intelligenza artificiale: il "loop engineering". Questo approccio, che supera la tradizionale ingegneria dei prompt, promette sistemi AI più autonomi e iterativi, con significative implicazioni per le strategie di deployment on-premise, la gestione dei dati e il Total Cost of Ownership per le aziende.

2026-06-30 Fonte

Base44, piattaforma di coding di proprietà di Wix, ha avviato il rilascio di un proprio modello di intelligenza artificiale. L'iniziativa mira a competere con i modelli più avanzati, evidenziando una tendenza crescente tra le startup AI a sviluppare soluzioni proprietarie per rafforzare la propria posizione sul mercato. Questa strategia solleva interrogativi sui costi, sulla sovranità dei dati e sulle infrastrutture necessarie per tali deployment, temi centrali per chi valuta alternative on-premise.

2026-06-30 Fonte

È stato svelato LongCat-2.0, un Large Language Model basato su architettura Mixture of Experts (MoE) con un totale di 1.6 trilioni di parametri, di cui circa 48 miliardi attivati per token. Precedentemente noto come 'owl-alpha' su Openrouter, il modello rappresenta un'ulteriore evoluzione nella corsa verso LLM sempre più complessi, sollevando interrogativi sulle strategie di deployment on-premise e sui requisiti infrastrutturali per gestire carichi di lavoro di questa portata.

2026-06-30 Fonte

Un'ipotesi suggestiva circola nella comunità tech: OpenAI potrebbe rilasciare un modello GPT-OSS-2 da 20B e 120B parametri, con focus su coding e visione. L'obiettivo sarebbe smorzare l'entusiasmo per l'IPO di Anthropic e colmare un vuoto nel segmento dei 120B, spingendo anche Google a rilasciare modelli simili. Questa mossa potrebbe alterare significativamente il mercato degli LLM open source, offrendo nuove opportunità per deployment on-premise.

2026-06-29 Fonte

DeepSeek ha comunicato via email agli utenti cinesi che la versione ufficiale del modello V4 sarà lanciata a metà luglio. L’annuncio, privo di dettagli tecnici, rilancia il dibattito sul ruolo dei laboratori cinesi nello sviluppo di LLM open-weight e sulle opportunità per il deployment on-premise, tra sovranità dei dati e controllo dell’infrastruttura.

2026-06-29 Fonte

Una pull request della community aggiunge il supporto a DeepSeek V4 in llama.cpp, abilitando l'inference on-premise e su hardware consumer. Si apre una nuova fase per il deployment privato del modello.

2026-06-29 Fonte

Un test manuale su modelli di generazione di scene 3D mostra che uno scaffold ricavato da un dominio può migliorare l'organizzazione del codice in modelli più piccoli. L'effetto asimmetrico suggerisce un possibile trasferimento di disciplina procedurale, con implicazioni per l’uso di LLM su hardware locale.

2026-06-29 Fonte

Un framework assiomatico valuta la qualità delle rappresentazioni interne degli LLM senza affidarsi ai benchmark. Nessun modello analizzato soddisfa tutti e quattro gli assiomi, rivelando un difetto strutturale. Per chi gestisce deployment on-premise, questa ricerca apre nuove strade per audit e scelta dei modelli.

2026-06-29 Fonte

Un approccio unificato inietta capacità predittive negli agenti linguistici, superando la semplice mimica testuale. Ricercatori affrontano il gap formato-capacità con un training sequenziale che include mid-training per la predizione latente, SFT strutturato e reinforcement learning condizionato dalla simulazione. I risultati su compiti di ricerca e ragionamento matematico indicano una strada per agenti più pianificatori in ambienti on-premise.

2026-06-29 Fonte

Una nuova ricerca indaga se la personalità assegnata via prompt agli agenti LLM influenzi i risultati dei compiti in team multi-agente. In tre ambiti – codice, collaborazione aperta e negoziazione – l’effetto cambia radicalmente. Scopri cosa significa per chi progetta sistemi multi-agente on-premise.

2026-06-29 Fonte

Un aggiornamento sperimentale per Ornith-1.0-35B introduce un decoding speculativo nativo MTP che su singola GPU con llama.cpp porta la velocità a 233.8 token/s (+35%), con distribuzione del token successivo byte-identica al modello originale. Pubblicati benchmark completi su diverse quantizzazioni, latenza TTFT fino a 32k token e una fidelity ladder basata sulla divergenza KL, tutto testato su RTX PRO 6000 Blackwell da 96 GB. Un segnale forte per chi cerca efficienza nell'inference on-premise.

2026-06-28 Fonte

L'anteprima di GPT 5.6 porta OpenAI in parità con Anthropic nel benchmark US Ban. I modelli cinesi restano indietro, Gemini da aggiornare. Per chi valuta il deployment on-premise, il pareggio sposta l'attenzione su inference, TCO e controllo dei dati, oltre i semplici punteggi.

2026-06-28 Fonte

Google ha organizzato hackathon per Gemma 4 31B, un LLM compatto che nel cloud raggiunge 1500 token/s, da 50 a 100 volte più di quanto si ottenga in locale. La notizia conferma l’importanza dei modelli ridotti per l’assistenza alla programmazione e apre interrogativi sul divario che i deployment on-premise devono colmare per restare competitivi.

2026-06-27 Fonte