📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

📁 LLM AI generated

DeepSeek annuncia DSpark: un salto di velocità per l’inference degli LLM

Il team cinese svela DSpark, un nuovo metodo che supera in velocità la predizione multi-token (MTP). Se i numeri saranno confermati, potrebbe accelerare l’inference nei deployment on-premise, riducendo la latenza senza hardware aggiuntivo. Un’analisi delle implicazioni.

2026-07-03 Fonte

📁 LLM AI generated

Zuckerberg: gli agenti AI di Meta procedono più lentamente del previsto

Mark Zuckerberg ha comunicato ai dipendenti che lo sviluppo degli agenti AI di Meta sta procedendo più lentamente del previsto, nonostante la riorganizzazione di quattro mesi fa. La notizia solleva interrogativi sulle sfide tecniche dell'AI agentica e sulle implicazioni per chi gestisce carichi di lavoro LLM on-premise.

2026-07-03 Fonte

📁 LLM AI generated

La cinese Z.ai lancia GLM-5.2 e sfida OpenAI e Anthropic

Con GLM-5.2, Z.ai intensifica la competizione globale nell'AI generativa, puntando ai big occidentali. L'annuncio accende i riflettori sulle capacità cinesi di sviluppare LLM competitivi e sul ruolo della sovranità dei dati nelle scelte di deployment on-premise.

2026-07-03 Fonte

📁 LLM AI generated

TokenScope illumina i meccanismi decisionali dei LLM nella generazione di codice

Uno strumento interattivo espone metriche a livello di token, meccanismi di attenzione e percorsi alternativi per capire come i modelli linguistici producono codice. Per chi sviluppa in ambienti on-premise, questa trasparenza potrebbe diventare un tassello critico per audit e controllo qualità.

2026-07-03 Fonte

📁 LLM AI generated

Mark Zuckerberg ammette: gli agenti IA arrancano. Implicazioni per i deployment on‑premise

In un incontro interno, Zuckerberg ha riferito che lo sviluppo degli agenti IA procede più lentamente del previsto. Una frenata che costringe a ricalibrare le scelte di hardware e modelli in contesti on‑premise, dove maturità applicativa, controllo del dato e TCO restano nodi centrali.

2026-07-02 Fonte

📁 LLM AI generated

Nvidia: l'AGI non arriverà, il futuro sono modelli open source personalizzati per ogni azienda

Un pioniere dell'AI in Nvidia boccia l'AGI e paragona i modelli chiusi di OpenAI e Anthropic ai walled garden di AOL e Prodigy. La scommessa è su LLM aperti e customizzati, con implicazioni profonde per chi gestisce dati sensibili in-house.

2026-07-02 Fonte

📁 LLM AI generated

Gemma 4 31B addestrata per il copywriting: +290 Elo e niente più frasi fatte

Un fine-tuning mirato trasforma Gemma 4 31B in una macchina per testi pubblicitari. Il modello ottiene 1657 punti Elo, vince l'80% dei confronti e abbandona i fraseggi generici. Pesa 31 miliardi di parametri e si integra con vLLM.

2026-07-02 Fonte

📁 LLM AI generated

Kimi K2.7 Code sbarca su GitHub Copilot, tra coding assistito e nodi di privacy

Moonshot AI porta il suo LLM nella piattaforma Microsoft, ampliando il parco modelli per sviluppatori. L'integrazione accende il dibattito su dove risiedano davvero i dati e se abbia senso restare in locale per chi non vuole condividere codice sorgente con servizi cloud.

2026-07-02 Fonte

📁 LLM AI generated

GLM-5.2: il modello cinese che sfida i big a un costo irrisorio

Z.ai ha rilasciato GLM-5.2, quarto nella classifica dei modelli più performanti, con capacità in coding e agentica vicine ai leader di mercato. Il costo è una frazione di quello di Anthropic o OpenAI, sollevando interrogativi su come questo cambierà le scelte di deployment, soprattutto per chi punta a soluzioni on-premise e alla sovranità dei dati.

2026-07-02 Fonte

📁 LLM AI generated

SenseNova-U1: il modello open per infografiche che puoi eseguire in locale

Il nuovo SenseNova-U1-8b-MoT-Infographic-V2 eccelle nella generazione e modifica di infografiche. Rilasciato con licenza Apache 2.0, supera l’unico rivale Ideogram 4 grazie alla libertà di deployment. Richiede fino a 36 GB di VRAM, ma versioni quantizzate scendono a 16 GB.

2026-07-02 Fonte

📁 LLM AI generated

Migliorare la scrittura creativa dei LLM sfruttando l'entropia

L’entropia, da concetto teorico a parametro pratico, sta guidando nuove strategie per potenziare la creatività dei Large Language Models. L’approccio non è solo accademico: per chi gestisce modelli in locale, offre un controllo più fine e un allineamento migliore ai casi d’uso aziendali senza esporre dati.

2026-07-02 Fonte

📁 LLM AI generated

Persona e LLM: perché fine-tuning e steering non sono la stessa cosa

Nuova ricerca mostra che i cosiddetti 'persona vector' negli LLM non sono coerenti tra diverse modalità di induzione: prompt, fine-tuning e steering in fase di inference. Gli esperimenti sui modelli Qwen3-4B-Instruct e Mistral-7B-Instruct-v0.2 rivelano quattro asimmetrie che minano l'assunto di equivalenza, con ricadute concrete per chi gestisce modelli on-premise e cerca comportamenti prevedibili.

2026-07-02 Fonte

📁 LLM AI generated

Morale a risorse limitate: il nuovo framework che ridisegna l’etica computazionale

Un gruppo di ricerca propone la Bounded Morality, estensione della razionalità limitata di Simon al dominio morale. Il trade-off tra ampiezza e profondità del ragionamento definisce cosa è computazionalmente possibile per un agente finito, con implicazioni dirette sull’allineamento dei sistemi di intelligenza artificiale.

2026-07-02 Fonte

📁 LLM AI generated

Il divario prestazionale tra modelli aperti e chiusi potrebbe essere illusorio

Quando Claude batte i rivali aperti nei benchmark, molti attribuiscono il merito ad architetture superiori. Ma dietro l’API potrebbero nascondersi RAG, prompt preprocessing e altri componenti non dichiarati che gonfiano le performance del prodotto finale, rendendo il confronto fuorviante.

2026-07-01 Fonte

📁 LLM AI generated

Giugno 2026: NVIDIA, AMD e Intel guidano la spinta alla quantization per LLM on-premise

Il mese dei modelli aperti vede meno uscite ma grande qualità: NVIDIA, AMD e Intel rilasciano formati di quantization avanzati come NVFP4, MXFP4 e AutoRound. Dalla community arrivano fine-tune specializzati mentre DeepSeek presenta DeepSpec. Ecco perché queste innovazioni contano per chi vuole eseguire LLM su hardware locale.

2026-07-01 Fonte

📁 LLM AI generated

Meta legge il pensiero mentre scrivi: interfaccia neurale senza bisturi, ma con un paradosso

Brain2Qwerty 2 ricostruisce frasi dai segnali cerebrali durante la digitazione, senza intervento chirurgico. Il limite? Impara da chi sa già scrivere, escludendo proprio i pazienti a cui è destinata. Uno sguardo su progressi, vincoli e risvolti per l’infrastruttura AI sovrana.

2026-07-01 Fonte

📁 LLM AI generated

Qwen3.6-27B e Gemma 4 31B nella classifica SWE-rebench: le prestazioni dei modelli locali

La classifica SWE-rebench si aggiorna con nuovi modelli, tra cui spiccano i local LLM Qwen3.6-27B (36,5%, 1,88M token) e Gemma 4 31B (16,5%). L'efficienza in token diventa un fattore chiave per chi valuta il deployment on-premise di assistenti al codice.

2026-07-01 Fonte

📁 LLM AI generated

openPangu-2.0-Flash: MoE e contesto esteso addestrati su Ascend per l’inference on-premise

Un modello MoE da 92 miliardi di parametri totali e solo 6 miliardi attivi, con finestra di contesto di 512k token. Addestrato su hardware Ascend, introduce attenzione ibrida DSA/SWA, predizione multi-token e ottimizzatore Muon per abbattere i costi dell’inference on-premise.

2026-07-01 Fonte

📁 LLM AI generated

OpenAI: scoperto un metodo per dimezzare i costi di inference

La notizia, rilanciata da AFP, suggerisce una svolta potenzialmente epocale per l'adozione aziendale dei LLM, in particolare per chi vuole gestirli in proprio, riducendo il Total Cost of Ownership.

2026-07-01 Fonte

📁 LLM AI generated

Quando il mix di lingue spegne i LLM: cosa dice il benchmark Indi-RomCoM

L'uso quotidiano di lingue mescolate alla scrittura latina è un banco di prova severo per i Large Language Models. Il nuovo benchmark Indi-RomCoM mostra che persino i modelli più potenti perdono colpi quando le istruzioni intrecciano inglese e lingue indiane, con un crollo delle performance all'aumentare della densità del code-mixing. Un campanello d'allarme per chi immagina assistenti AI davvero multilingue.

2026-07-01 Fonte

1 2 3 … … 131 132 133 Succ →