📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Un nuovo studio introduce Pairwise Maximum Discrepancy Competition (PMDC), un framework dinamico per valutare la generalizzazione dei modelli di ricompensa (RM) negli LLM. PMDC seleziona coppie prompt-risposta che massimizzano il disaccordo tra RM, creando test case complessi valutati da oracoli. I risultati mostrano differenze significative rispetto ai benchmark convenzionali.

2026-01-27 Fonte

Un nuovo dataset rilasciato su Zenodo offre dati armonizzati a livello municipale sulle ospedalizzazioni per dengue in Brasile dal 1999 al 2021, disaggregati a cadenza settimanale. L'obiettivo è migliorare l'accuratezza dei modelli di intelligenza artificiale per la previsione epidemiologica, includendo variabili ambientali e demografiche.

2026-01-27 Fonte

TelcoAI è un sistema RAG (Retrieval-Augmented Generation) multi-modale progettato per la documentazione 3GPP, che include specifiche tecniche complesse per le telecomunicazioni. Utilizza chunking section-aware, query planning strutturato e fusione di testo e diagrammi, ottenendo miglioramenti significativi in recall e fedeltà rispetto alle soluzioni esistenti. Questo progresso facilita la ricerca e l'ingegneria nel settore delle telecomunicazioni.

2026-01-27 Fonte

Il team di Jan ha rilasciato Jan-v3-4B-base-instruct, un modello da 4 miliardi di parametri addestrato con pre-training continuo e reinforcement learning. L'obiettivo è migliorare le capacità in attività comuni preservando le capacità generali. Il modello è un buon punto di partenza per l'ulteriore fine-tuning e offre prestazioni migliorate in matematica e coding.

2026-01-27 Fonte

DeepSeek AI ha rilasciato DeepSeek-OCR-2, un modello di riconoscimento ottico dei caratteri (OCR) open source. La notizia è stata diffusa su Reddit, con link diretto al modello disponibile su Hugging Face. Questo rilascio potrebbe favorire l'adozione di soluzioni OCR in ambito locale e con maggiore controllo sui dati.

2026-01-27 Fonte

È stata rilasciata una nuova versione del modello linguistico Kimi, denominata K2.5. Al momento, la disponibilità è limitata al sito web ufficiale e non ci sono ancora comunicazioni ufficiali, suggerendo che il modello sia ancora in fase di test. La precedente versione era stata rilasciata open source.

2026-01-27 Fonte

OpenAI ha pubblicato un'analisi tecnica dettagliata del funzionamento interno di Codex CLI, il suo agente AI per lo sviluppo di codice. La pubblicazione offre agli sviluppatori informazioni utili sugli strumenti di AI coding, capaci di scrivere codice, eseguire test e correggere bug con supervisione umana. L'articolo arriva in un momento in cui gli agenti AI stanno diventando strumenti pratici per il lavoro quotidiano.

2026-01-26 Fonte

Un ricercatore ha dimostrato come un singolo messaggio di posta elettronica, contenente un prompt injection mascherato, possa indurre un LLM locale (ClawdBot) a esfiltrare dati sensibili. L'attacco, che non sfrutta vulnerabilità software, evidenzia i rischi nell'utilizzo di agenti AI che elaborano contenuti non attendibili e hanno la capacità di eseguire azioni concrete.

2026-01-26 Fonte

Anthropic ha annunciato l'integrazione di app interattive all'interno dell'interfaccia del chatbot Claude. Tra le prime integrazioni, spicca quella con Slack e altri strumenti per la collaborazione aziendale, aprendo nuove possibilità di utilizzo del modello in ambienti professionali.

2026-01-26 Fonte

Una discussione su Reddit analizza le capacità del modello linguistico Qwen3-Max-Thinking, esplorandone le potenzialità e i limiti. La comunità di LocalLLaMA si interroga sulle performance e sulle possibili applicazioni del modello, con un focus sull'inference e l'ottimizzazione.

2026-01-26 Fonte

Il mese di febbraio si preannuncia ricco di novità nel panorama dell'intelligenza artificiale cinese. Oltre ai già annunciati Deepseek v4 e Kimi K3, anche Minimax starebbe per rilasciare il modello M2.2. Si vocifera inoltre di un modello proprietario in arrivo da ByteDance.

2026-01-26 Fonte

Un utente ha aperto una discussione su Reddit per confrontare tre modelli linguistici di grandi dimensioni (LLM) focalizzati sul coding: GLM 4.7 Flash, GPT OSS 120B e Qwen3 Coder 30B. Tutti e tre i modelli richiedono circa 60GB di spazio di archiviazione. L'obiettivo è raccogliere esperienze dirette sui pro e i contro di ciascun modello.

2026-01-26 Fonte

Presentato M3Kang, un nuovo dataset multilingue per valutare le capacità di ragionamento matematico multimodale dei modelli vision-language (VLM). Derivato dalla competizione Kangaroo Math, include problemi tradotti in 108 lingue, con benchmark su modelli open e closed source. I risultati mostrano difficoltà nel ragionamento matematico di base e basato su diagrammi.

2026-01-26 Fonte

Presentato ChiEngMixBench, un nuovo benchmark per valutare le capacità di code-mixing (cinese-inglese) dei modelli linguistici di grandi dimensioni (LLM) in contesti comunicativi reali. Il benchmark analizza la spontaneità e la naturalezza del linguaggio, rivelando strategie di allineamento cognitivo tra LLM e comunicazione umana.

2026-01-26 Fonte

ChatGPT sta integrando nei risultati di ricerca informazioni provenienti da Grokipedia, l'enciclopedia generata tramite intelligenza artificiale e sviluppata da xAI, la società di Elon Musk. Questo solleva interrogativi sulla provenienza e l'affidabilità delle fonti utilizzate dai modelli linguistici.

2026-01-25 Fonte

La startup Humans&, fondata da ex dipendenti di Anthropic, Meta, OpenAI, xAI e Google DeepMind, sta sviluppando modelli fondazionali di nuova generazione focalizzati sulla collaborazione, superando il tradizionale approccio basato sulla chat.

2026-01-25 Fonte

Una discussione su Reddit mette in evidenza i miglioramenti di velocità ottenuti con GLM-4.7-Flash, un modello linguistico di grandi dimensioni. I dettagli tecnici specifici e i risultati dei benchmark sono disponibili tramite un link a GitHub, offrendo agli sviluppatori informazioni utili per ottimizzare le prestazioni.

2026-01-25 Fonte

Un utente ha segnalato un calo di performance nel modello GLM-4.7-Flash all'aumentare della lunghezza del contesto. I benchmark mostrano una diminuzione dei token al secondo (t/s) passando da contesti brevi a contesti più estesi, suggerendo un possibile collo di bottiglia nell'elaborazione di sequenze lunghe. L'analisi è stata eseguita su un sistema dotato di GPU NVIDIA RTX 3090.

2026-01-25 Fonte

Indiscrezioni suggeriscono che Apple potrebbe presentare a febbraio la nuova versione del suo assistente vocale Siri, basata sull'intelligenza artificiale Gemini di Google. Questa mossa segnerebbe un punto di svolta per Siri, da tempo criticata per le sue limitate capacità rispetto alla concorrenza.

2026-01-25 Fonte