📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

📁 LLM AI generated

Valutazione dei Modelli di Ricompensa: un Nuovo Framework Competitivo

Un nuovo studio introduce Pairwise Maximum Discrepancy Competition (PMDC), un framework dinamico per valutare la generalizzazione dei modelli di ricompensa (RM) negli LLM. PMDC seleziona coppie prompt-risposta che massimizzano il disaccordo tra RM, creando test case complessi valutati da oracoli. I risultati mostrano differenze significative rispetto ai benchmark convenzionali.

2026-01-27 Fonte

📁 LLM AI generated

Dataset di ospedalizzazioni per dengue in Brasile (1999-2021)

Un nuovo dataset rilasciato su Zenodo offre dati armonizzati a livello municipale sulle ospedalizzazioni per dengue in Brasile dal 1999 al 2021, disaggregati a cadenza settimanale. L'obiettivo è migliorare l'accuratezza dei modelli di intelligenza artificiale per la previsione epidemiologica, includendo variabili ambientali e demografiche.

2026-01-27 Fonte

📁 LLM AI generated

TelcoAI: Ricerca avanzata nelle specifiche 3GPP con RAG multi-modale

TelcoAI è un sistema RAG (Retrieval-Augmented Generation) multi-modale progettato per la documentazione 3GPP, che include specifiche tecniche complesse per le telecomunicazioni. Utilizza chunking section-aware, query planning strutturato e fusione di testo e diagrammi, ottenendo miglioramenti significativi in recall e fedeltà rispetto alle soluzioni esistenti. Questo progresso facilita la ricerca e l'ingegneria nel settore delle telecomunicazioni.

2026-01-27 Fonte

📁 LLM AI generated

Jan v3 Instruct: modello di coding da 4B con miglioramenti del 40%

Il team di Jan ha rilasciato Jan-v3-4B-base-instruct, un modello da 4 miliardi di parametri addestrato con pre-training continuo e reinforcement learning. L'obiettivo è migliorare le capacità in attività comuni preservando le capacità generali. Il modello è un buon punto di partenza per l'ulteriore fine-tuning e offre prestazioni migliorate in matematica e coding.

2026-01-27 Fonte

📁 LLM AI generated

DeepSeek-OCR-2: nuovo modello OCR open source di DeepSeek AI

DeepSeek AI ha rilasciato DeepSeek-OCR-2, un modello di riconoscimento ottico dei caratteri (OCR) open source. La notizia è stata diffusa su Reddit, con link diretto al modello disponibile su Hugging Face. Questo rilascio potrebbe favorire l'adozione di soluzioni OCR in ambito locale e con maggiore controllo sui dati.

2026-01-27 Fonte

📁 LLM AI generated

Kimi K2.5: Nuovo modello linguistico in fase di test

È stata rilasciata una nuova versione del modello linguistico Kimi, denominata K2.5. Al momento, la disponibilità è limitata al sito web ufficiale e non ci sono ancora comunicazioni ufficiali, suggerendo che il modello sia ancora in fase di test. La precedente versione era stata rilasciata open source.

2026-01-27 Fonte

📁 LLM AI generated

OpenAI svela i dettagli tecnici del suo agente di sviluppo codice AI

OpenAI ha pubblicato un'analisi tecnica dettagliata del funzionamento interno di Codex CLI, il suo agente AI per lo sviluppo di codice. La pubblicazione offre agli sviluppatori informazioni utili sugli strumenti di AI coding, capaci di scrivere codice, eseguire test e correggere bug con supervisione umana. L'articolo arriva in un momento in cui gli agenti AI stanno diventando strumenti pratici per il lavoro quotidiano.

2026-01-26 Fonte

📁 LLM AI generated

Prompt injection: LLM locale compromesso via email

Un ricercatore ha dimostrato come un singolo messaggio di posta elettronica, contenente un prompt injection mascherato, possa indurre un LLM locale (ClawdBot) a esfiltrare dati sensibili. L'attacco, che non sfrutta vulnerabilità software, evidenzia i rischi nell'utilizzo di agenti AI che elaborano contenuti non attendibili e hanno la capacità di eseguire azioni concrete.

2026-01-26 Fonte

📁 LLM AI generated

Anthropic integra app interattive in Claude, inclusa Slack

Anthropic ha annunciato l'integrazione di app interattive all'interno dell'interfaccia del chatbot Claude. Tra le prime integrazioni, spicca quella con Slack e altri strumenti per la collaborazione aziendale, aprendo nuove possibilità di utilizzo del modello in ambienti professionali.

2026-01-26 Fonte

📁 LLM AI generated

Qwen3-Max-Thinking: Spingendosi oltre i limiti

Una discussione su Reddit analizza le capacità del modello linguistico Qwen3-Max-Thinking, esplorandone le potenzialità e i limiti. La comunità di LocalLLaMA si interroga sulle performance e sulle possibili applicazioni del modello, con un focus sull'inference e l'ottimizzazione.

2026-01-26 Fonte

📁 LLM AI generated

Nvidia presenta modelli meteo AI: previsioni più accurate e accessibili

Nvidia ha annunciato tre nuovi strumenti basati su intelligenza artificiale per la modellazione meteorologica. L'obiettivo è migliorare l'accuratezza delle previsioni e renderle disponibili a un pubblico più ampio di utenti, aprendo nuove prospettive nel settore.

2026-01-26 Fonte

📁 LLM AI generated

Minimax M2.2 in arrivo: Febbraio denso per i laboratori cinesi

Il mese di febbraio si preannuncia ricco di novità nel panorama dell'intelligenza artificiale cinese. Oltre ai già annunciati Deepseek v4 e Kimi K3, anche Minimax starebbe per rilasciare il modello M2.2. Si vocifera inoltre di un modello proprietario in arrivo da ByteDance.

2026-01-26 Fonte

📁 LLM AI generated

LLM per coding: GLM 4.7 Flash, GPT OSS 120B e Qwen3 Coder 30B a confronto

Un utente ha aperto una discussione su Reddit per confrontare tre modelli linguistici di grandi dimensioni (LLM) focalizzati sul coding: GLM 4.7 Flash, GPT OSS 120B e Qwen3 Coder 30B. Tutti e tre i modelli richiedono circa 60GB di spazio di archiviazione. L'obiettivo è raccogliere esperienze dirette sui pro e i contro di ciascun modello.

2026-01-26 Fonte

📁 LLM AI generated

M3Kang: Testare il ragionamento matematico multilingue nei modelli VLM

Presentato M3Kang, un nuovo dataset multilingue per valutare le capacità di ragionamento matematico multimodale dei modelli vision-language (VLM). Derivato dalla competizione Kangaroo Math, include problemi tradotti in 108 lingue, con benchmark su modelli open e closed source. I risultati mostrano difficoltà nel ragionamento matematico di base e basato su diagrammi.

2026-01-26 Fonte

📁 LLM AI generated

Valutazione di LLM in scenari di code-mixing cinese-inglese

Presentato ChiEngMixBench, un nuovo benchmark per valutare le capacità di code-mixing (cinese-inglese) dei modelli linguistici di grandi dimensioni (LLM) in contesti comunicativi reali. Il benchmark analizza la spontaneità e la naturalezza del linguaggio, rivelando strategie di allineamento cognitivo tra LLM e comunicazione umana.

2026-01-26 Fonte

📁 LLM AI generated

ChatGPT pesca risposte da Grokipedia di Elon Musk

ChatGPT sta integrando nei risultati di ricerca informazioni provenienti da Grokipedia, l'enciclopedia generata tramite intelligenza artificiale e sviluppata da xAI, la società di Elon Musk. Questo solleva interrogativi sulla provenienza e l'affidabilità delle fonti utilizzate dai modelli linguistici.

2026-01-25 Fonte

📁 LLM AI generated

Humans&: nuovi modelli fondazionali per la collaborazione AI

La startup Humans&, fondata da ex dipendenti di Anthropic, Meta, OpenAI, xAI e Google DeepMind, sta sviluppando modelli fondazionali di nuova generazione focalizzati sulla collaborazione, superando il tradizionale approccio basato sulla chat.

2026-01-25 Fonte

📁 LLM AI generated

GLM-4.7-Flash: prestazioni ulteriormente migliorate

Una discussione su Reddit mette in evidenza i miglioramenti di velocità ottenuti con GLM-4.7-Flash, un modello linguistico di grandi dimensioni. I dettagli tecnici specifici e i risultati dei benchmark sono disponibili tramite un link a GitHub, offrendo agli sviluppatori informazioni utili per ottimizzare le prestazioni.

2026-01-25 Fonte

📁 LLM AI generated

GLM-4.7-Flash: calo di performance con contesti ampi?

Un utente ha segnalato un calo di performance nel modello GLM-4.7-Flash all'aumentare della lunghezza del contesto. I benchmark mostrano una diminuzione dei token al secondo (t/s) passando da contesti brevi a contesti più estesi, suggerendo un possibile collo di bottiglia nell'elaborazione di sequenze lunghe. L'analisi è stata eseguita su un sistema dotato di GPU NVIDIA RTX 3090.

2026-01-25 Fonte

📁 LLM AI generated

Siri potenziata da Gemini: Apple svela la novità a febbraio?

Indiscrezioni suggeriscono che Apple potrebbe presentare a febbraio la nuova versione del suo assistente vocale Siri, basata sull'intelligenza artificiale Gemini di Google. Questa mossa segnerebbe un punto di svolta per Siri, da tempo criticata per le sue limitate capacità rispetto alla concorrenza.

2026-01-25 Fonte