📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

Wikipedia celebra 25 anni e si prepara ad affrontare le sfide poste dall'intelligenza artificiale generativa. L'enciclopedia online, grazie al suo modello di governance e all'attenzione alle fonti, si è dimostrata un baluardo di affidabilità. Abbiamo intervistato Selena Deckelmann, CTO della Wikimedia Foundation, per capire come Wikipedia intende evolvere e mantenere la sua posizione di risorsa informativa primaria nell'era dell'IA.

2026-01-20 Fonte

È stato rilasciato un aggiornamento del dataset LongPage, che ora include oltre 6.000 romanzi completi, corredati di "tracce di ragionamento". Queste tracce suddividono la storia in sezioni gerarchiche, dall'idea generale ai singoli capitoli e scene. L'obiettivo è fornire un valido strumento per l'addestramento di modelli linguistici di grandi dimensioni (LLM) capaci di scrivere libri interi. Pageshift-Entertainment sta addestrando un modello di scrittura di libri completi su LongPage e prevede di rilasciarlo quando la qualità sarà adeguata.

2026-01-20 Fonte

Liquid AI ha rilasciato LFM2.5-1.2B-Thinking, un modello di ragionamento che opera interamente sul dispositivo. Questo modello, addestrato specificamente per il ragionamento conciso, genera tracce di pensiero interne prima di fornire risposte, consentendo la risoluzione sistematica dei problemi con bassa latenza. Supera Qwen3-1.7B in molti benchmark, pur avendo il 40% in meno di parametri, offrendo efficienza in termini di velocità e memoria.

2026-01-20 Fonte

Il modello GLM-4.7-Flash mostra prestazioni notevoli in nuovi benchmark. Su una singola GPU H200, raggiunge un picco di 4.398 token al secondo. Con una RTX 6000 Ada, il modello genera 112 token al secondo utilizzando quantizzazione dinamica Unsloth e llama.cpp. I test rivelano l'efficienza del modello in diversi scenari di utilizzo.

2026-01-20 Fonte

L'adozione degli agenti IA sta crescendo rapidamente, ma molte aziende non sono pronte. Un'infrastruttura dati solida è essenziale per evitare il caos e massimizzare il valore dell'IA. I leader di mercato investono in dati di qualità per garantire l'affidabilità degli agenti e ottenere risultati concreti.

2026-01-20 Fonte

Una repository di DeepSeek è stata aggiornata con un riferimento a un nuovo modello identificato come "model1". La scoperta è avvenuta tramite un file all'interno della repository FlashMLA di DeepSeek su GitHub. Al momento non sono disponibili ulteriori dettagli sulle specifiche o sulle capacità del modello.

2026-01-20 Fonte

ServiceNow potenzia la sua piattaforma integrando i modelli avanzati di OpenAI. L'obiettivo è migliorare i flussi di lavoro aziendali basati sull'intelligenza artificiale, la sintesi di informazioni, la ricerca e le funzionalità vocali all'interno dell'ecosistema ServiceNow.

2026-01-20 Fonte

Un post su Reddit mette in evidenza le capacità sorprendenti dei modelli linguistici eseguiti in locale con LocalLLaMA. La discussione sottolinea come questi modelli, pur girando su hardware consumer, dimostrino una comprensione del contesto e una capacità di risposta che spesso sorprendono gli utenti. L'interesse per l'esecuzione locale dei modelli LLM è in crescita, grazie alla maggiore privacy e controllo sui dati.

2026-01-20 Fonte

Un utente ha testato GLM-4.7-Flash e ha notato un processo di pensiero molto chiaro, suddiviso in fasi distinte come l'analisi della richiesta, il brainstorming, la stesura e la revisione della risposta. Nonostante la maggiore durata del processo, il risultato finale è considerato di alta qualità. L'utente prevede di sostituire altri modelli con GLM-4.7-Flash, ma segnala una lentezza nell'elaborazione dei token e fornisce una configurazione specifica per l'uso su Macbook Air M4.

2026-01-20 Fonte

Z.ai ha presentato GLM-4.7-Flash, un modello MoE da 30B progettato per l'inferenza locale. Ottimizzato per coding, workflow agent e chat, il modello vanta prestazioni elevate con soli 3.6B di parametri attivi e supporta un contesto di 200K token. GLM-4.7-Flash eccelle nei benchmark SWE-Bench e GPQA, posizionandosi come soluzione ideale per applicazioni che richiedono ragionamento e interazione.

2026-01-20 Fonte

Stilla, startup con sede a Stoccolma, ha raccolto 5 milioni di dollari per sviluppare una piattaforma che migliora la collaborazione tra persone e sistemi di intelligenza artificiale. L'obiettivo è fornire un livello di intelligenza che connetta strumenti di lavoro come Slack, GitHub e Notion, per garantire che i team rimangano allineati e che le decisioni siano prese in modo coordinato, soprattutto in ambienti guidati dall'AI.

2026-01-20 Fonte

È trascorso un anno dal lancio di Deepseek-R1, un modello linguistico che ha suscitato interesse nella comunità. La notizia è stata diffusa tramite un post su Reddit, segnalando l'anniversario del rilascio e invitando a ulteriori discussioni sul modello e le sue applicazioni. Deepseek-R1 continua a essere un punto di riferimento per lo sviluppo di nuove soluzioni nel campo dell'intelligenza artificiale.

2026-01-20 Fonte

Bartowski ha rilasciato GLM 4.7 Flash GGUF, una nuova versione del modello linguistico. I file sono disponibili su Hugging Face. La comunità di LocalLLaMA discute attivamente le implicazioni e le potenzialità di questa nuova consegna. L'iniziativa mira a migliorare l'accessibilità e l'efficienza dei modelli linguistici.

2026-01-20 Fonte

Alibaba sta espandendo l'integrazione del suo modello di intelligenza artificiale Qwen direttamente nei servizi rivolti ai consumatori. Questa mossa strategica mira a migliorare l'esperienza utente e a offrire funzionalità avanzate basate sull'IA in diversi ambiti, consolidando la posizione di Alibaba nel mercato dell'intelligenza artificiale.

2026-01-20 Fonte

Unsloth ha reso disponibile il modello linguistico GLM-4.7-Flash nel formato GGUF (GPT-Generated Unified Format). Questo formato facilita l'utilizzo del modello su diverse piattaforme hardware, rendendolo accessibile a un pubblico più ampio di sviluppatori e ricercatori interessati all'inferenza di modelli linguistici di grandi dimensioni in locale.

2026-01-20 Fonte

È stata rilasciata una nuova versione di GLM-4.7-Flash-GGUF, un modello linguistico di grandi dimensioni (LLM) progettato per l'inferenza locale. Questa implementazione, disponibile su Hugging Face, permette agli utenti di eseguire il modello direttamente sui propri dispositivi, aprendo nuove possibilità per applicazioni offline e personalizzate.

2026-01-20 Fonte

Un utente segnala ottime prestazioni di GLM 4.7 Flash come agente LLM, anche su sistemi con GPU meno potenti. Il modello sembra gestire task complessi come la clonazione di repository GitHub e la modifica di file senza errori, aprendo nuove possibilità per chi ha risorse di calcolo limitate. Resta da vedere se le promesse saranno mantenute anche in locale.

2026-01-19 Fonte

LightOn AI ha rilasciato LightOnOCR-2-1B, un modello di riconoscimento ottico dei caratteri (OCR) open source. Il modello è disponibile su Hugging Face e mira a fornire una soluzione accessibile per l'estrazione di testo da immagini. La sua pubblicazione è stata accolta con favore dalla comunità open source, che ne apprezza la potenziale utilità in diversi contesti applicativi.

2026-01-19 Fonte

È stata pubblicata su Hugging Face una versione a precisione mista NVFP4 quantizzata di GLM-4.7-FLASH. L'autore invita la comunità a testare il modello e fornire feedback. Il modello ha una dimensione di 20.5 GB e mira a ottimizzare le prestazioni mantenendo un buon livello di accuratezza.

2026-01-19 Fonte

Un utente si interroga sui possibili impieghi di modelli di linguaggio di dimensioni ridotte come Gemma 3:1b. Questi modelli, pur girando su hardware meno potente, aprono scenari interessanti. Resta da capire se siano adatti per compiti di base o calcoli semplici, oppure se possano affrontare sfide più complesse.

2026-01-19 Fonte