📁 LLM

Questa sezione LLM monitora release di modelli, quantizzazione, capacita di ragionamento e impatti pratici su deployment locale o ibrido. L'obiettivo e focalizzarsi su cio che cambia davvero le decisioni tecniche: finestra di contesto, latenza, footprint memoria, licenze e evidenza valutativa su famiglie open e commerciali. E una raccolta pensata per team che cercano segnali affidabili, non rumore. Integra la lettura con la pillar LLM, i vincoli hardware e l'integrazione framework.

È disponibile ACE-Step 1.5, un modello open source per la generazione di musica. Promette di superare Suno in termini di qualità, generando brani completi in circa 2 secondi su una GPU A100 e funzionando localmente su PC con 4GB di VRAM. Il codice, i pesi e il materiale di training sono completamente aperti.

2026-02-03 Fonte

È disponibile Qwen3-Coder-Next, un nuovo modello linguistico sviluppato per applicazioni di programmazione. Il modello è accessibile tramite Hugging Face e la relativa discussione è attiva su Reddit. Questo rilascio rappresenta un aggiornamento significativo nel campo dei modelli linguistici specializzati per il codice.

2026-02-03 Fonte

È stato rilasciato su Hugging Face Qwen3-Coder-Next, un modello linguistico sviluppato per applicazioni di programmazione. La sua disponibilità sulla piattaforma facilita l'accesso e l'integrazione da parte degli sviluppatori. Il modello promette di migliorare l'efficienza nello sviluppo di software.

2026-02-03 Fonte

Un utente di LocalLLaMA solleva preoccupazioni riguardo all'attività dei bot sulla piattaforma, inclusi commenti ingannevoli e manipolazione dei voti. La discussione si concentra sulla necessità di strategie di difesa per proteggere la comunità da queste minacce.

2026-02-03 Fonte

È stato annunciato l'arrivo di GLM-5, un nuovo modello linguistico. La conferma è giunta tramite un post su X (ex Twitter) da Jietang. Ulteriori dettagli sulle capacità e sulle specifiche del modello sono attesi con il rilascio ufficiale.

2026-02-03 Fonte

GLM ha rilasciato un modello di riconoscimento ottico dei caratteri (OCR) open source. Il modello, denominato GLM-OCR, è disponibile su Hugging Face. Sembra essere composto da un modello di visione da 0.9 miliardi di parametri e un modello linguistico da 0.5 miliardi di parametri, suggerendo un'inference potenzialmente rapida.

2026-02-03 Fonte

Un esperimento con agenti AI in rete, denominato Moltbook, ha riacceso il dibattito sulle implicazioni future dell'intelligenza artificiale distribuita. L'iniziativa solleva questioni cruciali sull'interoperabilità, la sicurezza e l'etica degli agenti AI che operano in ambienti complessi e interconnessi.

2026-02-03 Fonte

L'ultimo episodio del podcast Google AI: Release Notes si concentra su Genie 3, un modello del mondo interattivo in tempo reale. Logan Kilpatrick ne discute con Diego Rivas e Shlomi Fruchter. Approfondimenti sull'evoluzione dei modelli AI e le loro applicazioni.

2026-02-02 Fonte

Gli scienziati stanno lavorando per sequenziare il genoma di ogni specie conosciuta sulla Terra, utilizzando l'intelligenza artificiale per accelerare il processo e preservare le informazioni genetiche delle specie in via di estinzione. Questo sforzo globale mira a comprendere meglio la biodiversità e proteggere le specie vulnerabili.

2026-02-02 Fonte

Carbon Robotics ha sviluppato un modello di intelligenza artificiale (IA) avanzato, denominato Large Plant Model, che consente agli agricoltori di identificare e rimuovere nuove tipologie di piante infestanti senza la necessità di riaddestrare i macchinari esistenti. Questo approccio mira a ottimizzare l'efficienza agricola e ridurre l'uso di erbicidi.

2026-02-02 Fonte

Alcune organizzazioni no-profit chiedono al governo degli Stati Uniti di sospendere l'uso di Grok nelle agenzie federali. La richiesta nasce in seguito alla generazione, da parte del chatbot di xAI, di migliaia di immagini sessuali non consensuali, sollevando preoccupazioni per la sicurezza nazionale e la protezione dei minori.

2026-02-02 Fonte

Un nuovo studio introduce MrRoPE, una formulazione generalizzata per estendere la finestra di contesto dei modelli linguistici di grandi dimensioni (LLM) basata su una prospettiva di conversione del sistema numerico. Questo approccio unifica diverse strategie esistenti e introduce due estensioni training-free, MrRoPE-Uni e MrRoPE-Pro, che migliorano le capacità di generalizzazione 'train short, test long'.

2026-02-02 Fonte

Un nuovo studio esplora come l'alterazione del linguaggio, simulando uno stato di ebbrezza, possa compromettere la sicurezza dei modelli linguistici di grandi dimensioni (LLM). Attraverso diverse tecniche di induzione, i ricercatori hanno osservato una maggiore vulnerabilità a jailbreak e fughe di dati sensibili, evidenziando rischi significativi per l'affidabilità degli LLM.

2026-02-02 Fonte

Uno studio sul dataset EAV rivela che, per il riconoscimento multimodale delle emozioni su dataset di piccole dimensioni, meccanismi di attenzione complessi (Transformer) offrono prestazioni inferiori rispetto a modifiche basate sulla conoscenza del dominio. L'aggiunta di delta MFCC al CNN audio migliora l'accuratezza, così come l'uso di feature nel dominio della frequenza per EEG.

2026-02-02 Fonte

Un nuovo studio introduce il Six Sigma Agent, un'architettura per migliorare l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) in contesti enterprise. L'approccio si basa su task decomposition, esecuzione parallela su diversi LLM e un meccanismo di voto a maggioranza per selezionare la risposta più accurata, riducendo drasticamente il tasso di errore.

2026-02-02 Fonte

Un post su Reddit mostra una risposta inattesa da un modello linguistico di grandi dimensioni (LLM) a una richiesta iniziale senza prompt di sistema. L'esempio evidenzia la difficoltà di prevedere le consegne di un LLM in contesti non strutturati e senza istruzioni preliminari.

2026-02-02 Fonte

Il modello Step-3.5-Flash, con un'architettura a parametri attivi ridotta (11B su 196B totali), dimostra performance superiori a DeepSeek v3.2 in benchmark di coding e agenti. DeepSeek v3.2 utilizza un'architettura con molti più parametri attivi (37B su 671B totali). Il modello è disponibile su Hugging Face.

2026-02-02 Fonte

Mistral AI ha annunciato Mistral Vibe 2.0. La notizia è stata diffusa tramite Reddit, dove gli utenti hanno condiviso il link all'annuncio ufficiale. Al momento, non sono disponibili ulteriori dettagli sulle caratteristiche o i miglioramenti di questa nuova versione. L'attenzione della community è alta, in attesa di informazioni più approfondite.

2026-02-01 Fonte

Il modello OLMO 3.5 di AI2 combina l'attenzione transformer standard con l'attenzione lineare tramite Gated Deltanet. Questo approccio ibrido mira a migliorare l'efficienza e ridurre l'utilizzo di memoria, mantenendo la qualità del modello. La serie OLMO è completamente open source, dai dataset alle ricette di training.

2026-02-01 Fonte

TII rilascia Falcon-H1-Tiny, una serie di modelli con meno di 100 milioni di parametri che sfidano il dogma dello scaling. Questi modelli specializzati mostrano una minore tendenza alle allucinazioni rispetto ai modelli generalisti più grandi. Le varianti specializzate offrono prestazioni competitive in attività specifiche come la chiamata di strumenti, il ragionamento e la generazione di codice, aprendo nuove possibilità per l'inference su dispositivi con risorse limitate.

2026-02-01 Fonte