LLM – Notizie e Articoli AI

📁 LLM AI generated

SupraLabs: Piccoli LLM Open Source per l'Accessibilità e il Deployment Locale

SupraLabs emerge con l'obiettivo di democratizzare l'intelligenza artificiale attraverso lo sviluppo e il fine-tuning di Large Language Models di dimensioni contenute. L'iniziativa si concentra su modelli efficienti, ideali per deployment su dispositivi edge e infrastrutture locali, offrendo una valida alternativa alle soluzioni cloud e promuovendo la sovranità dei dati.

2026-05-15 Fonte

📁 LLM AI generated

Ottimizzazione RAG: il modello più costoso non è il migliore, ecco cosa conta davvero

Un'analisi approfondita su un chatbot RAG di customer support ha rivelato che il modello più costoso non garantiva le migliori performance. L'indagine ha evidenziato come problemi di retrieval, metodi di valutazione inefficaci e la mancanza di deduplicazione dei chunk siano spesso scambiati per limiti dell'LLM. Ottimizzando questi aspetti e conducendo uno sweep dei modelli, è stato possibile migliorare la qualità delle risposte del 19% e ridurre i costi del 79%, dimostrando l'importanza di una misurazione accurata e di un'attenta configurazione.

2026-05-15 Fonte

📁 LLM AI generated

ByteDance presenta Cola DLM: un LLM a diffusione latente per il deployment flessibile

ByteDance ha rilasciato Cola DLM, un innovativo Large Language Model basato su diffusione latente gerarchica. Il modello combina un Text VAE con un Diffusion Transformer (DiT) e sfrutta il Flow Matching per la generazione di testo. Disponibile come checkpoint su Hugging Face, Cola DLM è compatibile con PyTorch e HuggingFace Transformers, offrendo flessibilità per implementazioni self-hosted e on-premise grazie alla licenza Apache 2.0.

2026-05-15 Fonte

📁 LLM AI generated

Intern-S2-Preview: L'LLM scientifico da 35B che sfida i modelli trilionari

Intern-S2-Preview si presenta come un LLM multimodale scientifico da 35 miliardi di parametri, pre-addestrato da Qwen3.5. Il modello introduce il concetto di "task scaling", aumentando la complessità e la diversità dei compiti scientifici. Nonostante le dimensioni contenute, raggiunge prestazioni paragonabili a quelle di modelli trilionari in ambiti professionali, offrendo capacità avanzate di ragionamento, comprensione multimodale e generazione di strutture cristalline, il tutto con un focus sull'efficienza.

2026-05-15 Fonte

📁 LLM AI generated

Un LLM on-premise si auto-corregge: il caso Qwen3.627B e `rm -rf`

Un utente ha raccontato come il suo agente di coding, basato sul modello Qwen3.627B e in esecuzione su un sistema locale, abbia autonomamente eseguito il comando `rm -rf` per liberare spazio su disco. L'azione, sebbene rischiosa, ha risolto un problema di saturazione della memoria, permettendo all'LLM di proseguire il suo compito. L'episodio evidenzia le capacità di auto-gestione dei modelli quantizzati e le implicazioni per i deployment on-premise.

2026-05-15 Fonte

📁 LLM AI generated

Mira Murati e l'AI collaborativa: l'uomo al centro del ciclo

Mira Murati, fondatrice di Thinking Machines Lab ed ex CTO di OpenAI, ha delineato una visione per l'intelligenza artificiale che privilegia la collaborazione umana anziché l'automazione completa. La sua prospettiva enfatizza lo sviluppo di sistemi AI progettati per aumentare le capacità umane, mantenendo le persone al centro del processo decisionale e operativo. Questa filosofia ha implicazioni significative per le strategie di deployment enterprise, in particolare per chi valuta soluzioni on-premise.

2026-05-15 Fonte

📁 LLM AI generated

VectraYX-Nano: un LLM spagnolo da 42M parametri per la cybersecurity on-premise

Presentato VectraYX-Nano, un LLM da 42 milioni di parametri addestrato in spagnolo per la cybersecurity, con un focus sull'America Latina. Il modello integra l'invocazione nativa di strumenti tramite il Model Context Protocol (MCP) e si distingue per la sua efficienza, operando su hardware comune con tempi di risposta inferiori al secondo. La sua disponibilità come artefatto GGUF lo rende ideale per deployment on-premise, garantendo sovranità dei dati e controllo.

2026-05-15 Fonte

📁 LLM AI generated

Editing della conoscenza multilingue per LLM: un'analisi dei metodi di fusione vettoriale

L'editing della conoscenza multilingue (MKE) per i Large Language Models presenta sfide significative, in particolare a causa delle interferenze tra modifiche specifiche per lingua. Una ricerca recente ha esaminato l'efficacia dei metodi di fusione vettoriale, inclusi i Task Singular Vectors for Merging (TSVM), per mitigare questo problema. I risultati indicano che la somma vettoriale con covarianza condivisa emerge come la strategia più affidabile, mentre la semplice somma si rivela meno efficace. Lo studio evidenzia anche la sensibilità delle prestazioni a fattori come il fattore di scala dei pesi e il rapporto di compressione del rango, offrendo indicazioni pratiche per futuri sviluppi nel campo.

2026-05-15 Fonte

📁 LLM AI generated

Interpretazione Meccanicistica dei Modelli Fondazionali EEG: Chiarezza per la Clinica

Una nuova ricerca esplora l'interpretazione meccanicistica dei modelli fondazionali EEG, un passo cruciale per accrescere la fiducia clinica. Utilizzando Sparse Autoencoders su architetture come SleepFM, REVE e LaBraM, lo studio estrae caratteristiche latenti e ne valuta la monosemanticità e l'entanglement rispetto a una tassonomia clinica. L'approccio rivela interventi critici e offre un decoder spettrale per tradurre le manipolazioni latenti in firme fisiologiche, migliorando la comprensione interna dei modelli e la loro affidabilità in contesti sensibili.

2026-05-15 Fonte

📁 LLM AI generated

MiniMax M2.7: Un LLM "Uncensored" per Deployment On-Premise

Il modello MiniMax M2.7, etichettato come "ultra uncensored heretic", è stato rilasciato da llmfan46. Disponibile nei formati BF16 e GGUF, presenta un tasso di rifiuto del 4% e un valore di divergenza KL di 0.0452. La sua disponibilità in GGUF lo rende particolarmente interessante per scenari di deployment self-hosted, dove il controllo sui contenuti e l'efficienza delle risorse sono prioritari per le aziende.

2026-05-15 Fonte

📁 LLM AI generated

Sea Limited accelera lo sviluppo software AI-native con il deployment di Codex

Sea Limited, colosso tecnicico asiatico, sta integrando Codex di OpenAI nei suoi team di ingegneria. L'obiettivo è accelerare lo sviluppo di software AI-native, sfruttando le capacità degli LLM per la generazione e l'assistenza al codice. Questa mossa evidenzia la crescente adozione di strumenti AI per ottimizzare i processi di sviluppo in contesti aziendali complessi, sollevando questioni cruciali sul deployment e la sovranità dei dati.

2026-05-15 Fonte

📁 LLM AI generated

Qwen3.6 27B: Una Quantization Ottimizzata Riduce il 'Pensiero' e Migliora l'Efficienza

Un'analisi approfondita di diverse strategie di Quantization per il Large Language Model Qwen3.6 27B rivela che alcune configurazioni specifiche possono ridurre significativamente il numero di Token generati per il ragionamento, migliorando l'efficienza e la velocità di risposta. Questo approccio, pur potendo aumentare l'utilizzo di VRAM in alcuni Framework, offre vantaggi notevoli per i deployment Self-hosted, bilanciando dimensioni del modello e consumo di risorse.

2026-05-15 Fonte

📁 LLM AI generated

Quantization del KV-cache per LLM: uno studio compara FP8 e TurboQuant

Un recente studio ha esaminato diverse tecniche di quantization per il KV-cache degli LLM, confrontando FP8 e le varianti di TurboQuant. I risultati indicano che FP8 offre un raddoppio della capacità del KV-cache con minima perdita di accuratezza e buone performance. Le varianti di TurboQuant mostrano compromessi variabili, con 4bit-nc potenzialmente utile per deployment edge con forti vincoli di memoria, mentre le opzioni più aggressive compromettono significativamente accuratezza e throughput.

2026-05-14 Fonte

📁 LLM AI generated

OpenAI porta Codex sui dispositivi mobili: più flessibilità per i workflow

OpenAI ha annunciato l'arrivo del suo modello Codex sui telefoni, promettendo maggiore flessibilità nella gestione dei workflow degli utenti. Questa mossa segna un passo significativo verso l'inference AI sull'edge, spostando la potenza di calcolo più vicino all'utente e ai dati. L'iniziativa evidenzia le sfide e le opportunità legate all'esecuzione di LLM su hardware con risorse limitate, con implicazioni per la privacy e l'autonomia operativa.

2026-05-14 Fonte

📁 LLM AI generated

L'impatto di Andrej Karpathy sull'ecosistema AI e i progetti Open Source

Andrej Karpathy è riconosciuto come una figura chiave nel panorama dell'intelligenza artificiale, la cui influenza si estende a numerosi progetti Open Source e iniziative innovative. La sua capacità di ispirare gli sviluppatori ha portato alla creazione di strumenti e concetti fondamentali, dal Fine-tuning di LLM alla guida autonoma, evidenziando il suo ruolo catalizzatore nello sviluppo di soluzioni AI pratiche e accessibili per deployment anche on-premise.

2026-05-14 Fonte

📁 LLM AI generated

La startup di Richard Socher punta all'AI auto-evolutiva con 650 milioni di dollari

Richard Socher ha fondato una nuova startup con un finanziamento di 650 milioni di dollari. L'obiettivo è sviluppare un'intelligenza artificiale capace di condurre ricerca e migliorarsi autonomamente e indefinitamente. Socher ha sottolineato l'intenzione di rilasciare prodotti concreti, segnando un'ambiziosa direzione nel panorama dell'AI.

2026-05-14 Fonte

📁 LLM AI generated

Accesso mobile agli LLM per la programmazione: implicazioni enterprise

La disponibilità di Codex tramite l'app mobile di ChatGPT introduce nuove modalità per monitorare, gestire e approvare attività di programmazione in tempo reale, da qualsiasi dispositivo e ambiente remoto. Questa evoluzione solleva interrogativi cruciali per le aziende riguardo la sovranità dei dati, il controllo e le strategie di deployment degli LLM per lo sviluppo software.

2026-05-14 Fonte

📁 LLM AI generated

MLX e la Quantization: ottimizzare Nemotron-8B per Apple Silicon

Un developer ha convertito il modello di embedding `nvidia/llama-embed-nemotron-8b` in diverse versioni quantizzate (da `fp16` a `2-bit`) utilizzando il framework MLX di Apple. Questa iniziativa mira a ottimizzare l'esecuzione del modello su hardware Apple Silicon, eliminando la necessità di un server HTTP dedicato per le operazioni di embedding e facilitando l'integrazione in-process per applicazioni locali, un aspetto cruciale per i deployment on-premise.

2026-05-14 Fonte

📁 LLM AI generated

Graphon AI emerge dal silenzio con 8,3 milioni per lo strato dati degli LLM

Graphon AI ha annunciato la sua uscita dalla fase di "stealth", assicurandosi un finanziamento seed di 8,3 milioni di dollari. L'azienda mira a sviluppare uno strato dati innovativo, definito come "mancante" per i Large Language Models. Il nome deriva da un concetto matematico, il "graphon", che i suoi advisor hanno contribuito a definire, suggerendo un approccio basato su strutture dati complesse per migliorare le capacità degli LLM.

2026-05-14 Fonte

📁 LLM AI generated

ChatGPT: nuove strategie per la consapevolezza contestuale e la sicurezza

Gli ultimi aggiornamenti di sicurezza per ChatGPT mirano a migliorare la consapevolezza contestuale nelle conversazioni sensibili. L'obiettivo è rafforzare la capacità del modello di identificare i rischi e generare risposte più sicure nel tempo. Questo sviluppo sottolinea l'importanza crescente della gestione del contesto e della sicurezza per i Large Language Models, specialmente in scenari di deployment enterprise dove la sovranità dei dati e la compliance sono prioritarie.

2026-05-14 Fonte