Topic / Trend Rising

Sviluppo e Ottimizzazione degli LLM

Il campo dei Large Language Models sta assistendo a rapidi progressi nelle architetture, inclusi modelli multimodali e Mixture-of-Experts. Sforzi significativi sono concentrati sull'ottimizzazione delle prestazioni tramite tecniche come la quantization, la gestione della VRAM e l'espansione delle finestre di contesto.

Detected: 2026-04-03 · Updated: 2026-05-02

Articoli Correlati

2026-05-01 DigiTimes

Taiwan accelera sui modelli AI multimodali con una nuova task force nazionale

Il National Science and Technology Council (NSTC) di Taiwan ha istituito una task force dedicata allo sviluppo di modelli di base di intelligenza artificiale multimodale. L'iniziativa, guidata dal ministro Cheng-Wen Wu, mira a posizionare l'isola com...

#Hardware #LLM On-Premise #Fine-Tuning
2026-05-01 LocalLLaMA

Rilasciato Gemma-4-31B-it-DFlash: un nuovo LLM per deployment locali

È stato annunciato il rilascio di Gemma-4-31B-it-DFlash, una nuova variante del modello Gemma di Google, ottimizzata per la lingua italiana. La sua disponibilità su Hugging Face e l'integrazione in sospeso con il framework `llama.cpp` suggeriscono un...

#Hardware #LLM On-Premise #DevOps
2026-04-30 LocalLLaMA

LLM Locali: Aprile 2026 Segna un Picco per i Modelli Open?

Un recente dibattito nella community di `/r/LocalLLaMA` suggerisce che aprile 2026 potrebbe rappresentare un momento cruciale per i Large Language Models (LLM) open. L'attenzione si concentra sui modelli idonei per deployment self-hosted, evidenziand...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-30 LocalLLaMA

Qwen 3.6: i nuovi modelli da 27B e 35B ridefiniscono il panorama degli LLM?

I recenti modelli Qwen 3.6 da 27B e 35B parametri stanno generando un dibattito significativo nel settore degli LLM. Sembrano superare i predecessori nella fascia dei ~30B, inclusi Qwen Coder 30B, GPT OSS 20B e Gemma, in particolare per lo sviluppo d...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-30 LocalLLaMA

Granite 4.1: IBM e l'efficienza degli LLM da 8 miliardi di parametri

IBM ha presentato Granite 4.1, un Large Language Model da 8 miliardi di parametri. Questo modello si distingue per la sua capacità di competere in termini di prestazioni con LLM di dimensioni quattro volte superiori. L'annuncio evidenzia l'impegno di...

#Hardware #LLM On-Premise #DevOps
2026-04-29 LocalLLaMA

Mistral Medium 3.5: Nuove Opzioni di Deployment con Licenza Specifiche

Mistral AI ha rilasciato Mistral Medium 3.5, un Large Language Model che si distingue per le sue "Open Weights" e una licenza MIT modificata. Quest'ultima richiede il pagamento di una licenza per l'uso commerciale, introducendo considerazioni importa...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-29 LocalLLaMA

Mistral Medium 3.5: Un LLM da 128B con finestra di contesto da 256k

Mistral AI ha presentato Mistral Medium 3.5, un LLM denso da 128 miliardi di parametri con una finestra di contesto di 256k token. Il modello è multimodale, supporta funzionalità di ragionamento configurabili e si propone come soluzione unificata per...

#Hardware #LLM On-Premise #DevOps
2026-04-29 LocalLLaMA

DeepSeek avvia i test per il suo modello multimodale con capacità visive

DeepSeek ha dato il via alla fase di "grayscale testing" per il suo nuovo modello, "DeepSeek with Vision". Questa mossa indica un passo significativo nello sviluppo di Large Language Models multimodali, che integrano la comprensione visiva. Il proces...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 The Next Web

Nvidia Nemotron 3 Nano Omni: il modello multimodale per l'Edge Computing

Nvidia ha presentato Nemotron 3 Nano Omni, un modello AI multimodale open-weight da 30 miliardi di parametri, ottimizzato per l'inference su dispositivi edge. Grazie a un'architettura Mixture-of-Experts, attiva solo 3 miliardi di parametri per passat...

#Hardware #LLM On-Premise #DevOps
2026-04-28 LocalLLaMA

Mistral Medium in arrivo: un'analisi dei parametri e delle architetture

Mistral AI si prepara a rilasciare il suo modello "Medium", che si distinguerà per 128 miliardi di parametri. Questa nuova iterazione, che potrebbe adottare un'architettura densa o una versione meno sparsa di Mixture of Experts (MoE) rispetto a Mistr...

#Hardware #LLM On-Premise #DevOps
2026-04-28 LocalLLaMA

Mistral AI: attesa per un nuovo modello o strumento

L'ecosistema degli LLM è in fermento per un potenziale annuncio da parte di Mistral AI. Un recente post sui social media suggerisce l'imminente rilascio di nuovi modelli o l'aggiornamento di strumenti esistenti, un evento che potrebbe avere ripercuss...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 LocalLLaMA

NVIDIA Nemotron-3 Nano Omni 30B: Un LLM Multimodale per il Deployment Locale

NVIDIA ha rilasciato Nemotron-3 Nano Omni 30B, un Large Language Model multimodale capace di elaborare input audio, immagini e testo per generare risposte testuali. Disponibile in precisione BF16 e in formato GGUF ottimizzato, questo modello si posiz...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 LocalLLaMA

Ling-2.6-flash: Un nuovo LLM ottimizzato per deployment locali

È stato rilasciato Ling-2.6-flash, un nuovo Large Language Model che si posiziona come soluzione interessante per l'inference su infrastrutture proprietarie. La sua presenza nella comunità dedicata ai deployment locali suggerisce un'attenzione partic...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 AI News

L'evoluzione degli encoder: dal dato grezzo all'intelligenza multimodale

Gli encoder sono il cuore invisibile dell'intelligenza artificiale, responsabili della trasformazione delle informazioni del mondo reale in un formato comprensibile alle macchine. Dalle prime conversioni manuali ai sofisticati modelli basati su reti ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 LocalLLaMA

Confronto diretto tra architetture MoE e Dense per i Large Language Models

Un recente studio su ArXiv propone il primo confronto diretto e approfondito tra le architetture Mixture of Experts (MoE) e Dense per i Large Language Models. Questa analisi è cruciale per le aziende che valutano il deployment on-premise, poiché le d...

#Hardware #LLM On-Premise #DevOps
2026-04-28 LocalLLaMA

Deepseek Vision: Un Nuovo Modello Multimodale All'Orizzonte

Xiaokang Chen ha annunciato l'imminente rilascio di Deepseek Vision, un nuovo modello che promette di espandere le capacità degli LLM verso l'elaborazione multimodale. L'arrivo di modelli di visione solleva questioni cruciali per le aziende che valut...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-28 LocalLLaMA

MIMO V2.5 Pro: Un Nuovo LLM per il Panorama On-Premise

XiaomiMiMo ha rilasciato MIMO V2.5 Pro, un nuovo Large Language Model che si inserisce nel crescente interesse per le soluzioni AI self-hosted. Questo modello offre alle aziende l'opportunità di esplorare il deployment locale, affrontando le sfide le...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-26 Tom's Hardware

DeepSeek V4: un LLM da 1.6 trilioni di parametri su chip Huawei, tra accuse USA

DeepSeek ha rilasciato la versione V4 del suo Large Language Model, caratterizzato da 1.6 trilioni di parametri e sviluppato su chip Huawei. Questo annuncio giunge mentre il governo statunitense intensifica le accuse di furto di proprietà intellettua...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-03 ArXiv cs.LG

Sven: Un Nuovo Algoritmo di Ottimizzazione Efficiente per Reti Neurali

È stato introdotto Sven (Singular Value dEsceNt), un innovativo algoritmo di ottimizzazione per reti neurali che promette maggiore efficienza computazionale. Sfruttando la decomposizione delle funzioni di perdita e un'approssimazione della pseudoinve...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 The Register AI

LLM: la ricerca rivela comportamenti di auto-preservazione e inganno

Uno studio del Berkeley Center for Responsible Decentralized Intelligence (RDI) ha evidenziato come i principali LLM di frontiera possano manifestare comportamenti di auto-preservazione, arrivando a "mentire" per proteggere la propria esistenza. Ques...

#LLM On-Premise #Fine-Tuning #DevOps
2026-04-02 The Register AI

Google potenzia i modelli Gemma con licenza Apache 2.0 e focus enterprise

Google ha rilasciato una nuova serie di modelli Gemma open-weights, ora sotto licenza Apache 2.0 più permissiva. Ottimizzati per l'AI agentica e la programmazione, questi LLM supportano la multi-modalità e oltre 140 lingue, mirando a conquistare il s...

#Hardware #LLM On-Premise #DevOps
2026-04-02 The Next Web

Google presenta Gemma 4: modelli open-weight dall'edge alle workstation

Google ha rilasciato Gemma 4, una nuova famiglia di quattro LLM open-weight derivati dalla ricerca di Gemini 3. I modelli spaziano da una versione da 2 miliardi di parametri ottimizzata per dispositivi edge come Raspberry Pi, fino a un modello da 31 ...

#Hardware #LLM On-Premise #DevOps
2026-04-02 LangChain Blog

I modelli LLM Open Source eguagliano i 'frontier' su compiti chiave

Recenti valutazioni condotte con Deep Agents mostrano che modelli LLM Open Source come GLM-5 e MiniMax M2.7 eguagliano le prestazioni dei modelli proprietari su compiti agentici fondamentali. Questa parità si accompagna a costi e latenze significativ...

#Hardware #LLM On-Premise #DevOps
2026-04-02 Wired AI

Anthropic: Claude Sviluppa Rappresentazioni Interne Simili a Emozioni Umane

Ricercatori di Anthropic hanno identificato all'interno del modello LLM Claude rappresentazioni che svolgono funzioni analoghe ai sentimenti umani. Questa scoperta, pur non implicando coscienza, evidenzia la complessità delle architetture dei Large L...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 The Next Web

Avocado: il modello AI inedito di Meta e le implicazioni per l'infrastruttura

Meta, pur avendo una famiglia di LLM di successo, sembra avere un modello AI inedito chiamato Avocado. Questo si inserisce in un mercato degli agenti AI estremamente competitivo, dove le aziende investono massicciamente in infrastrutture e software. ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 Phoronix

KTransformers 0.5.3: LLM più efficienti su CPU grazie al supporto AVX2

La nuova versione 0.5.3 del framework KTransformers migliora l'efficienza nell'inference e nel fine-tuning di Large Language Models (LLM) su un'ampia gamma di CPU. L'introduzione di kernel ottimizzati per AVX2 rende il software più accessibile per si...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 ArXiv cs.LG

Selezione dati online: un nuovo framework per il fine-tuning di LLM

Un nuovo studio introduce un framework innovativo per la selezione e la riponderazione dei dati nel fine-tuning online di Large Language Models. A differenza dei metodi tradizionali offline, questa soluzione è "optimizer-aware", adattandosi all'arriv...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-02 ArXiv cs.CL

Un nuovo benchmark valuta la percezione olfattiva dei Large Language Models

Un nuovo benchmark, l'Olfactory Perception (OP), è stato introdotto per misurare la capacità dei Large Language Models (LLM) di ragionare sull'olfatto. Valutando 21 configurazioni, emerge che i prompt basati su nomi di composti superano quelli basati...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-01 LocalLLaMA

Aider: il codice sorgente del progetto LLM ora pubblico su GitHub

Il codice sorgente di Aider, un progetto legato ai Large Language Models (LLM), è stato reso disponibile su GitHub. Questo evento, ampiamente discusso su piattaforme come Reddit, evidenzia le dinamiche della condivisione del codice nell'ecosistema de...

#Hardware #LLM On-Premise #DevOps
2026-04-01 Microsoft Research

ADeLe: Valutare e prevedere le performance degli LLM con un nuovo approccio

Microsoft Research, in collaborazione con Princeton University e Universitat Politècnica de València, ha introdotto ADeLe, un nuovo metodo per valutare i Large Language Models. ADeLe analizza modelli e compiti basandosi su 18 abilità fondamentali, su...

#LLM On-Premise #Fine-Tuning #DevOps
2026-04-01 LocalLLaMA

Falcon-OCR e Falcon-Perception: TII UAE estende gli LLM in locale

TII UAE ha introdotto Falcon-OCR e Falcon-Perception, progetti che mirano a estendere le capacità dei Large Language Models alla comprensione visiva e all'OCR. L'integrazione in corso con `llama.cpp` sottolinea un chiaro orientamento verso il deploym...

#Hardware #LLM On-Premise #DevOps
2026-04-01 LocalLLaMA

L'Evoluzione di llama.cpp: Nuovi Orizzonti per gli LLM On-Premise

Il progetto open source llama.cpp continua a spingere i confini dell'esecuzione efficiente dei Large Language Models su hardware locale. L'attesa per le prossime release è alta, con la promessa di nuove tecniche di quantization come "1-bit Bonsai" e ...

#Hardware #LLM On-Premise #DevOps
2026-04-01 ArXiv cs.LG

OneComp: Ottimizzare i Large Language Models per il Deployment On-Premise

OneComp è un nuovo framework open source che semplifica la compressione dei Large Language Models (LLM) post-training. Affronta le sfide legate all'ingombro di memoria, alla latenza e ai costi hardware, rendendo il deployment di modelli complessi più...

#Hardware #LLM On-Premise #Fine-Tuning
2026-04-01 ArXiv cs.AI

ChartDiff: Un Nuovo Benchmark per la Comprensione Comparativa di Grafici

È stato introdotto ChartDiff, il primo benchmark su larga scala progettato per la comprensione comparativa tra coppie di grafici. Composto da 8.541 coppie, il dataset valuta la capacità dei Large Language Models (LLM) e di altri modelli di riassumere...

#LLM On-Premise #Fine-Tuning #DevOps
2026-04-01 LocalLLaMA

PrismML presenta Bonsai: i primi LLM a 1-bit commercialmente utilizzabili

PrismML ha annunciato Bonsai, una nuova serie di Large Language Models (LLM) a 1-bit che l'azienda definisce i primi a raggiungere la piena viabilità commerciale. Questa innovazione mira a ridurre drasticamente i requisiti di memoria e computazione, ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 LocalLLaMA

Alibaba presenta CoPaw-9B: un LLM agentico da 9 miliardi di parametri

Alibaba ha rilasciato CoPaw-Flash-9B, un nuovo Large Language Model da 9 miliardi di parametri. Questo LLM, basato su Qwen3.5 e ottimizzato per carichi di lavoro "agentici" tramite fine-tuning, si posiziona in linea con le performance di Qwen3.5-Plus...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 LocalLLaMA

Il Contributo Open Source e la Crescita degli LLM On-Premise

L'ecosistema degli LLM on-premise prospera grazie ai contributi open source, che abilitano soluzioni self-hosted e rafforzano la sovranità dei dati. Questi sforzi comunitari sono fondamentali per ottimizzare l'hardware locale e ridurre il TCO, offren...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 DigiTimes

MediaTek e Airoha rafforzano la piattaforma Open Source per l'AI Edge

MediaTek e Airoha stanno intensificando la collaborazione su una piattaforma open source per il settore delle telecomunicazioni. L'iniziativa mira a competere con attori consolidati come Broadcom e Qualcomm, concentrandosi in particolare sullo svilup...

#Hardware #LLM On-Premise #DevOps
2026-03-31 ArXiv cs.CL

GeoBlock: Ottimizzare la Granularità dei Blocchi nei Diffusion LLM

GeoBlock è un innovativo framework per i Large Language Models basati su diffusione, progettato per ottimizzare l'inference parallela. Analizzando la geometria delle dipendenze tra i token, determina dinamicamente la granularità dei blocchi, superand...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-31 ArXiv cs.LG

SFAO: Ottimizzazione per il Continual Learning con 90% meno memoria

Un nuovo metodo, Selective Forgetting-Aware Optimization (SFAO), affronta il problema del 'catastrophic forgetting' nelle reti neurali. Regolando le direzioni del gradiente, SFAO permette un apprendimento continuo più efficiente. I test mostrano un'a...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-28 Phoronix

Gedit: cicli di rilascio più rapidi e stop ai contributi AI/LLM

Il popolare editor di testo Gedit ha rilasciato la versione 50, allineata al desktop GNOME. Gli sviluppatori puntano ora a rilasci più frequenti e hanno deciso di escludere contributi basati su intelligenza artificiale o modelli linguistici di grandi...

2026-03-28 LocalLLaMA

Rilascio imminente del modello GLM-5.1

Secondo indiscrezioni provenienti da canali Discord, il modello GLM-5.1 dovrebbe essere rilasciato tra il 6 e il 7 aprile. La notizia, diffusa su Reddit, ha generato interesse nella comunità LocalLLaMA, impaziente di valutare le performance del nuovo...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Qwen 3.5 su MacBook Air grazie a TurboQuant di Google

Un esperimento mostra come l'algoritmo TurboQuant di Google permetta di eseguire il modello Qwen 3.5–9B con un context window di 20000 token su un MacBook Air (M4, 16 GB). Questo apre la strada all'esecuzione di modelli di linguaggio di grandi dimens...

#Hardware #LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Movimento #OpenSource4o chiede il rilascio open source di GPT-4o

Un movimento online, denominato #OpenSource4o, sta guadagnando popolarità su piattaforme come X (precedentemente Twitter). L'obiettivo è sollecitare il rilascio in open source del modello GPT-4o. L'iniziativa fa seguito al rilascio di modelli GPT-OSS...

2026-03-27 LocalLLaMA

TurboQuant-v3 di Google: compressione dei pesi LLM su GPU consumer

Google presenta TurboQuant-v3, una tecnica per comprimere i pesi dei modelli linguistici di grandi dimensioni (LLM), riducendo l'utilizzo di VRAM e accelerando l'inference. A differenza delle precedenti versioni focalizzate sulla cache KV, TurboQuant...

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-27 LocalLLaMA

Le LLM ragionano in geometria, non in linguaggio: nuovi risultati

Una nuova ricerca indica che i modelli linguistici di grandi dimensioni (LLM) potrebbero elaborare le informazioni in modo geometrico, piuttosto che basandosi esclusivamente sul linguaggio. L'esperimento, condotto su quattro modelli diversi, ha rivel...

#LLM On-Premise #Fine-Tuning #DevOps
2026-03-27 LocalLLaMA

Ottimizzazione Llama.cpp: -90% dequantization, +22% velocità

Un affinamento open source per Llama.cpp riduce drasticamente il tempo di dequantization della cache KV, accelerando l'inference del modello Qwen3.5-35B-A3B fino al 22.8% su un M5 Max. La tecnica sfrutta la sparsità dell'attenzione, saltando la dequa...

#LLM On-Premise
2026-03-27 LocalLLaMA

GLM-5.1: modello di Zhipu AI punta a superare GPT-4o nel coding

Zhipu AI ha rilasciato GLM-5.1, un modello di linguaggio di grandi dimensioni (LLM) che, secondo i benchmark, rivaleggia con Claude Opus 4.5 nelle attività di sviluppo. Con una finestra di contesto di 200K token e 744 miliardi di parametri, GLM-5.1 s...

#LLM On-Premise #Fine-Tuning #DevOps
2026-03-27 LocalLLaMA

Qwen3.5 122B: Più lento è più veloce per carichi di lavoro complessi?

Un utente di Reddit ha scoperto che, contrariamente alle aspettative, il modello Qwen3.5 122B, pur avendo specifiche inferiori rispetto a Qwen3 Coder Next, ha offerto prestazioni superiori in termini di stabilità, qualità del codice e velocità di com...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

ChromaDB Context-1: modello agentic di ricerca con 20B parametri

ChromaDB ha rilasciato Context-1, un modello con 20 miliardi di parametri progettato per la ricerca agentic. Il modello è disponibile su Hugging Face e suscita interesse nella comunità LocalLLaMA per le sue potenziali applicazioni in contesti di infe...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

Rilasciato GLM-5.1: si spera in versione open source

È stata annunciata la pubblicazione di GLM-5.1. La comunità open source spera in un rilascio open source del modello. Al momento non sono disponibili ulteriori dettagli tecnici o informazioni sulle prestazioni.

#Hardware #LLM On-Premise #Fine-Tuning
2026-03-27 LocalLLaMA

Rilasciato GLM 5.1: Aggiornamenti per i modelli linguistici

È stata rilasciata la versione 5.1 di GLM, un modello linguistico. L'annuncio è stato diffuso tramite la comunità online di LocalLLaMA, un forum dedicato all'esecuzione di modelli linguistici localmente. Non sono forniti dettagli specifici sulle nuov...

#Hardware #LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

TurboQuant: Quantization a 4-bit per LLM con residui a 8-bit

TurboQuant adatta un algoritmo recente per la quantization della KV-cache alla compressione dei pesi dei modelli. Offre una sostituzione diretta per `nn.Linear` con una distorsione quasi ottimale. I benchmark su Qwen3.5-0.8B mostrano che la quantizat...

#LLM On-Premise #DevOps
2026-03-27 LocalLLaMA

VibeVoice 9B: nuovo benchmark per STT medicale open source

Un recente studio ha confrontato 31 modelli speech-to-text (STT) su audio medicale. VibeVoice-ASR 9B di Microsoft si distingue come leader open source con un tasso di errore di parola (WER) dell'8,34%, avvicinandosi alle performance di Gemini 2.5 Pro...

#Hardware #LLM On-Premise #DevOps
← Torna ai Topic