Crescita degli LLM Open Source e Ascesa dell'IA On-Premise

2026-07-03 • LocalLLaMA

DeepSeek V4 Flash su RTX PRO 6000: coding 3x più veloce di Sonnet, qualità simile

Un benchmark indipendente mostra che DeepSeek V4 Flash eseguito in locale su due GPU RTX PRO 6000 con vLLM completa task di coding in circa 2 minuti, contro i 6 minuti di Sonnet 5 via API, con qualità paragonabile. Opus e Fable restano superiori per ...

#Hardware #LLM On-Premise #DevOps

2026-07-03 • LocalLLaMA

DeepSeek V4 Flash con 1M token in locale: la patch open-source per RTX 5090

Uno sviluppatore ha creato una patch CUDA per llama.cpp che permette a DeepSeek V4 Flash di operare con un contesto di un milione di token su una singola RTX 5090, riducendo la VRAM necessaria da circa 256 GB a soli 31 GB e raggiungendo velocità di p...

#Hardware #LLM On-Premise #DevOps

2026-07-02 • LocalLLaMA

Nvidia: l'AGI non arriverà, il futuro sono modelli open source personalizzati per ogni azienda

Un pioniere dell'AI in Nvidia boccia l'AGI e paragona i modelli chiusi di OpenAI e Anthropic ai walled garden di AOL e Prodigy. La scommessa è su LLM aperti e customizzati, con implicazioni profonde per chi gestisce dati sensibili in-house.

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-02 • The Next Web

Anthropic tratta con Samsung per un chip AI su misura

Anthropic ha avviato trattative con Samsung Electronics per la produzione di un chip AI personalizzato. Il progetto è alle fasi iniziali e non sono ancora stati definiti utilizzo, potenza o architettura server. La mossa si inserisce in una tendenza d...

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-02 • LocalLLaMA

Gemma 4 31B addestrata per il copywriting: +290 Elo e niente più frasi fatte

Un fine-tuning mirato trasforma Gemma 4 31B in una macchina per testi pubblicitari. Il modello ottiene 1657 punti Elo, vince l'80% dei confronti e abbandona i fraseggi generici. Pesa 31 miliardi di parametri e si integra con vLLM.

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-02 • LocalLLaMA

vLLM, un fix silenzioso raddoppia la finestra di contesto su una GPU consumer

Un post di gratitudine su Reddit svela un progresso tecnico: le ultime release di vLLM eliminano i bug di allocazione memoria, permettendo a Qwen2.5 7B di operare con 240.000 token su una RTX 5090, contro i 120.000 precedenti. Un esempio di come l’op...

#Hardware #LLM On-Premise #DevOps

2026-07-02 • The Next Web

GLM-5.2: il modello cinese che sfida i big a un costo irrisorio

Z.ai ha rilasciato GLM-5.2, quarto nella classifica dei modelli più performanti, con capacità in coding e agentica vicine ai leader di mercato. Il costo è una frazione di quello di Anthropic o OpenAI, sollevando interrogativi su come questo cambierà ...

#Hardware #LLM On-Premise #DevOps

2026-07-02 • LocalLLaMA

Due RTX 3090 nel Thermaltake Core P3: l’ingegno al servizio dell’inference LLM locale

Un utente mostra come ha installato due RTX 3090 in un case aperto stampando in 3D un supporto per il radiatore. L’assemblaggio, oltre all’effetto scenico, permette di eseguire in locale modelli come Qwen 27B. Per chi valuta deployment on-premise, è ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-01 • 404 Media

Tokenpocalypse: le aziende combattono il costo dei token con LLM che parlano da cavernicoli

L’adozione di modelli di linguaggio su larga scala si scontra con una nuova realtà: la fatturazione per token delle API cloud sta facendo lievitare i costi in modo imprevedibile. Le imprese corrono ai ripari con strumenti che semplificano il linguagg...

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-01 • LocalLLaMA

Il divario prestazionale tra modelli aperti e chiusi potrebbe essere illusorio

Quando Claude batte i rivali aperti nei benchmark, molti attribuiscono il merito ad architetture superiori. Ma dietro l’API potrebbero nascondersi RAG, prompt preprocessing e altri componenti non dichiarati che gonfiano le performance del prodotto fi...

#LLM On-Premise #Fine-Tuning #DevOps

2026-07-01 • LocalLLaMA

Giugno 2026: NVIDIA, AMD e Intel guidano la spinta alla quantization per LLM on-premise

Il mese dei modelli aperti vede meno uscite ma grande qualità: NVIDIA, AMD e Intel rilasciano formati di quantization avanzati come NVFP4, MXFP4 e AutoRound. Dalla community arrivano fine-tune specializzati mentre DeepSeek presenta DeepSpec. Ecco per...

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-01 • LocalLLaMA

Ascend GX10 o DGX Spark: la scommessa dell'inference locale

Un utente valuta l'acquisto di quattro GPU Ascend GX10 per eseguire modelli open-source con finestre di contesto a 128k token. I test con GLM5.2 mostrano circa 15 tok/s in output, sufficienti con quantization, e consumo di 1000W. Una scelta che riacc...

#Hardware #LLM On-Premise #DevOps

2026-07-01 • DigiTimes

Anthropic lancia Sonnet 5: quasi Opus a -60% di costi, revocato il divieto export

Anthropic ha rilasciato Sonnet 5, un LLM che raggiunge performance vicine a Opus ma con un taglio dei costi operativi del 60%. La novità coincide con la rimozione di un divieto all’esportazione, allargandone la platea. Per chi guarda al deployment on...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-30 • Wired AI

Trump allenta i controlli sull’export per i modelli AI Mythos e Fable di Anthropic

Dopo settimane di blocco per i cittadini stranieri, l’amministrazione americana rimuove le restrizioni sui modelli più avanzati di Anthropic. La mossa segnala l’imprevedibilità delle politiche di export tech e può ridefinire le strategie di deploymen...

#Hardware #LLM On-Premise #DevOps

2026-06-30 • The Next Web

Anthropic lancia Claude Sonnet 5: agentività avanzata a costi ridotti

Anthropic ha rilasciato Claude Sonnet 5, un LLM mid-tier progettato per l'agentività, capace di operare in modo simile al modello flagship Opus 4.8 ma con costi inferiori della metà. Questa offerta mira a ridefinire il rapporto tra performance e TCO ...

#Hardware #LLM On-Premise #DevOps

2026-06-30 • Anthropic News

Anthropic lancia Claude Sonnet 5: nuove sfide per i deployment on-premise

Anthropic ha annunciato Claude Sonnet 5, l'ultima iterazione della sua famiglia di Large Language Models. Questo rilascio solleva interrogativi cruciali per le aziende che valutano strategie di deployment self-hosted, ponendo l'accento su requisiti h...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-30 • LocalLLaMA

Bartowski Rilascia DeepSeek-V4-Flash in Formato GGUF per Deployment Locali

Bartowski ha reso disponibile su Hugging Face una versione del Large Language Model DeepSeek-V4-Flash nel formato GGUF. Questa release è significativa per chi cerca soluzioni di Inference on-premise, abilitando l'esecuzione efficiente del modello su ...

#Hardware #LLM On-Premise #DevOps

2026-06-30 • Phoronix

AMD accelera sull’AI locale: GAIA, Lemonade e il futuro delle LLM on-prem

Nel secondo trimestre 2026 AMD ha concentrato gli sforzi sul fronte locale: dai nuovi progressi di GAIA, capace di interagire con Gmail tramite pipeline LLM self-hosted, a Lemonade SDK ridotto del 90%, fino all’arrivo di ROCm nei repository Ubuntu. I...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-30 • LocalLLaMA

NVIDIA rilascia Qwen3.6-27B-NVFP4: ottimizzazione per l'inference locale

NVIDIA ha reso disponibile su Hugging Face il modello Qwen3.6-27B ottimizzato con Quantization NVFP4. Questa mossa sottolinea l'impegno verso l'efficienza nell'inference di Large Language Models, riducendo i requisiti di VRAM e migliorando il through...

#Hardware #LLM On-Premise #DevOps

2026-06-30 • ArXiv cs.AI

Agenti LLM auto-evolventi: RSEA e la stabilità delle strategie on-premise

Un nuovo studio introduce RSEA, un agente LLM ricorsivo auto-evolvente che migliora le proprie strategie, skill e playbook tramite un meccanismo di selezione rigoroso. Valutato su un'infrastruttura locale condivisa, RSEA dimostra come un'evoluzione c...

#LLM On-Premise #DevOps

2026-06-29 • LocalLLaMA

DeepSeek V4 atterra su llama.cpp: ora gira in locale

Una pull request della community aggiunge il supporto a DeepSeek V4 in llama.cpp, abilitando l'inference on-premise e su hardware consumer. Si apre una nuova fase per il deployment privato del modello.

#Hardware #LLM On-Premise #DevOps

2026-06-29 • ArXiv cs.CL

Perché il machine unlearning negli LLM è un termine abusato: serve rigore per il deployment reale

Un nuovo articolo di posizione critica l'uso inflazionato del termine 'machine unlearning' nella ricerca sugli LLM, sostenendo che andrebbe riservato alla cancellazione di dati specifici dal training, con garanzie equivalenti al riaddestramento senza...

#LLM On-Premise #Fine-Tuning #DevOps

2026-06-29 • ArXiv cs.AI

Agenti LLM con lungimiranza: il training a tre stadi per simulare il futuro

Un approccio unificato inietta capacità predittive negli agenti linguistici, superando la semplice mimica testuale. Ricercatori affrontano il gap formato-capacità con un training sequenziale che include mid-training per la predizione latente, SFT str...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-29 • ArXiv cs.AI

Personalità degli agenti LLM: quando serve una squadra affiatata?

Una nuova ricerca indaga se la personalità assegnata via prompt agli agenti LLM influenzi i risultati dei compiti in team multi-agente. In tre ambiti – codice, collaborazione aperta e negoziazione – l’effetto cambia radicalmente. Scopri cosa signific...

#LLM On-Premise #Fine-Tuning

2026-06-29 • Tech in Asia

DeepSeek accelera l’inference con DSpark: fino all’85% di risposte più rapide

Il framework DSpark di DeepSeek sfrutta il speculative decoding per ridurre la latenza delle risposte dei LLM fino all’85%. Una tecnica che promette vantaggi per chi gestisce inference on-premise, ma con trade-off in risorse e complessità.

#Hardware #LLM On-Premise #DevOps

2026-06-29 • LocalLLaMA

Modello 800M trasforma immagini in personaggi giocabili, tutto in esecuzione locale

Un ricercatore ha rilasciato la versione da 800 milioni di parametri del suo modello di diffusione causale per la generazione di personaggi controllabili. L'esecuzione avviene interamente in locale su GPU consumer, con la variante da 500M che supera ...

#Hardware #LLM On-Premise #DevOps

2026-06-28 • LocalLLaMA

Motore NPC locale con LLM leggeri: la scommessa on-premise per gli RPG del futuro

Un backend NPC game-agnostic gira interamente in locale grazie a STT NVIDIA Parakeet, all’LLM Gemma 4 26B e alla sintesi vocale Qwen3-TTS. L’ingrediente segreto è il RAG: inietta solo le azioni contestualmente sensate, mantenendo i prompt snelli e le...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-28 • LocalLLaMA

L’invasione dei modelli trash su HuggingFace: cosa ci dice sul mercato AI

Sempre più modelli fine-tuned su HuggingFace non reggono il confronto con il base. È solo un problema di curriculum padding o c’è dell’altro? L’analisi di AI-RADAR mette in guardia chi valuta LLM per deployment on-premise: la selezione è critica e il...

#LLM On-Premise #Fine-Tuning #DevOps

2026-06-28 • LocalLLaMA

Ornith-1.0-35B GGUF: il graft MTP nativo accelera il decoding locale del 35%

Un aggiornamento sperimentale per Ornith-1.0-35B introduce un decoding speculativo nativo MTP che su singola GPU con llama.cpp porta la velocità a 233.8 token/s (+35%), con distribuzione del token successivo byte-identica al modello originale. Pubbli...

#Hardware #LLM On-Premise

2026-06-28 • LocalLLaMA

Cina raggiunge Anthropic nella cybersecurity: la corsa all’AI si riavvia

La notizia che la Cina ha eguagliato le capacità di cybersecurity di Anthropic ridisegna gli equilibri della competizione globale sull’intelligenza artificiale. Per chi gestisce LLM on-premise, dove sovranità dei dati e controllo degli accessi sono i...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-28 • LocalLLaMA

Llama.cpp adotta DFlash: attenzione ottimizzata per l'inference locale

Il progetto llama.cpp ha integrato il supporto per DFlash, una nuova variante del meccanismo di attenzione pensata per ridurre l’uso di VRAM e accelerare l’esecuzione di Large Language Models su hardware consumer. L’aggiornamento rafforza le capacità...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-28 • LocalLLaMA

Model Registry: i modelli open viaggiano su torrent, Hugging Face fa da riserva

Un nuovo progetto sfrutta file torrent e web seeding per distribuire Large Language Models open source, con Hugging Face come fonte di fallback. L'iniziativa punta a ridurre la dipendenza da CDN centralizzati e abilita scenari di download più resilie...

#Hardware #LLM On-Premise #DevOps

2026-06-27 • LocalLLaMA

Modelli open source cinesi: l'unica via d'uscita per l'on-premise?

Un dibattito su Reddit, ripreso da AI-RADAR, mette in guardia: la strategia delle big tech USA di trattenere modelli avanzati potrebbe aprire un varco inaspettato per gli LLM cinesi open source. Per le aziende che puntano su deployment on-premise e s...

#LLM On-Premise #Fine-Tuning #DevOps

2026-06-27 • LocalLLaMA

SpectralQuant riduce il gap della quantization Q4_K_M al 96.5%: un salto per i modelli locali

Spectral Labs ha rilasciato una quantization Q4_K_M di Qwen3.5 0.8B con un nuovo metodo calibrato che recupera il 96.5% del divario qualitativo rispetto al BF16, restando identica per dimensioni e compatibilità con llama.cpp. Un risultato che ridiseg...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-27 • TechCrunch AI

Startup asiatiche lanciano modelli AI 'Mythos-like' sfidando l'export ban USA

Nell'ombra delle restrizioni all'esportazione di tecnicie AI imposte dagli Stati Uniti, startup asiatiche stanno rilasciando modelli con capacità paragonabili a Mythos. Il divieto, che coinvolge Anthropic, sta spingendo lo sviluppo di alternative loc...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-27 • LocalLLaMA

Orthrus porta la testa a diffusione su Qwen 3.5/3.6 e Gemma 4: codice open source in arrivo

I modelli Orthrus con head a diffusione stanno per atterrare su Hugging Face, accompagnati dal codice completo di training e evaluation. Una combinazione che può cambiare le carte per chi cerca controllo e sovranità nel self-hosting di LLM, rendendo ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-27 • LocalLLaMA

Meno sincronizzazioni CUDA in llama.cpp: guadagni prestazionali per l'inference on-prem

Un nuovo commit nel progetto llama.cpp reintroduce una gestione asincrona più aggressiva per i backend CUDA, riducendo le sincronizzazioni tra token e velocizzando la copia dei dati da CPU a GPU. L'ottimizzazione, pensata per migliorare il throughput...

#Hardware #LLM On-Premise #DevOps

2026-06-27 • LocalLLaMA

Fine-tuning Qwen: perché i modelli ottimizzati faticano a convincere

Nonostante la popolarità del fine-tuning sui modelli Qwen, mancano riscontri concreti su versioni realmente superiori alla base. Un’indagine sulle possibili cause tecniche e sulle implicazioni per chi valuta deployment on-premise, dove l’adattamento ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-27 • LocalLLaMA

DeepSeek-V4-Pro-DSpark: il nuovo LLM open source che guarda al deployment locale

DeepSeek pubblica su Hugging Face il modello V4-Pro-DSpark e il paper tecnico DSpark. Un rilascio che alimenta la strategia di chi punta su LLM self-hosted e sovranità dei dati, riducendo la dipendenza dal cloud.

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-27 • LocalLLaMA

Ornith-1.0-35B Q3_K_M: 17 GB di VRAM e benchmark verde, la quantization estrema regge

Il modello Ornith-1.0-35B è stato quantizzato a Q3_K_M, scendendo a 16.8 GB su disco e ~17 GiB di VRAM caricata. Verificato con metriche KL divergence e comportamento 14/14, cede solo 16 punti di accordo top-1 rispetto a Q6_K ma dimezza la memoria ne...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-26 • LocalLLaMA

llama.cpp: il tensor parallelism su Vulkan ora è alla portata di tutti

La pull request #25051 firmata da Piotr ‘pwilkin’ rende finalmente utilizzabile il parallelismo tensore su backend Vulkan in llama.cpp. Un passo concreto per l’inference di LLM su GPU non NVIDIA, che allarga gli scenari di deployment self-hosted e on...

#Hardware #LLM On-Premise #DevOps

2026-06-26 • LocalLLaMA

Un veterano del software costruisce un harness locale per LLM e chiede alla community: cosa serve?

Un developer con 45 anni di esperienza in tooling enterprise sta per rilasciare un harness open source pensato per semplificare il deployment locale dei Large Language Models. Il progetto, local-first e con logica multi-agente, punta a colmare le lac...

#Hardware #LLM On-Premise #DevOps

2026-06-26 • LocalLLaMA

LLM on-premise: il workflow che vorresti aver scoperto prima

Un thread su Reddit chiede quale flusso di lavoro per LLM locali abbia fatto la differenza. Emerge che il valore non sta nei modelli ma nelle pipeline: RAG, coding agent, indicizzazione. Per chi valuta deployment on-premise, è l'occasione per ripensa...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-26 • TechCrunch AI

OpenAI sforna Jalapeño: custom chip con Broadcom, cresce la corsa contro la dipendenza da Nvidia

OpenAI entra nella mischia dei chip custom con Jalapeño, sviluppato con Broadcom per l'inference. Apple, Google e SpaceX avevano già aperto la strada. La mossa segnala una svolta: anche le aziende che fanno LLM ora vogliono hardware su misura, riduce...

#Hardware #LLM On-Premise #DevOps

2026-06-26 • LocalLLaMA

Se non hai una GPU da data center: strategie per LLM locali senza supercomputer

La corsa ai Large Language Models on-premise si scontra spesso con un vincolo concreto: la disponibilità di GPU professionali. Lavorare senza hardware da data center, sfruttando schede consumer, CPU e quantization aggressiva, richiede una consapevole...

#Hardware #LLM On-Premise #Fine-Tuning

Crescita degli LLM Open Source e Ascesa dell'IA On-Premise

Articoli Correlati