Topic / Trend Rising

Crescita degli LLM Open Source e Ascesa dell'IA On-Premise

Un'ondata di potenti modelli open source sfida i giganti proprietari, mentre le tecniche di quantization e i motori di inference ottimizzati consentono il deployment locale su hardware consumer. Il passaggio all'IA self-hosted è spinto da sovranità dei dati, costi e controllo.

Detected: 2026-07-03 · Updated: 2026-07-03

Articoli Correlati

2026-07-03 LocalLLaMA

DeepSeek V4 Flash con 1M token in locale: la patch open-source per RTX 5090

Uno sviluppatore ha creato una patch CUDA per llama.cpp che permette a DeepSeek V4 Flash di operare con un contesto di un milione di token su una singola RTX 5090, riducendo la VRAM necessaria da circa 256 GB a soli 31 GB e raggiungendo velocità di p...

#Hardware #LLM On-Premise #DevOps
2026-07-02 The Next Web

Anthropic tratta con Samsung per un chip AI su misura

Anthropic ha avviato trattative con Samsung Electronics per la produzione di un chip AI personalizzato. Il progetto è alle fasi iniziali e non sono ancora stati definiti utilizzo, potenza o architettura server. La mossa si inserisce in una tendenza d...

#Hardware #LLM On-Premise #Fine-Tuning
2026-07-02 LocalLLaMA

vLLM, un fix silenzioso raddoppia la finestra di contesto su una GPU consumer

Un post di gratitudine su Reddit svela un progresso tecnico: le ultime release di vLLM eliminano i bug di allocazione memoria, permettendo a Qwen2.5 7B di operare con 240.000 token su una RTX 5090, contro i 120.000 precedenti. Un esempio di come l’op...

#Hardware #LLM On-Premise #DevOps
2026-07-02 The Next Web

GLM-5.2: il modello cinese che sfida i big a un costo irrisorio

Z.ai ha rilasciato GLM-5.2, quarto nella classifica dei modelli più performanti, con capacità in coding e agentica vicine ai leader di mercato. Il costo è una frazione di quello di Anthropic o OpenAI, sollevando interrogativi su come questo cambierà ...

#Hardware #LLM On-Premise #DevOps
2026-07-01 LocalLLaMA

Ascend GX10 o DGX Spark: la scommessa dell'inference locale

Un utente valuta l'acquisto di quattro GPU Ascend GX10 per eseguire modelli open-source con finestre di contesto a 128k token. I test con GLM5.2 mostrano circa 15 tok/s in output, sufficienti con quantization, e consumo di 1000W. Una scelta che riacc...

#Hardware #LLM On-Premise #DevOps
2026-06-30 The Next Web

Anthropic lancia Claude Sonnet 5: agentività avanzata a costi ridotti

Anthropic ha rilasciato Claude Sonnet 5, un LLM mid-tier progettato per l'agentività, capace di operare in modo simile al modello flagship Opus 4.8 ma con costi inferiori della metà. Questa offerta mira a ridefinire il rapporto tra performance e TCO ...

#Hardware #LLM On-Premise #DevOps
2026-06-30 Anthropic News

Anthropic lancia Claude Sonnet 5: nuove sfide per i deployment on-premise

Anthropic ha annunciato Claude Sonnet 5, l'ultima iterazione della sua famiglia di Large Language Models. Questo rilascio solleva interrogativi cruciali per le aziende che valutano strategie di deployment self-hosted, ponendo l'accento su requisiti h...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-30 LocalLLaMA

Bartowski Rilascia DeepSeek-V4-Flash in Formato GGUF per Deployment Locali

Bartowski ha reso disponibile su Hugging Face una versione del Large Language Model DeepSeek-V4-Flash nel formato GGUF. Questa release è significativa per chi cerca soluzioni di Inference on-premise, abilitando l'esecuzione efficiente del modello su ...

#Hardware #LLM On-Premise #DevOps
2026-06-30 Phoronix

AMD accelera sull’AI locale: GAIA, Lemonade e il futuro delle LLM on-prem

Nel secondo trimestre 2026 AMD ha concentrato gli sforzi sul fronte locale: dai nuovi progressi di GAIA, capace di interagire con Gmail tramite pipeline LLM self-hosted, a Lemonade SDK ridotto del 90%, fino all’arrivo di ROCm nei repository Ubuntu. I...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-30 LocalLLaMA

NVIDIA rilascia Qwen3.6-27B-NVFP4: ottimizzazione per l'inference locale

NVIDIA ha reso disponibile su Hugging Face il modello Qwen3.6-27B ottimizzato con Quantization NVFP4. Questa mossa sottolinea l'impegno verso l'efficienza nell'inference di Large Language Models, riducendo i requisiti di VRAM e migliorando il through...

#Hardware #LLM On-Premise #DevOps
2026-06-30 ArXiv cs.AI

Agenti LLM auto-evolventi: RSEA e la stabilità delle strategie on-premise

Un nuovo studio introduce RSEA, un agente LLM ricorsivo auto-evolvente che migliora le proprie strategie, skill e playbook tramite un meccanismo di selezione rigoroso. Valutato su un'infrastruttura locale condivisa, RSEA dimostra come un'evoluzione c...

#LLM On-Premise #DevOps
2026-06-29 LocalLLaMA

DeepSeek V4 atterra su llama.cpp: ora gira in locale

Una pull request della community aggiunge il supporto a DeepSeek V4 in llama.cpp, abilitando l'inference on-premise e su hardware consumer. Si apre una nuova fase per il deployment privato del modello.

#Hardware #LLM On-Premise #DevOps
2026-06-29 ArXiv cs.AI

Agenti LLM con lungimiranza: il training a tre stadi per simulare il futuro

Un approccio unificato inietta capacità predittive negli agenti linguistici, superando la semplice mimica testuale. Ricercatori affrontano il gap formato-capacità con un training sequenziale che include mid-training per la predizione latente, SFT str...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-29 ArXiv cs.AI

Personalità degli agenti LLM: quando serve una squadra affiatata?

Una nuova ricerca indaga se la personalità assegnata via prompt agli agenti LLM influenzi i risultati dei compiti in team multi-agente. In tre ambiti – codice, collaborazione aperta e negoziazione – l’effetto cambia radicalmente. Scopri cosa signific...

#LLM On-Premise #Fine-Tuning
2026-06-28 LocalLLaMA

L’invasione dei modelli trash su HuggingFace: cosa ci dice sul mercato AI

Sempre più modelli fine-tuned su HuggingFace non reggono il confronto con il base. È solo un problema di curriculum padding o c’è dell’altro? L’analisi di AI-RADAR mette in guardia chi valuta LLM per deployment on-premise: la selezione è critica e il...

#LLM On-Premise #Fine-Tuning #DevOps
2026-06-28 LocalLLaMA

Cina raggiunge Anthropic nella cybersecurity: la corsa all’AI si riavvia

La notizia che la Cina ha eguagliato le capacità di cybersecurity di Anthropic ridisegna gli equilibri della competizione globale sull’intelligenza artificiale. Per chi gestisce LLM on-premise, dove sovranità dei dati e controllo degli accessi sono i...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-28 LocalLLaMA

Llama.cpp adotta DFlash: attenzione ottimizzata per l'inference locale

Il progetto llama.cpp ha integrato il supporto per DFlash, una nuova variante del meccanismo di attenzione pensata per ridurre l’uso di VRAM e accelerare l’esecuzione di Large Language Models su hardware consumer. L’aggiornamento rafforza le capacità...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-27 LocalLLaMA

Modelli open source cinesi: l'unica via d'uscita per l'on-premise?

Un dibattito su Reddit, ripreso da AI-RADAR, mette in guardia: la strategia delle big tech USA di trattenere modelli avanzati potrebbe aprire un varco inaspettato per gli LLM cinesi open source. Per le aziende che puntano su deployment on-premise e s...

#LLM On-Premise #Fine-Tuning #DevOps
2026-06-27 TechCrunch AI

Startup asiatiche lanciano modelli AI 'Mythos-like' sfidando l'export ban USA

Nell'ombra delle restrizioni all'esportazione di tecnicie AI imposte dagli Stati Uniti, startup asiatiche stanno rilasciando modelli con capacità paragonabili a Mythos. Il divieto, che coinvolge Anthropic, sta spingendo lo sviluppo di alternative loc...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-27 LocalLLaMA

Fine-tuning Qwen: perché i modelli ottimizzati faticano a convincere

Nonostante la popolarità del fine-tuning sui modelli Qwen, mancano riscontri concreti su versioni realmente superiori alla base. Un’indagine sulle possibili cause tecniche e sulle implicazioni per chi valuta deployment on-premise, dove l’adattamento ...

#Hardware #LLM On-Premise #Fine-Tuning
2026-06-26 LocalLLaMA

llama.cpp: il tensor parallelism su Vulkan ora è alla portata di tutti

La pull request #25051 firmata da Piotr ‘pwilkin’ rende finalmente utilizzabile il parallelismo tensore su backend Vulkan in llama.cpp. Un passo concreto per l’inference di LLM su GPU non NVIDIA, che allarga gli scenari di deployment self-hosted e on...

#Hardware #LLM On-Premise #DevOps
2026-06-26 LocalLLaMA

LLM on-premise: il workflow che vorresti aver scoperto prima

Un thread su Reddit chiede quale flusso di lavoro per LLM locali abbia fatto la differenza. Emerge che il valore non sta nei modelli ma nelle pipeline: RAG, coding agent, indicizzazione. Per chi valuta deployment on-premise, è l'occasione per ripensa...

#Hardware #LLM On-Premise #Fine-Tuning
← Torna ai Topic