Progressi nell'Ecosistema Open Source e Linux

2026-05-15 • LocalLLaMA

GPU moddate dalla Cina: la ricerca di VRAM extra per LLM on-premise

Nel panorama dell'AI on-premise, emerge un interesse crescente per le GPU modificate provenienti dalla Cina, come le varianti della RTX 4090 con 48GB di VRAM. Nonostante l'attrattiva di una maggiore memoria per i Large Language Models, la carenza di ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-15 • LocalLLaMA

MiniMax M2.7: Un LLM "Uncensored" per Deployment On-Premise

Il modello MiniMax M2.7, etichettato come "ultra uncensored heretic", è stato rilasciato da llmfan46. Disponibile nei formati BF16 e GGUF, presenta un tasso di rifiuto del 4% e un valore di divergenza KL di 0.0452. La sua disponibilità in GGUF lo ren...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Un aggiornamento per llama.cpp ottimizza Flash Attention su architettura RDNA3

`llama.cpp` ha rilasciato la versione `b9158`, introducendo un'importante ottimizzazione per Flash Attention specificamente mirata all'architettura GPU RDNA3 di AMD. Questo aggiornamento promette di migliorare significativamente le performance e l'ef...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • LocalLLaMA

Qwen3.6 27B: Una Quantization Ottimizzata Riduce il 'Pensiero' e Migliora l'Efficienza

Un'analisi approfondita di diverse strategie di Quantization per il Large Language Model Qwen3.6 27B rivela che alcune configurazioni specifiche possono ridurre significativamente il numero di Token generati per il ragionamento, migliorando l'efficie...

#Hardware #LLM On-Premise #DevOps

2026-05-15 • Phoronix

Nuova vulnerabilità nel kernel Linux: rischio accesso a file di root

Una nuova vulnerabilità, denominata 'ssh-keysign-pwn', è stata scoperta nel kernel Linux. Questa falla permette a utenti non privilegiati di leggere file di proprietà dell'utente root, sollevando serie preoccupazioni per la sicurezza e la riservatezz...

#LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

Quantization del KV-cache per LLM: uno studio compara FP8 e TurboQuant

Un recente studio ha esaminato diverse tecniche di quantization per il KV-cache degli LLM, confrontando FP8 e le varianti di TurboQuant. I risultati indicano che FP8 offre un raddoppio della capacità del KV-cache con minima perdita di accuratezza e b...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • TechCrunch AI

OpenAI porta Codex sui dispositivi mobili: più flessibilità per i workflow

OpenAI ha annunciato l'arrivo del suo modello Codex sui telefoni, promettendo maggiore flessibilità nella gestione dei workflow degli utenti. Questa mossa segna un passo significativo verso l'inference AI sull'edge, spostando la potenza di calcolo pi...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • OpenAI Blog

Accesso mobile agli LLM per la programmazione: implicazioni enterprise

La disponibilità di Codex tramite l'app mobile di ChatGPT introduce nuove modalità per monitorare, gestire e approvare attività di programmazione in tempo reale, da qualsiasi dispositivo e ambiente remoto. Questa evoluzione solleva interrogativi cruc...

#LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

VS Code: la "Agents window" abilita LLM locali, ma con dipendenze cloud

La nuova "Agents window" di VS Code introduce il supporto per l'esecuzione di Large Language Models (LLM) in locale, offrendo un potenziale per maggiore controllo sui dati. Tuttavia, questa funzionalità richiede ancora una connessione a Internet e un...

#LLM On-Premise #DevOps

2026-05-14 • Phoronix

AMD: progressi nell'abilitazione Linux per la NPU AIE4 di prossima generazione

AMD sta compiendo passi significativi nell'integrazione della sua piattaforma NPU AIE4 di prossima generazione all'interno del kernel Linux, attraverso l'acceleratore AMDXDNA. Gli ingegneri software dell'azienda lavorano da marzo a queste patch, fond...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

Il dilemma dei Large Language Models locali: il futuro è finzione?

Molti Large Language Models (LLM) esibiscono una tendenza a considerare come "fittizie" o "satiriche" informazioni che vanno oltre la loro data di cutoff della conoscenza, anche quando dotati di strumenti di ricerca. Questo comportamento, spesso attr...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-14 • Phoronix

Cache Aware Scheduling di Intel: l'ottimizzazione per CPU si avvicina al kernel Linux

Il lavoro di Intel sul Cache Aware Scheduling per il kernel Linux sta raggiungendo una fase cruciale, con le patch che si avvicinano all'integrazione nella linea principale. Questa tecnicia, sviluppata dagli ingegneri Intel e testata con successo su ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-14 • Phoronix

Aggiornamento driver AMDGPU: Linux 7.2 si prepara per HDMI 2.1 FRL

Una nuova "pull request" per i driver AMDGPU/AMDKFD è stata inviata per l'integrazione nel kernel Linux 7.2, specificamente nell'area di "staging" DRM-Next. Questo aggiornamento cruciale introduce gli "header" dei registri FRL (Fixed Rate Link), un p...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • LocalLLaMA

LLM locali come base di conoscenza personale: sfide e prospettive per il deployment on-premise

L'interesse verso l'utilizzo di Large Language Models (LLM) locali per la gestione di basi di conoscenza personali e private sta crescendo, ma gli utenti si scontrano con significative sfide tecniche. Dalla scelta del modello e della Quantization all...

#Hardware #LLM On-Premise #DevOps

2026-05-14 • Phoronix

Supporto Open Source per Arm Mali G1-Pro: Nuove Opportunità per l'Edge AI

I driver Open Source PanVK Vulkan e Panfrost Gallium3D ora supportano la GPU Arm Mali G1-Pro e l'hardware v14. Questo sviluppo è cruciale per il deployment di soluzioni AI su dispositivi edge, offrendo maggiore controllo, efficienza energetica e ridu...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-14 • Phoronix

Valve estende il supporto driver open source per le GPU AMD GCN più datate

Timur Kristóf di Valve continua a migliorare i driver grafici open source Linux per le schede AMD GCN 1.0/1.1. L'ultima novità introduce il supporto per i DRM format modifiers, prolungando la vita utile di hardware come la serie Radeon HD 7000 e offr...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • Phoronix

Fragnesia: Nuova vulnerabilità di escalation dei privilegi nel kernel Linux

È stata resa pubblica Fragnesia, una nuova vulnerabilità di escalation dei privilegi locali (LPE) che interessa il kernel Linux. Simile alla recente "Dirty Frag", questa scoperta sottolinea l'importanza della sicurezza a livello di sistema operativo,...

#LLM On-Premise #Fine-Tuning #DevOps

2026-05-13 • LocalLLaMA

llama.cpp: Docker e modelli MTP per l'inference LLM on-premise

Nuove immagini Docker per llama.cpp semplificano il deployment di modelli Multi-Token Prediction (MTP) su infrastrutture locali. La community ha rilasciato versioni compatibili con diverse architetture hardware, da CUDA a ROCm, affrontando le sfide d...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-13 • Phoronix

GCC 16 migliora le performance dei binari, sfida aperta con LLVM Clang

La recente versione 16.1 del GNU Compiler Collection (GCC) ha mostrato significativi miglioramenti nelle performance dei binari rispetto alla precedente versione 15. Questi progressi, verificati su hardware e configurazioni identiche, pongono GCC 16 ...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • LocalLLaMA

TextGen: L'App Desktop Open Source per LLM Locali, con Focus su Privacy e Controllo

TextGen, un'alternativa open source a LM Studio, si evolve in un'applicazione desktop nativa e portatile per Windows, Linux e macOS. Il progetto, sviluppato da oobabooga, enfatizza la privacy con zero richieste esterne e offre supporto per diverse ar...

#Hardware #LLM On-Premise #DevOps

2026-05-13 • LocalLLaMA

`llama.cpp` abilita la generazione continua per LLM su server e Web UI

Un recente aggiornamento per `llama.cpp` introduce il supporto per la generazione continua di testo sui Large Language Models (LLM) tramite le sue interfacce server e Web UI. Questa funzionalità migliora l'interazione con i modelli di ragionamento, o...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • Phoronix

FreeBSD 15.2: L'Installazione Desktop KDE Punta alla Semplicità

Il progetto FreeBSD continua a lavorare per offrire un'opzione di installazione dell'ambiente desktop KDE direttamente dall'installer testuale. Inizialmente prevista per la versione 15.0 e poi rimandata alla 15.1, questa funzionalità è ora attesa per...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

Replicare Claude in locale: un progetto open source per gli LLM on-premise

Un utente ha condiviso un progetto open source, denominato "nanoclaude", che mira a replicare l'architettura di un Large Language Model come Claude per l'esecuzione in ambienti locali. L'iniziativa, presentata su r/LocalLLaMA, offre risorse video e c...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • LocalLLaMA

llama.cpp introduce llama-eval: la valutazione locale dei modelli diventa realtà

Il progetto Open Source llama.cpp ha integrato un nuovo strumento, llama-eval, che abilita la valutazione locale dei Large Language Models. Questa funzionalità è cruciale per gli specialisti IT che desiderano confrontare modelli quantizzati e sottopo...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-12 • Phoronix

Haiku OS: Il supporto ARM64 SMP debutta, aprendo nuove prospettive

Il sistema operativo open source Haiku, erede spirituale di BeOS, ha raggiunto un traguardo significativo con l'introduzione del supporto SMP multi-core per architetture ARM64. Questa funzionalità, già operativa in ambienti virtualizzati, segna un pa...

#Hardware #LLM On-Premise #DevOps

2026-05-12 • Phoronix

Driver Open Source Radeon R300-R500: Ristrutturazione del Codice in Arrivo nel 2026

Il driver open source "R300g" per le GPU ATI (AMD) Radeon delle serie R300 e R500, risalenti a oltre due decenni fa, riceverà una significativa ristrutturazione del codice nel 2026. Questo sforzo, guidato da un singolo sviluppatore della comunità, so...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • Phoronix

AMD potenzia il driver Linux AMDGPU con HDMI 2.1 e DSC

AMD ha rilasciato aggiornamenti significativi per il driver kernel AMDGPU su Linux, introducendo il supporto per HDMI 2.1 Fixed Rate Link (FRL) e Display Stream Compression (DSC). Questi miglioramenti consentono risoluzioni e frequenze di aggiornamen...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • LocalLLaMA

Unsloth ottimizza i modelli Qwen per deployment LLM locali in formato GGUF

Unsloth ha reso disponibili versioni ottimizzate dei Large Language Models Qwen 3.6-27B e 3.6-35B nel formato GGUF. Questa iniziativa, emersa dalla comunità LocalLLaMA, facilita il deployment di LLM su infrastrutture self-hosted, offrendo ai decision...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

I modelli GGUF su Hugging Face raddoppiano: un segnale per l'on-premise

I caricamenti di modelli LLM in formato GGUF su Hugging Face sono quasi raddoppiati in soli due mesi, come evidenziato da osservatori del settore. Questa crescita rapida sottolinea il crescente interesse e la fattibilità dell'esecuzione di Large Lang...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

TextWeb: un renderer Markdown per LLM on-premise e agenti AI

Uno sviluppatore ha presentato TextWeb, un renderer web che converte le pagine in formato Markdown per l'elaborazione nativa da parte degli LLM. Questo approccio evita l'uso di costosi screenshot e modelli di visione, offrendo una soluzione più effic...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • Phoronix

Linux 7.2 introduce nuove opzioni di gestione energetica per AMD Ryzen AI e Intel NPU

La prossima versione del kernel Linux, la 7.2, integrerà nuove funzionalità di controllo della gestione energetica per i driver AMD Ryzen AI e Intel NPU. Queste ottimizzazioni, parte del `drm-misc-next` pull request, mirano a migliorare l'efficienza ...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • Phoronix

Linux 7.0.6: Un Aggiornamento Critico per la Sicurezza dell'Framework On-Premise

La versione stabile del kernel Linux 7.0.6 è stata rilasciata per completare la mitigazione della vulnerabilità "Dirty Frag", divulgata pubblicamente la scorsa settimana. Questo aggiornamento sottolinea l'importanza della sicurezza a livello di siste...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-11 • LocalLLaMA

MiMo-V2.5-GGUF su Hugging Face: le sfide del deployment locale di LLM

Il rilascio del modello MiMo-V2.5 in formato GGUF su Hugging Face, segnalato dalla community LocalLLaMA, solleva interrogativi cruciali sulle capacità hardware necessarie per l'inference di Large Language Models in ambienti self-hosted. Questo format...

#Hardware #LLM On-Premise #DevOps

2026-05-11 • LocalLLaMA

La Volatilità dei Progetti AI Open Source: Il Caso Openclaw e le Implicazioni On-Premise

L'ecosistema dell'intelligenza artificiale è in rapida evoluzione, con progetti che emergono e scompaiono con frequenza. La notizia del declino di Openclaw evidenzia i rischi associati alla dipendenza da iniziative Open Source con supporto incerto. P...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-10 • LocalLLaMA

Dall'efficienza alla stabilità: l'esperienza di un utente con i Framework LLM locali

La scelta del framework giusto per i Large Language Models (LLM) in ambienti on-premise è cruciale per performance e stabilità. Un utente ha condiviso la sua transizione da OpenCode a Pi, motivata da lentezza e blocchi, trovando in Pi maggiore veloci...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

DS4: Salvatore Sanfilippo ottimizza DeepSeek V4 Flash per l'inference locale

Salvatore Sanfilippo, il creatore di Redis, ha lanciato DS4, un nuovo progetto su GitHub. L'iniziativa mira a eseguire DeepSeek V4 Flash con una finestra di contesto di 1 milione di token su hardware Mac Metal, sfruttando tecniche innovative. Il prog...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • LocalLLaMA

llama.cpp: Tensor Parallelism senza NCCL su GPU Blackwell PCIe consumer

La versione b9095 del framework `llama.cpp` introduce il supporto per il Tensor Parallelism senza la necessità di NCCL, specificamente per configurazioni con due GPU Blackwell PCIe di fascia consumer. Questa novità rappresenta un passo significativo ...

#Hardware #LLM On-Premise #DevOps

2026-05-10 • Tom's Hardware

Il caso Bambu Lab: controllo, Open Source e le sfide per l'AI on-premise

La disputa legale tra Bambu Lab e uno sviluppatore di OrcaSlicer, con l'intervento di Louis Rossmann, solleva questioni cruciali sul controllo tecnicico e l'Open Source. Questo scenario offre spunti di riflessione per i decision-maker che valutano de...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-10 • LocalLLaMA

La sfida dei framework per LLM on-premise: scegliere la soluzione giusta per llama.cpp

La proliferazione di strumenti per la gestione di Large Language Models in ambienti self-hosted, in particolare per `llama.cpp`, presenta una complessità crescente. Gli specialisti IT si trovano a dover bilanciare funzionalità, stabilità e compatibil...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-10 • Phoronix

Kconfirm: Migliorare la Stabilità del Kernel Linux, un Fattore Chiave per l'AI On-Premise

Kconfirm è un nuovo strumento in fase di sviluppo per il kernel Linux, progettato per identificare e correggere configurazioni errate all'interno di Kconfig. La sua potenziale inclusione nel mainline kernel promette di rafforzare la stabilità e l'aff...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-09 • LocalLLaMA

Un Anno di Progressi nel Deployment Locale di LLM: Il Caso del Progetto MCP

Un anno dopo il suo lancio su Reddit, il progetto open source MCP di u/taylorwilsdon celebra i progressi nel campo dei Large Language Models locali. L'iniziativa evidenzia come l'esecuzione di LLM come Gemma4 e Qwen3.6 su hardware come il Mac Mini si...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

BeeLlama.cpp: Ottimizzazione Estrema per LLM Locali su GPU Consumer

BeeLlama.cpp, una derivazione avanzata di llama.cpp, introduce DFlash e TurboQuant per migliorare l'inference di Large Language Models (LLM) su hardware locale. La soluzione permette di eseguire Qwen 3.6 27B Q5 con un contesto di 200.000 token su una...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • The Register AI

macOS 27 e il futuro delle Time Capsule: la comunità FOSS al salvataggio

La prossima versione di macOS, la 27, minaccia di eliminare il supporto ad Apple Filing Protocol (AFP), rendendo inutilizzabili le vecchie Time Capsule. Tuttavia, la comunità Open Source ha sviluppato TimeCapsuleSMB, una soluzione che permette di agg...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Agenti LLM locali e Qwen3.6 27B: semplificare la gestione di Archlinux

Un utente ha sperimentato l'uso di un agente LLM, il "pi coding agent", in combinazione con Qwen3.6 27B su hardware locale per configurare un sistema Archlinux. L'approccio ha permesso di gestire complesse impostazioni di sistema, come Bluetooth e ri...

#Hardware #LLM On-Premise

2026-05-09 • Phoronix

NVIDIA-VAAPI-Driver 0.0.17: Supporto Esteso per i Sistemi GB10

Il progetto open source NVIDIA-VAAPI-Driver ha rilasciato la versione 0.0.17, introducendo un supporto migliorato per i sistemi basati su architettura GB10. Questo driver, sviluppato dalla community, abilita la decodifica video accelerata tramite VA-...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Qwen3.6-35B-A3B: un LLM 'uncensored' per deployment on-premise e sovranità dei dati

È stato rilasciato Qwen3.6-35B-A3B, un Large Language Model da 35 miliardi di parametri caratterizzato da una configurazione "uncensored" e dalla piena preservazione dei suoi 19 MTP. Disponibile in formati ottimizzati come Safetensors, GGUF, NVFP4 e ...

#Hardware #LLM On-Premise #DevOps

2026-05-09 • LocalLLaMA

Aprile 2026: Una Svolta per i Large Language Models Locali

Il mese di aprile 2026 ha segnato un punto di svolta significativo per i Large Language Models (LLM) destinati a deployment locali. Questa evoluzione apre nuove opportunità per le aziende che cercano maggiore controllo sui dati, sovranità e ottimizza...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Qwen 35B-A3B su 12GB VRAM: prestazioni solide per LLM on-premise

Un'analisi tecnica rivela che 12GB di VRAM, come quelli offerti da una RTX 3060, rappresentano un punto di equilibrio ideale per l'esecuzione locale del modello LLM Qwen 35B-A3B. Questa configurazione permette di mantenere un numero sufficiente di bl...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • LocalLLaMA

Lemonade integra vLLM con supporto ROCm: un nuovo backend sperimentale per LLM on-premise

Lemonade, una piattaforma per l'esecuzione locale di Large Language Models, ha annunciato l'integrazione sperimentale di vLLM con supporto ROCm. Questa novità permette di eseguire LLM in formato `.safetensors` direttamente su hardware AMD, offrendo a...

#Hardware #LLM On-Premise #Fine-Tuning

2026-05-08 • LocalLLaMA

Consumi di memoria crescenti in llama.cpp: un'analisi on-premise

Un utente ha segnalato un consumo di memoria progressivamente crescente durante l'esecuzione di un LLM da 105GB con un contesto di 150K token su un sistema locale da 128GB, utilizzando `llama.cpp` e LM Studio. Nonostante i tentativi di liberare la me...

#Hardware #LLM On-Premise #DevOps

2026-05-08 • Phoronix

Linux 7.2 introduce dm-inlinecrypt per la crittografia on-premise dei dati

Il prossimo kernel Linux 7.2 integrerà `dm-inlinecrypt`, una nuova funzionalità del DeviceMapper che abilita la crittografia inline dei dispositivi a blocchi. Questa innovazione è cruciale per le aziende che gestiscono carichi di lavoro sensibili, in...

#Hardware #LLM On-Premise #DevOps

Progressi nell'Ecosistema Open Source e Linux

Articoli Correlati