AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

Topic / Trend Rising

Ottimizzare i LLM per Hardware Consumer: Quantization, Multi-Token e Vulkan

Progressi come la quantization AutoRound, la previsione multi-token di llama.cpp e il parallelismo tensore su Vulkan riducono i requisiti di VRAM e aumentano la velocità, facendo girare modelli potenti su GPU domestiche.

Detected: 2026-06-27 · Updated: 2026-06-27

Articoli Correlati

2026-06-27 • LocalLLaMA

Ornith-1.0-35B Q3_K_M: 17 GB di VRAM e benchmark verde, la quantization estrema regge

Il modello Ornith-1.0-35B è stato quantizzato a Q3_K_M, scendendo a 16.8 GB su disco e ~17 GiB di VRAM caricata. Verificato con metriche KL divergence e comportamento 14/14, cede solo 16 punti di accordo top-1 rispetto a Q6_K ma dimezza la memoria ne...

#Hardware #LLM On-Premise #Fine-Tuning

2026-06-26 • LocalLLaMA

llama.cpp: il tensor parallelism su Vulkan ora è alla portata di tutti

La pull request #25051 firmata da Piotr ‘pwilkin’ rende finalmente utilizzabile il parallelismo tensore su backend Vulkan in llama.cpp. Un passo concreto per l’inference di LLM su GPU non NVIDIA, che allarga gli scenari di deployment self-hosted e on...

#Hardware #LLM On-Premise #DevOps

2026-06-24 • LocalLLaMA

AMD Strix Halo: l’NPU ora funziona con ROCm, ibrido GPU+NPU per LLM locali

Il Ryzen AI Max+ 395 di AMD, dotato di NPU, è finalmente utilizzabile per l’inference LLM grazie a strumenti come Lemonade che abilitano la modalità ibrida NPU+iGPU. Questa combinazione sfrutta la velocità dell’NPU per il prompt processing, paralleli...

#Hardware #LLM On-Premise #DevOps

2026-06-22 • LocalLLaMA

Llama.cpp: +50% tokens/s su M3 Max eliminando un softmax inutile

Una pull request su llama.cpp accelera l'inference su MacBook Pro con M3 Max del 50% per Gemma 4, evitando un costoso calcolo di softmax e ordinamento quando il campionatore Top-N-Sigma è seguito dal Dist. Un guadagno che conta per chi muove l'infere...

#Hardware #LLM On-Premise #DevOps

2026-06-22 • LocalLLaMA

llama.cpp accelera l'inference locale con il supporto Multi-Token Prediction per i modelli Step Flash

Un nuovo pull request nel repository llama.cpp estende il supporto per la previsione multi-token (MTP), una tecnica che accorcia i tempi di inference. La novità, focalizzata sui modelli Step3.5/3.7 Flash, segna un ulteriore passo verso l'efficienza n...

#Hardware #LLM On-Premise #DevOps

2026-06-21 • LocalLLaMA

Llama.cpp, la guida all’ottimizzazione che mancava: un anno di esperimenti condensati

Dopo 12 mesi di test su inference locale, uno sviluppatore pubblica una guida completa per ottimizzare llama.cpp: gestione della VRAM, cache KV, modelli MoE, tuning della CPU e le trappole OOM più frequenti. Un riferimento pratico per chi sceglie il ...

#Hardware #LLM On-Premise #DevOps

2026-06-21 • LocalLLaMA

AutoRound: il metodo di quantization che tutti ignorano (ma perché?)

Sperimentando con un modello Qwen3.6 da 27 miliardi di parametri su hardware AMD, un utente ha notato che AutoRound conserva perplexity e accuratezza a bassa precisione molto meglio di AWQ o RTN. Eppure su Hugging Face quasi nessuno lo usa. Il motivo...

#Hardware #LLM On-Premise #DevOps

← Torna ai Topic