Topic / Trend Rising

Ottimizzare i LLM per Hardware Consumer: Quantization, Multi-Token e Vulkan

Progressi come la quantization AutoRound, la previsione multi-token di llama.cpp e il parallelismo tensore su Vulkan riducono i requisiti di VRAM e aumentano la velocità, facendo girare modelli potenti su GPU domestiche.

Detected: 2026-06-27 · Updated: 2026-06-27

Articoli Correlati

2026-06-26 LocalLLaMA

llama.cpp: il tensor parallelism su Vulkan ora è alla portata di tutti

La pull request #25051 firmata da Piotr ‘pwilkin’ rende finalmente utilizzabile il parallelismo tensore su backend Vulkan in llama.cpp. Un passo concreto per l’inference di LLM su GPU non NVIDIA, che allarga gli scenari di deployment self-hosted e on...

#Hardware #LLM On-Premise #DevOps
2026-06-24 LocalLLaMA

AMD Strix Halo: l’NPU ora funziona con ROCm, ibrido GPU+NPU per LLM locali

Il Ryzen AI Max+ 395 di AMD, dotato di NPU, è finalmente utilizzabile per l’inference LLM grazie a strumenti come Lemonade che abilitano la modalità ibrida NPU+iGPU. Questa combinazione sfrutta la velocità dell’NPU per il prompt processing, paralleli...

#Hardware #LLM On-Premise #DevOps
2026-06-22 LocalLLaMA

Llama.cpp: +50% tokens/s su M3 Max eliminando un softmax inutile

Una pull request su llama.cpp accelera l'inference su MacBook Pro con M3 Max del 50% per Gemma 4, evitando un costoso calcolo di softmax e ordinamento quando il campionatore Top-N-Sigma è seguito dal Dist. Un guadagno che conta per chi muove l'infere...

#Hardware #LLM On-Premise #DevOps
2026-06-21 LocalLLaMA

AutoRound: il metodo di quantization che tutti ignorano (ma perché?)

Sperimentando con un modello Qwen3.6 da 27 miliardi di parametri su hardware AMD, un utente ha notato che AutoRound conserva perplexity e accuratezza a bassa precisione molto meglio di AWQ o RTN. Eppure su Hugging Face quasi nessuno lo usa. Il motivo...

#Hardware #LLM On-Premise #DevOps
← Torna ai Topic