Topic / Trend Rising

Implementazione e Ottimizzazione di LLM On-Premise

Crescono gli sforzi per eseguire grandi modelli linguistici in locale, potenziati da quantization, decodifica speculativa e strumenti della comunità, favorendo una più ampia adozione al di fuori del cloud.

Detected: 2026-07-05 · Updated: 2026-07-05

RTX 3090 e LLM: eseguire Qwen 27B con 200K token in locale è realtà

La community dei maker AI celebra la potenza della NVIDIA RTX 3090: un utente condivide la sua esperienza nell’eseguire il modello Qwen 27B con una finestra di contesto di 200.000 token, utilizzando la configurazione ‘club 3090’ disponibile su GitHub...

#Hardware #LLM On-Premise #DevOps

2026-07-03 • LocalLLaMA

Longcat 2: quantization INT8 e FP8 per il deployment on-premise

Meituan ha rilasciato i pesi di Longcat 2 nelle varianti INT8 e FP8. Per chi gestisce LLM in locale, la disponibilità di modelli già quantizzati riduce la barriera hardware e i costi di inference, mantenendo un buon equilibrio fra prestazioni e consu...

#Hardware #LLM On-Premise #DevOps

2026-07-02 • LocalLLaMA

vLLM, un fix silenzioso raddoppia la finestra di contesto su una GPU consumer

Un post di gratitudine su Reddit svela un progresso tecnico: le ultime release di vLLM eliminano i bug di allocazione memoria, permettendo a Qwen2.5 7B di operare con 240.000 token su una RTX 5090, contro i 120.000 precedenti. Un esempio di come l’op...

#Hardware #LLM On-Premise #DevOps

2026-07-02 • LocalLLaMA

Due RTX 3090 nel Thermaltake Core P3: l’ingegno al servizio dell’inference LLM locale

Un utente mostra come ha installato due RTX 3090 in un case aperto stampando in 3D un supporto per il radiatore. L’assemblaggio, oltre all’effetto scenico, permette di eseguire in locale modelli come Qwen 27B. Per chi valuta deployment on-premise, è ...

#Hardware #LLM On-Premise #Fine-Tuning

2026-07-01 • LocalLLaMA

Ascend GX10 o DGX Spark: la scommessa dell'inference locale

Un utente valuta l'acquisto di quattro GPU Ascend GX10 per eseguire modelli open-source con finestre di contesto a 128k token. I test con GLM5.2 mostrano circa 15 tok/s in output, sufficienti con quantization, e consumo di 1000W. Una scelta che riacc...

#Hardware #LLM On-Premise #DevOps

2026-06-28 • LocalLLaMA

Ornith-1.0-35B GGUF: il graft MTP nativo accelera il decoding locale del 35%

Un aggiornamento sperimentale per Ornith-1.0-35B introduce un decoding speculativo nativo MTP che su singola GPU con llama.cpp porta la velocità a 233.8 token/s (+35%), con distribuzione del token successivo byte-identica al modello originale. Pubbli...

#Hardware #LLM On-Premise

← Torna ai Topic

Implementazione e Ottimizzazione di LLM On-Premise

Articoli Correlati

RTX 3090 e LLM: eseguire Qwen 27B con 200K token in locale è realtà

Longcat 2: quantization INT8 e FP8 per il deployment on-premise

vLLM, un fix silenzioso raddoppia la finestra di contesto su una GPU consumer

Due RTX 3090 nel Thermaltake Core P3: l’ingegno al servizio dell’inference LLM locale

Ascend GX10 o DGX Spark: la scommessa dell'inference locale

Ornith-1.0-35B GGUF: il graft MTP nativo accelera il decoding locale del 35%