Due Radeon R9700 spingono un LLM da 27B: i numeri di una build on-premise

Chi mette le mani su configurazioni multi-GPU con le nuove schede Radeon di fascia professionale sa di muoversi in un territorio ancora poco documentato. È il caso di un tecnico che ha condiviso in dettaglio i risultati della sua postazione: un ThinkStation P7 spinto da uno Xeon w7-3455 e due Gigabyte Radeon AI PRO R9700 da 32 GB l’una, per un totale di 64 GB di VRAM. Il carico di lavoro è un LLM da 27 miliardi di parametri, il modello Qwen 3.6, servito con llama.cpp e ROCm 7.2.1 su Ubuntu 24.04. L’obiettivo non era un esercizio accademico, ma capire se l’hardware regge carichi reali — generazione di codice da specifiche Markdown, elaborazione di testi lunghi (manuali Cisco, letteratura medica) e riepiloghi di sessioni complesse — e con quali numeri.

La postazione e la configurazione software

Il cuore del sistema sono le due GPU Radeon AI PRO R9700, identificate dal target di compilazione gfx1201 e gestite in parallelo via ROCm. Llama.cpp è stato containerizzato con Docker, esponendo i device necessari (/dev/kfd, /dev/dri) e abilitando l’accesso a entrambe le schede tramite HIP_VISIBLE_DEVICES. Il modello scelto è una quantization Q8 di Qwen 3.6 27B con Multi-Token Prediction (MTP), un meccanismo che genera più token in una sola passata per accelerare la fase di decode. La finestra di contesto è stata spinta a 131.072 token, sfruttando lo split su tensore (--split-mode tensor) e la cache KV unificata (--kv-unified) per distribuire il carico tra le due GPU senza colli di bottiglia evidenti.

Sul piano dell’inference, la configurazione attiva il flash attention, imposta un batch size di 2048 e un ubatch di 1024, con un parallelismo ridotto al minimo (--parallel 1) e continuous batching. Il draft MTP accetta fino a 5 token speculativi (--spec-draft-n-max 5), un valore su cui il tester sta ancora affinando la taratura: ridurlo sembra migliorare la velocità di generazione a contesti elevati, segno che il costo di draft rejection può diventare sensibile quando la memoria è sotto pressione.

Prestazioni: prefill, decode e accettazione dei draft

I numeri raccolti dal server raccontano una macchina che, pur lontana dai picchi di acceleratori datacenter, offre una fluidità più che dignitosa per un impiego professionale on-premise. Nella fase di prefill, cioè quando il modello deve ingoiare prompt di grandi dimensioni, il throughput si mantiene sopra i 400 t/s anche con 100.000 token in ingresso, e sfiora i 1.500 t/s sotto i 10.000 token. Il dato più interessante per l’utente finale è però la velocità di generazione (decode): con un contesto già riempito per circa 3.000–6.000 token, la macchina produce tra 46 e 61 token al secondo; con contesti da 10.000–13.000 token si sale addirittura a 64–67 t/s. Anche a finestra quasi piena (102.000 token) i 44 t/s restano accettabili, e a 125.000 token si registrano ancora 45 t/s. L’accettazione dei draft MTP oscilla tra 0,33 e 0,61: un valore nella media per questo tipo di accelerazione, che conferma come il meccanismo porti un beneficio tangibile senza introdurre un overhead proibitivo.

Un punto a favore dell’architettura è la gestione del prompt caching: il server mantiene fino a 32 checkpoint della cache KV (ciascuno tra 150 e 580 MiB) e li ripristina in 60–300 millisecondi, evitando di rielaborare completamente il prompt quando una nuova richiesta condivide il prefisso con una sessione precedente. Questa ottimizzazione è cruciale in scenari applicativi reali, dove gli utenti fanno domande successive sullo stesso documento.

Perché la scelta on-premise conta

Il test con le Radeon R9700 non è solo una curiosità hardware: per le organizzazioni che valutano un deployment locale di LLM, ogni dato su configurazioni multi-GPU consumer/professional è una tessera del puzzle TCO. Le R9700, con i loro 32 GB di VRAM a scheda, permettono di servire modelli da 27B in alta precisione (Q8) senza ricorrere a servizi cloud, garantendo al contempo il pieno controllo sui dati e la conformità normativa — un fattore che AI-RADAR monitora costantemente negli scenari di sovranità digitale. Il consumo energetico non è stato misurato, ma la banda PCIe registrata (sotto i 200 MB/s in decode, picchi di 5–7 GB/s in prefill) indica che il sistema non satura il bus, segno che il collo di bottiglia principale resta la capacità di calcolo delle GPU, non il trasferimento.

Va ricordato che l’ecosistema ROCm su schede Radeon professionali è ancora in fase di maturazione, e non tutte le ottimizzazioni disponibili su CUDA sono immediatamente replicabili. Tuttavia, la combinazione llama.cpp + ROCm sta mostrando progressi rapidi, e un setup come questo può rappresentare un punto di partenza per piccoli team di sviluppo, laboratori di ricerca o dipartimenti IT che vogliono sperimentare l’inference locale senza investimenti a sei zeri. La scelta della quantization Q8, piuttosto che Q4 o Q6, privilegia la qualità delle risposte rispetto alla velocità pura, ed è coerente con un profilo di utilizzo dove l’affidabilità conta più dei token al secondo.

Quello che queste prove segnalano

La documentazione condivisa — container, parametri, metriche — è un segnale importante: la community inizia a produrre riferimenti concreti per hardware non mainstream, accorciando la distanza tra gli annunci dei produttori e la realtà operativa. Per chi segue il deployment on-premise, avere a disposizione test ripetibili su GPU come le R9700 significa poter confrontare scenari di costo, valutare la sostenibilità di un approccio tutto-in- locale e ridurre l’incertezza nell’acquisto. AI-RADAR continuerà a seguire queste esperienze, offrendo strumenti analitici per decidere se e quando portare i LLM dentro i propri confini aziendali.