Topic / Trend Rising

LLM Locali e IA On-Device

Questo trend si concentra sullo sviluppo e l'uso di modelli linguistici di grandi dimensioni (LLM) che possono essere eseguiti localmente su hardware consumer, consentendo la privacy e riducendo la dipendenza dai servizi cloud. Copre anche le sfide e le ottimizzazioni necessarie per eseguire questi modelli in modo efficiente su dispositivi con risorse limitate.

Detected: 2026-01-25 · Updated: 2026-01-25

Articoli Correlati

2026-01-24 LocalLLaMA

LLM: quale modello locale su GPU 24GB nel 2026?

Un utente di LocalLLaMA si interroga sull'evoluzione dei modelli di linguaggio di grandi dimensioni (LLM) eseguibili in locale. Nello specifico, chiede se, a distanza di nove mesi dal rilascio di Gemma 3 27b, siano disponibili alternative migliori, c...

#Hardware
2026-01-24 LocalLLaMA

Sviluppo locale con LLM: una sfida per i coder hardware?

Un programmatore hardware ha espresso frustrazione riguardo le prestazioni dei modelli linguistici di grandi dimensioni (LLM) eseguiti localmente su una GPU 5090. Nonostante l'hardware potente, i modelli sembrano sottoutilizzati e incapaci di sfrutta...

#Hardware #LLM On-Premise
2026-01-24 Phoronix

Newelle: l'assistente AI per GNOME ora supporta Llama.cpp

Newelle, l'assistente virtuale basato su intelligenza artificiale per l'ambiente desktop GNOME, si aggiorna con nuove integrazioni. Oltre al supporto per Google Gemini, OpenAI e Groq, l'ultima versione introduce il supporto per modelli LLM locali tra...

#LLM On-Premise
2026-01-24 LocalLLaMA

Ottimizzare modelli MoE su CPU: guida a GLM-4 e GPT-OSS

Eseguire modelli Mixture-of-Experts (MoE) su CPU e RAM richiede ottimizzazione della larghezza di banda. L'articolo analizza GLM-4.7-Flash e GPT OSS 120B, fornendo consigli su hardware (Intel) e software, inclusa la compilazione di `llama.cpp` e l'as...

#Hardware #LLM On-Premise
2026-01-24 LocalLLaMA

Context Engine: ricerca di codice self-hosted per LLM

Un tecnico ha sviluppato Context Engine, un sistema di retrieval self-hosted per codebase, progettato per funzionare con vari client MCP. Utilizza una ricerca ibrida che combina dense embeddings con la ricerca lessicale e il parsing AST. L'obiettivo ...

#LLM On-Premise #DevOps #RAG
2026-01-24 LocalLLaMA

Strix Halo: prestazioni sorprendenti con MiniMax Q3 K_XL

Un utente ha testato Strix Halo (Bosgame M5 con 128GB) su Ubuntu 25.10, ottenendo risultati notevoli con il modello MiniMax Q3 K_XL. In particolare, la velocità di circa 30 token al secondo in modalità TG rende il modello utilizzabile per attività di...

2026-01-23 Tom's Hardware

Alibaba punta all'IPO per T-Head e investe in infrastrutture AI

Secondo indiscrezioni, Alibaba starebbe preparando l'offerta pubblica iniziale (IPO) per la sua divisione di produzione di chip, T-Head. L'obiettivo principale sarebbe quello di raccogliere capitali significativi per finanziare lo sviluppo di soluzio...

2026-01-22 LocalLLaMA

Kimi-Linear-48B: supporto GGUF e integrazione in llama.cpp

Si discute online dell'implementazione di Kimi-Linear-48B in llama.cpp, data la sua efficacia nella gestione di contesti lunghi. La comunità si interroga sui tempi necessari per l'integrazione del modello, che promette miglioramenti significativi nel...

#Hardware #LLM On-Premise
2026-01-22 DigiTimes

QCT punta all'integrazione AI con server completi

QCT mira a rafforzare la sua posizione nella catena di approvvigionamento dell'intelligenza artificiale. La società starebbe sviluppando una strategia completa di server per competere nel mercato, integrando verticalmente le proprie soluzioni. L'obie...

#Hardware
2026-01-21 Phoronix

AMD prepara il terreno per i processori EPYC di nuova generazione

AMD ha inviato una serie di patch per il kernel Linux, anticipando nuove funzionalità dei processori EPYC di prossima generazione, nome in codice "Venice". Le patch riguardano miglioramenti a livello di gestione della memoria e sicurezza, indicando u...

#Hardware
2026-01-21 LocalLLaMA

Qwen3-14B affinato con DeepSeek: boost del 20% nella sicurezza

Un ricercatore ha affinato il modello linguistico Qwen3-14B utilizzando 10.000 tracce di DeepSeek, ottenendo un miglioramento del 20% nelle prestazioni di un benchmark di sicurezza personalizzato. Questo dimostra come l'affinamento di modelli più pic...

2026-01-21 The Register AI

Trump promette permessi rapidi per data center nucleari

Donald Trump ha promesso di accelerare l'approvazione dei permessi per i data center alimentati da energia nucleare. Jensen Huang, CEO di Nvidia, ha presentato a Davos la sua visione dell'intelligenza artificiale.

#Hardware
2026-01-21 Phoronix

NVIDIA GB10: la CPU sfida AMD Ryzen AI Max+ in test Linux

Il superchip NVIDIA GB10, progettato per l'intelligenza artificiale, è stato testato in scenari Linux tradizionali per valutare le prestazioni della sua CPU. I benchmark di Phoronix mettono a confronto il GB10 con l'AMD Ryzen AI Max+ "Strix Halo" all...

#Hardware
2026-01-21 LocalLLaMA

File Brain: ricerca semantica locale open source nei tuoi documenti

File Brain è un motore di ricerca open source che indicizza i file in locale e permette di cercarli usando il linguaggio naturale. Supporta la ricerca semantica multilingue, l'OCR integrato ed è disponibile per Windows e Linux. L'obiettivo è superare...

2026-01-20 LocalLLaMA

LocalLLaMA: l'inarrestabile ascesa dei modelli linguistici locali

Un post su Reddit mette in evidenza le capacità sorprendenti dei modelli linguistici eseguiti in locale con LocalLLaMA. La discussione sottolinea come questi modelli, pur girando su hardware consumer, dimostrino una comprensione del contesto e una ca...

#Hardware
2026-01-19 LocalLLaMA

GLM-4.7 flash: come eseguirlo con llama.cpp?

Un utente chiede se è possibile eseguire il nuovo modello GLM 4.7 flash con llama.cpp o strumenti simili. La domanda è stata posta su un forum dedicato ai modelli linguistici locali (LocalLLaMA), in attesa di risposte dalla comunità di sviluppatori e...

#Hardware #LLM On-Premise
2026-01-19 TechCrunch AI

USA: startup IA raccolgono finanziamenti record nel 2025

Il 2024 è stato un anno cruciale per l'intelligenza artificiale negli Stati Uniti e non solo. Resta da vedere se il 2025 sarà altrettanto positivo. Un'analisi rivela che numerose startup del settore hanno raccolto finanziamenti superiori a 100 milion...

2026-01-19 LocalLLaMA

Nvidia GB10 vs GH200: primi benchmark di performance

Trapelano online i primi benchmark che confrontano le performance della GPU Nvidia GB10 con la GH200. I dati, provenienti da una fonte su Reddit, offrono un'anteprima delle potenzialità della nuova architettura di Nvidia, sebbene vadano presi con le ...

#Hardware
2026-01-19 LocalLLaMA

Z-AI (GLM): Sviluppatori scelgono la via 'aggressiva'

Gli sviluppatori di Z-AI (GLM) hanno intrapreso una strategia di sviluppo definita 'aggressiva'. Un post su Reddit evidenzia questa scelta, suggerendo una competizione diretta con altri team, in particolare quelli di Qwen. La discussione online si co...

2026-01-19 LocalLLaMA

Rilasciato GLM 4.7 Flash: incrementi prestazionali?

È stata annunciata la release di GLM 4.7 Flash. La comunità open source si interroga sui potenziali incrementi prestazionali rispetto a Qwen 30b, con particolare attenzione ai benchmark. Al momento mancano dati oggettivi a supporto.

#Fine-Tuning
2026-01-19 LocalLLaMA

GLM-4.7-Flash: nuovo modello linguistico open-source su Hugging Face

È disponibile su Hugging Face il modello linguistico GLM-4.7-Flash. La notizia è stata diffusa su Reddit, aprendo un filone di discussione nella comunità LocalLLaMA. Il modello open-source promette nuove opportunità per lo sviluppo di applicazioni di...

2026-01-19 LocalLLaMA

Agente browser on-device con Qwen: demo in locale su Chrome

Una nuova demo mostra un agente browser locale, basato su Web GPU Liquid LFM e sui modelli Qwen di Alibaba, in esecuzione come estensione di Chrome. L'agente apre 'All in Podcast' su YouTube. Il codice sorgente è disponibile su GitHub per chi volesse...

#Hardware
2026-01-19 LocalLLaMA

Top-K: algoritmo ottimizzato fino a 20x più veloce di PyTorch

Un tecnico ha sviluppato un'implementazione ottimizzata di Top-K, cruciale per il campionamento nei modelli linguistici di grandi dimensioni (LLM). L'ottimizzazione, basata su AVX2, surclassa le prestazioni di PyTorch su CPU da 4 a 20 volte, a second...

#Hardware #LLM On-Premise
2026-01-19 LocalLLaMA

Crediti GPU gratuiti per testare piattaforma di training LLM

Un piccolo team offre crediti di calcolo gratuiti per la sua piattaforma GPU, in cambio di feedback sull'utilizzo. Le GPU disponibili includono RTX 5090 e Pro 6000, adatte per l'inferenza di modelli linguistici di grandi dimensioni (LLM), il fine-tun...

#Hardware #Fine-Tuning
2026-01-19 The Register AI

Open source: la nuova missione è ricostruire il settore tech europeo

L'Europa, nota per un settore tecnicico iper-regolamentato, potrebbe trovare nell'open source una via per ricostruire e rafforzare la propria infrastruttura tecnicica. L'adozione di soluzioni aperte potrebbe favorire l'innovazione e ridurre la dipend...

2026-01-19 DigiTimes

Tesla accelera lo sviluppo di chip AI nonostante le sfide

Tesla sta intensificando gli sforzi nello sviluppo di chip per l'intelligenza artificiale. Questa mossa arriva in un momento cruciale, mentre l'azienda affronta sfide significative legate alla sicurezza e al software dei suoi veicoli. L'obiettivo è m...

2026-01-19 DigiTimes

TSMC punta a una rapida crescita del nodo a 2 nm nel 2026

Il gigante taiwanese TSMC prevede una forte espansione della produzione a 2 nm a partire dal 2026, sostenuta da ingenti investimenti e dall'ampliamento delle proprie capacità produttive sia a Taiwan che negli Stati Uniti. Questa mossa strategica mira...

2026-01-19 LocalLLaMA

Sviluppo LLM in locale: ha ancora senso con GPU da 16GB?

Un utente con una GPU Nvidia RTX 5070 Ti da 16GB si interroga sull'efficacia dello sviluppo di modelli linguistici di grandi dimensioni (LLM) in locale. L'esperienza con Kilo code e Qwen 2.5 coder 7B tramite Ollama ha evidenziato problemi con la gest...

#Hardware #LLM On-Premise
2026-01-19 Wired AI

Europa: corsa all'erede di DeepSeek per l'autosufficienza nell'IA

L'alleanza tra Europa e Stati Uniti mostra segni di cedimento, spingendo l'UE ad accelerare i piani per raggiungere l'autosufficienza nel campo dell'intelligenza artificiale. L'obiettivo è creare un'alternativa europea a modelli avanzati come DeepSee...

2026-01-19 DigiTimes

Reti elettriche globali: punti nevralgici nella competizione AI

Le reti elettriche globali stanno emergendo come punti strategici cruciali nella competizione tra intelligenza artificiale e sviluppo industriale. La crescente domanda di energia per alimentare data center e infrastrutture digitali rende la stabilità...

2026-01-19 DigiTimes

Patto USA-Taiwan spiana la strada agli hub tech americani

Un nuovo accordo commerciale tra Stati Uniti e Taiwan potrebbe favorire la creazione di centri nevralgici per la filiera tecnicica in territorio americano. L'iniziativa mira a rafforzare la resilienza della supply chain e a ridurre la dipendenza da f...

2026-01-19 ArXiv cs.CL

Agent conversazionali: la concisione ne riduce la competenza?

Un nuovo studio analizza gli effetti collaterali inattesi derivanti dall'uso di specifiche caratteristiche stilistiche nei prompt per agent conversazionali basati su modelli linguistici di grandi dimensioni (LLM). La ricerca rivela come la richiesta ...

#Fine-Tuning
2026-01-19 ArXiv cs.AI

LLM: come valutano l'affidabilità delle informazioni online?

I modelli linguistici di grandi dimensioni (LLM) stanno diventando sempre più importanti nei sistemi di ricerca e raccomandazione online. Una nuova ricerca analizza come questi modelli codificano l'affidabilità percepita nelle narrazioni web, rivelan...

#Fine-Tuning
2026-01-19 DigiTimes

USA e Taiwan: accordo sui semiconduttori per esportazioni agevolate

Stati Uniti e Taiwan hanno finalizzato un accordo tariffario che garantirà condizioni favorevoli per le esportazioni di semiconduttori. L'intesa mira a rafforzare la cooperazione economica e tecnicica tra le due nazioni, in un settore strategico come...

2026-01-19 DigiTimes

OpenAI investe 10 miliardi di dollari in chip IA di Cerebras

OpenAI ha scelto Cerebras per un progetto di sviluppo di chip per l'intelligenza artificiale che prevede un investimento di 10 miliardi di dollari. La collaborazione mira a potenziare le capacità di calcolo necessarie per i modelli di linguaggio di g...

#Hardware
2026-01-18 DigiTimes

Tempi di consegna tesi per i sistemi di test Advantest

I tempi di consegna per i sistemi di test automatizzati (ATE) di Advantest rimangono elevati a causa della forte domanda nei mercati dell'intelligenza artificiale e delle memorie. Questa situazione riflette la crescita di questi settori e la pression...

← Torna ai Topic