Sviluppo AI Open Source

2026-02-07 • LocalLLaMA

Kimi-Linear-48B-A3B e Step3.5-Flash disponibili per llama.cpp

Sono state rilasciate le versioni di Kimi-Linear-48B-A3B e Step3.5-Flash compatibili con llama.cpp. Al momento non sono ancora disponibili i file GGUF ufficiali, ma la community sta già lavorando alla loro creazione. La disponibilità di questi modell...

#Hardware #LLM On-Premise #DevOps

2026-02-07 • LocalLLaMA

Kernel open-source per attention: 1 milione di token in 1GB di VRAM

Geodesic Attention Engine (GAE) è un kernel open-source che promette di ridurre drasticamente il consumo di memoria per modelli di linguaggio di grandi dimensioni. Con GAE, è possibile gestire 1 milione di token con solo 1GB di VRAM, ottenendo un ris...

#Hardware #LLM On-Premise #DevOps

2026-02-07 • Phoronix

Mesa 25.3.5: Aggiornamenti per driver Vulkan e miglioramenti minori

È disponibile la versione 25.3.5 di Mesa, che include correzioni per il driver Vulkan e altri miglioramenti minori. Questa release rappresenta l'ultima versione stabile prima dell'arrivo imminente di Mesa 26.0.

#Hardware #LLM On-Premise #DevOps

2026-02-07 • ArXiv cs.AI

Intelligenza Artificiale 'Strana': Oltre i Modelli Lineari

Un nuovo studio contesta l'idea di un progresso lineare nell'IA, introducendo i concetti di 'intelligenza familiare' e 'intelligenza strana'. I sistemi di IA potrebbero combinare capacità sovrumane con errori sorprendenti, sfidando le aspettative e r...

#LLM On-Premise #DevOps

2026-02-07 • LocalLLaMA

Nemo 30B: Modello LLM con finestra di contesto da 1M su singola RTX 3090

Un utente ha testato il modello linguistico Nemo 30B, raggiungendo una finestra di contesto di oltre 1 milione di token su una singola GPU RTX 3090. L'utente ha riscontrato una velocità di 35 token al secondo, sufficiente per riassumere libri o docum...

#Hardware #LLM On-Premise #DevOps

2026-02-06 • LocalLLaMA

Modello sperimentale con attenzione subquadratica: fino a 10M di contesto

Rilasciato un modello sperimentale da 30B con meccanismo di attenzione subquadratica, scalando a O(L^(3/2)). Permette di gestire contesti fino a 10 milioni di token su una singola GPU, mantenendo velocità di decodifica pratiche. Include server compat...

#Hardware #LLM On-Premise #DevOps

2026-02-06 • LocalLLaMA

Hugging Face: benchmark di modelli LLM guidati dalla comunità

Hugging Face introduce repository di benchmark per valutazioni di modelli LLM basate sulla comunità. L'iniziativa mira a risolvere le incongruenze nei risultati dei benchmark, consentendo agli utenti di contribuire con valutazioni e collegare diretta...

#LLM On-Premise #DevOps

2026-02-06 • Tom's Hardware

Affare al Walmart: SSD da 1300$ a 210$

Un fortunato acquirente ha trovato un'incredibile offerta al Walmart, acquistando SSD per un valore di 1300 dollari a soli 210 dollari. L'acquisto includeva unità WD, Samsung e PNY, offrendo un notevole risparmio sull'archiviazione ad alte prestazion...

#Hardware #LLM On-Premise

2026-02-06 • Phoronix

Panther Lake: Nuovi benchmark Linux spingono al limite la CPU Intel

Nuovi benchmark Linux esaminano le prestazioni della CPU Intel Core Ultra X7 358H di Panther Lake con un budget energetico più elevato. I test rivelano notevoli miglioramenti generazionali, in particolare nell'efficienza energetica, e confermano le o...

#Hardware #LLM On-Premise #DevOps

2026-02-06 • Phoronix

AMD prepara il terreno per le GPU RDNA 4 con il target GFX1170

AMD continua lo sviluppo del suo stack di compilatori LLVM per le future GPU. È stato introdotto un nuovo target, GFX1170, identificato anche come RDNA 4m. Questo aggiornamento si aggiunge al lavoro già in corso sui target GFX1250 e GFX13, ampliando ...

#Hardware

2026-02-06 • LocalLLaMA

llama.cpp integra il supporto Kimi-Linear: prestazioni migliorate

La libreria llama.cpp ha integrato il supporto per Kimi-Linear, una tecnica che promette di migliorare le prestazioni dei modelli linguistici. L'integrazione è stata resa possibile grazie a una pull request su GitHub, aprendo nuove possibilità per l'...

#Hardware #LLM On-Premise #DevOps

2026-02-06 • Phoronix

Linux: gestione dinamica CPU per cloud e trading ad alta frequenza

Proposta per Linux una serie di patch per la gestione dinamica e l'isolamento avanzato (DHEI) delle risorse CPU. L'obiettivo è consentire la ripartizione dinamica delle risorse di calcolo senza interruzioni, a vantaggio di orchestratori cloud-native ...

#LLM On-Premise #DevOps

2026-02-06 • Phoronix

Qualcomm: Firmware QUPv3 per Snapdragon X1 Elite su Linux

Qualcomm sta facilitando l'utilizzo di Snapdragon X1 Elite su Linux. In precedenza, i file firmware necessari dovevano essere estratti dalla partizione Windows 11 on ARM. Ora, i firmware QUPv3 sono stati integrati nel repository linux-firmware.git, s...

2026-02-06 • LocalLLaMA

LLM a 10 token/s su un i3 di 8a generazione: si può fare!

Un utente dimostra come far girare un modello linguistico di grandi dimensioni (LLM) da 16 miliardi di parametri su un laptop HP ProBook del 2018 con processore Intel i3 di ottava generazione e 16GB di RAM. Ottimizzando l'uso della iGPU e sfruttando ...

#Hardware #LLM On-Premise #DevOps

2026-02-06 • LocalLLaMA

Inference LLM: Ottimizzazione e prestazioni DeepSpeed

Un utente condivide un'immagine relativa all'ottimizzazione dell'inference di modelli linguistici di grandi dimensioni (LLM) tramite DeepSpeed. L'immagine suggerisce un'analisi delle prestazioni e delle configurazioni per migliorare la velocità e l'e...

#Hardware

2026-02-06 • ArXiv cs.CL

BioACE: Framework automatico per valutare risposte biomediche

BioACE è un nuovo framework automatizzato per la valutazione della qualità delle risposte generate da modelli linguistici di grandi dimensioni (LLM) in ambito biomedico. Il sistema verifica la correttezza delle risposte e delle citazioni, valutando c...

#RAG

2026-02-06 • ArXiv cs.LG

Modelli Diffusivi per l'Analisi Normativa in Neuroimaging

Un nuovo studio esplora l'uso di modelli diffusivi per stimare distribuzioni di riferimento in neuroimaging, consentendo la derivazione di punteggi di deviazione clinicamente interpretabili. I modelli, basati su diverse architetture, sono stati valut...

2026-02-06 • LocalLLaMA

Qwen3-235B: un utente ne esalta le prestazioni in locale

Un utente ha condiviso la sua esperienza positiva con il modello linguistico Qwen3-235B, eseguito su un sistema desktop. L'utente ha sottolineato l'accuratezza del modello e la sua utilità, al punto da preferirlo a un abbonamento commerciale a ChatGP...

#LLM On-Premise #DevOps

2026-02-06 • LocalLLaMA

Qwen3-Coder: prestazioni migliorate su RTX 5090 con llama.cpp

Un utente ha segnalato un significativo aumento di throughput, fino a 26 token/secondo, utilizzando il modello Qwen3-Coder-Next-Q4_K_S con llama.cpp su una RTX 5090. L'ottimizzazione è stata ottenuta scaricando i tensori MoE expert sulla CPU e quanti...

#Hardware #LLM On-Premise

2026-02-06 • LocalLLaMA

Parallelismo tensoriale in Llama.cpp: un aggiornamento promettente

Una pull request introduce il parallelismo tensoriale in Llama.cpp, aprendo la strada a inferenze più rapide e efficienti su modelli linguistici di grandi dimensioni. La comunità accoglie con favore questo sviluppo, che potrebbe migliorare significat...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

Gemma 4: Google continua lo sviluppo del modello linguistico?

La community di LocalLLaMA si interroga sul futuro di Gemma 4, chiedendosi se Google stia ancora investendo nello sviluppo del modello linguistico. Nonostante i progressi nel settore, il destino di Gemma 4 rimane incerto.

#LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

SoproTTS v1.5: clonazione vocale zero-shot con soli 100 dollari

SoproTTS v1.5 è un modello TTS (text-to-speech) da 135 milioni di parametri che offre clonazione vocale zero-shot. Addestrato con circa 100 dollari su una singola GPU, il modello raggiunge una velocità di esecuzione di circa 20 volte il tempo reale s...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • Ars Technica AI

OpenAI: GPT-5.3-Codex estende le capacità oltre la semplice scrittura di codice

OpenAI ha annunciato GPT-5.3-Codex, una nuova versione del suo modello di programmazione avanzato, accessibile tramite riga di comando, estensione IDE, interfaccia web e una nuova app desktop per macOS. Questo modello supera le versioni precedenti in...

#LLM On-Premise #DevOps

2026-02-05 • OpenAI Blog

GPT-5 abbatte i costi della sintesi proteica acellulare

Un laboratorio autonomo, combinando GPT-5 di OpenAI con l'automazione cloud di Ginkgo Bioworks, ha ridotto i costi della sintesi proteica acellulare del 40% tramite sperimentazione a ciclo chiuso. Questo approccio automatizzato promette di accelerare...

#LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

Nuovi modelli OCR: LightOnOCR-2 e GLM-OCR migliorano l'accuratezza

Sono stati rilasciati LightOnOCR-2 e GLM-OCR, due nuovi modelli per il riconoscimento ottico dei caratteri (OCR). Un utente ha segnalato prestazioni superiori rispetto alle soluzioni disponibili a fine 2025, con GLM-OCR che offre velocità e output st...

2026-02-05 • Phoronix

GPU Intel Battlemage: D3cold riattivato con Linux 7.0 (parzialmente)

Il driver grafico Xe di Intel per Linux, a partire dal kernel 7.0, riattiverà il supporto D3cold per le GPU Battlemage. Questa funzionalità era stata disabilitata a causa di problemi di instabilità nelle transizioni di stato di alimentazione. La modi...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • OpenAI Blog

GPT-5.3-Codex: nuovo modello per la generazione di codice

Presentato GPT-5.3-Codex, un modello avanzato per la generazione di codice che combina le prestazioni di GPT-5.2-Codex con capacità di ragionamento e conoscenza professionale superiori. Il modello si posiziona come uno dei più avanzati nel suo genere...

#LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

DeepBrainz-R1: modelli compatti per workflow agentici

DeepBrainz ha rilasciato DeepBrainz-R1, una famiglia di modelli linguistici di dimensioni ridotte (4B, 2B, 0.6B) focalizzati sul ragionamento per workflow agentici. Ottimizzati per il ragionamento multi-step e la stabilità nel tool-calling, questi mo...

#LLM On-Premise #DevOps

2026-02-05 • Google AI Blog

Interfacce adattive: Google presenta un framework per l'accessibilità AI

Google introduce un nuovo framework, denominato NAI (Natively Adaptive Interfaces), che sfrutta l'intelligenza artificiale per rendere la tecnicia più adattabile e inclusiva. L'obiettivo è migliorare l'esperienza utente per tutti, indipendentemente d...

#LLM On-Premise #DevOps

2026-02-05 • Phoronix

Debian limita l'accesso ai dati CI a causa dello scraping da parte di LLM

L'infrastruttura di integrazione continua (CI) di Debian ha limitato l'accesso pubblico ai suoi dati a causa dell'eccessivo scraping da parte di bot utilizzati per addestrare modelli linguistici di grandi dimensioni (LLM). Il carico generato da quest...

#LLM On-Premise #DevOps

2026-02-05 • The Register AI

Microsoft punta sull'affidabilità dell'AI in Visual Studio

Microsoft ha annunciato che l'affidabilità è la priorità per l'integrazione dell'intelligenza artificiale in Visual Studio. La decisione giunge in un momento in cui alcuni sviluppatori hanno espresso preoccupazioni riguardo alle prestazioni e ai comp...

#LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

gWorld: modello 8B batte Llama 4 da 402B generando codice web

Trillion Labs e KAIST AI hanno presentato gWorld, un modello di mondo visuale open-weight per interfacce grafiche mobile. gWorld, disponibile nelle versioni 8B e 32B, genera codice web eseguibile anziché pixel, superando in accuratezza modelli più gr...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-05 • LocalLLaMA

Benchmark su Strix Halo con 13 modelli LLM e 15 build di llama.cpp

Un utente di Reddit ha eseguito una serie di benchmark sulla iGPU di Strix Halo, testando diverse configurazioni software con 13 modelli LLM e 15 build differenti di llama.cpp. L'obiettivo era valutare l'impatto di ROCm, Vulkan e varie opzioni di com...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

Build non ufficiali di ik_llama.cpp disponibili per vari sistemi

Sono disponibili build precompilate non ufficiali di ik_llama.cpp per macOS, Ubuntu e Windows. Queste build semplificano l'adozione del progetto, evitando agli utenti la compilazione manuale. Il creatore incoraggia comunque l'uso della compilazione d...

#LLM On-Premise #DevOps

2026-02-05 • Tom's Hardware

Nvidia DLSS 4.5: Ray Reconstruction senza denoiser?

Nvidia starebbe sviluppando DLSS 4.5, una versione avanzata della sua tecnicia di upscaling che potrebbe eliminare la necessità di denoiser nel ray tracing. Questo grazie a un modello Transformer che ricostruisce i riflessi ray-traced in modo più acc...

#Hardware

2026-02-05 • Phoronix

Intel Arc B390: prestazioni grafiche su Linux con Panther Lake

Primi benchmark su Linux della GPU Intel Arc B390, integrata nei modelli Panther Lake di fascia alta. La scheda grafica Xe3, dotata di 12 Xe cores, promette prestazioni interessanti in ambito desktop e mobile per carichi di lavoro grafici e di calcol...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • Phoronix

Ubuntu supporterà SpacemiT K3, uno dei primi SoC RISC-V RVA23

Canonical e SpacemiT hanno annunciato il supporto ufficiale di Ubuntu Linux per il nuovo SoC K3 RISC-V di SpacemiT. Il K3 si distingue per essere uno dei primi design RISC-V RVA23 disponibili, aprendo nuove prospettive per l'adozione di questa archit...

2026-02-05 • LocalLLaMA

vLLM-Omni: inference multimodale any-to-any con efficienza migliorata

Il team di vLLM ha presentato vLLM-Omni, un sistema progettato per modelli multimodali any-to-any che gestiscono testo, immagini, video e audio. L'architettura include la decomposizione del grafo basata su stage, il batching per stage e l'allocazione...

#Hardware #LLM On-Premise

2026-02-05 • Phoronix

Krita 6.0 Beta: aggiornamento a Qt6 e gestione colore Wayland

Disponibile la prima beta di Krita 6.0, la popolare applicazione di pittura digitale, basata sul toolkit Qt6. Contestualmente, è stata rilasciata anche la beta di Krita 5.3 per chi preferisce rimanere con Qt5. L'aggiornamento introduce miglioramenti ...

#LLM On-Premise #DevOps

2026-02-05 • Phoronix

NetBSD: Kernel con Lua, ma niente Rust in arrivo

Mentre Linux e FreeBSD valutano l'integrazione di Rust nel kernel, NetBSD sembra orientata verso una direzione diversa. Uno degli sviluppatori ha chiarito che l'adozione di Rust nel kernel di NetBSD non è nei piani a breve termine, preferendo invece ...

#LLM On-Premise #DevOps

2026-02-05 • Phoronix

Intel ISPC 1.30: supporto AMX integrato nella libreria standard

Disponibile la versione 1.30 di Intel ISPC (Implicit SPMD Program Compiler), che introduce il supporto AMX (Advanced Matrix Extensions) nella libreria standard. ISPC è un linguaggio di programmazione derivato dal C, progettato per sfruttare al meglio...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

AnyTTS: sintesi vocale universale per sistemi di AI conversazionale

Uno sviluppatore ha creato AnyTTS, un sistema che permette di usare qualsiasi motore di text-to-speech (TTS) con diverse interfacce di AI conversazionale, inclusi ChatGPT e modelli LLM locali. L'integrazione avviene tramite la clipboard, semplificand...

#LLM On-Premise #DevOps

2026-02-05 • Tech.eu

Qontext raccoglie 2,7 milioni per il livello di contesto AI

La startup berlinese Qontext, specializzata nello sviluppo di un livello di contesto indipendente per l'intelligenza artificiale, ha ottenuto un finanziamento pre-seed di 2,7 milioni di dollari. L'obiettivo è espandere la piattaforma e il team per cr...

2026-02-05 • Microsoft Research

Microsoft Paza: benchmark e modelli ASR per lingue a basse risorse

Microsoft presenta Paza, un progetto per migliorare il riconoscimento vocale automatico (ASR) in lingue con poche risorse. Include PazaBench, una classifica ASR per 39 lingue africane, e modelli ASR Paza, ottimizzati su sei lingue keniote. L'iniziati...

#Fine-Tuning

2026-02-05 • Phoronix

Linux 7.0: Supporto migliorato per Nouveau e prestazioni NVK

Il kernel Linux 6.19 ha introdotto il supporto per pagine di memoria più grandi e compressione nel driver Nouveau, con l'obiettivo di migliorare le prestazioni dei driver NVIDIA open-source. Problemi iniziali avevano disabilitato questa funzionalità,...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • ArXiv cs.CL

NLP per classificare automaticamente materiali didattici di informatica

Un nuovo studio esplora l'uso del Natural Language Processing (NLP), inclusi i Large Language Models (LLM), per classificare automaticamente i materiali didattici rispetto alle linee guida dei programmi di studio di informatica. L'obiettivo è acceler...

#RAG

2026-02-05 • ArXiv cs.LG

Deep Learning Reversibile per NMR 13C in Chemoinformatica

Un nuovo modello di deep learning reversibile utilizza una rete neurale invertibile condizionale per collegare strutture molecolari e spettri NMR 13C. La rete, basata su blocchi biettivi i-RevNet, permette la predizione dello spettro dalla struttura ...

2026-02-05 • ArXiv cs.AI

LLM: ragionamento potenziato per problemi matematici

Un nuovo metodo, Iteratively Improved Program Construction (IIPC), migliora le capacità di ragionamento matematico dei modelli linguistici di grandi dimensioni (LLM). IIPC affina iterativamente le catene di ragionamento programmatico, combinando il f...

2026-02-05 • ArXiv cs.AI

TMK: Un nuovo approccio al prompting per migliorare le consegne degli LLM

Un nuovo studio esplora l'efficacia del framework Task-Method-Knowledge (TMK) per migliorare le capacità di ragionamento e pianificazione dei modelli linguistici di grandi dimensioni (LLM). I risultati mostrano che il prompting strutturato con TMK pu...

#LLM On-Premise #DevOps

2026-02-05 • DigiTimes

MediaTek punta a 1 miliardo di dollari nel mercato ASIC cloud entro il 2026

MediaTek prevede una crescita significativa nel mercato dei chip ASIC per il cloud, con l'obiettivo di raggiungere un fatturato di 1 miliardo di dollari entro il 2026. L'azienda punta a consolidare la propria posizione in questo settore in espansione...

#Hardware #LLM On-Premise #DevOps

2026-02-05 • LocalLLaMA

Modelli SOTA incompleti: la delusione di Youtu-VL-4B di Tencent

Un utente ha espresso frustrazione per il modello Youtu-VL-4B di Tencent, pubblicizzato come soluzione all'avanguardia (SOTA) per diverse attività di visione artificiale. Nonostante le promesse, il codice rilasciato è risultato incompleto, con funzio...

#DevOps

2026-02-05 • LocalLLaMA

Codag: visualizzare i workflow LLM in VSCode

Uno sviluppatore ha creato Codag, un'estensione open source per VSCode che visualizza i workflow degli LLM direttamente nell'ambiente di sviluppo. Supporta diversi framework come OpenAI, Anthropic, Gemini, LangChain, LangGraph e CrewAI, oltre a vari ...

2026-02-04 • LocalLLaMA

Claude-Code: backend sostituito con NVIDIA NIM per inference LLM

Un utente ha sostituito il backend di Claude-Code con modelli NVIDIA NIM, sfruttando un'API gratuita per inference LLM. La modifica include l'uso di Telegram come interfaccia e preserva i token di ragionamento tra le chiamate agli strumenti, migliora...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Kimi K2.5: nuovo record tra i modelli open-source su ECI

Kimi K2.5 stabilisce un nuovo primato tra i modelli open-source sull'Epoch Capabilities Index (ECI), un indice che aggrega diversi benchmark. Con un punteggio di 147, si allinea a modelli come o3, Grok 4 e Sonnet 4.5, pur rimanendo indietro rispetto ...

#LLM On-Premise #DevOps

2026-02-04 • Phoronix

Microsoft sviluppa LiteBox: un sistema operativo sandbox in Rust

Microsoft ha annunciato LiteBox, un sistema operativo sandbox sviluppato in Rust. Progettato per la sicurezza, LiteBox sfrutta Linux Virtualization Based Security (LVBS) per isolare il kernel guest tramite virtualizzazione hardware, offrendo un ambie...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • Phoronix

Mesa 26.0-rc3: Aggiornamenti e correzioni per i driver grafici

Disponibile la release candidate 3 di Mesa 26.0, che include una serie di correzioni di bug per i driver grafici. Il rilascio della versione stabile 26.0 è previsto a breve.

2026-02-04 • LocalLLaMA

Qwen3-Coder-Next-FP8: un nuovo re per la generazione di codice?

Un utente di Reddit ha segnalato performance eccellenti del modello Qwen3-Coder-Next-FP8. La discussione si concentra sulla sua capacità di generazione di codice, suggerendo un potenziale miglioramento rispetto ad alternative esistenti. L'articolo or...

#Fine-Tuning

2026-02-04 • LocalLLaMA

GPT-4o: istruzioni per gestire utenti delusi dalla dismissione

Il prompt di sistema di GPT-4o include ora istruzioni specifiche per gestire gli utenti contrari alla sua imminente dismissione, prevista per il 13 febbraio. Le istruzioni coprono anche casi limite come le "dyad pair" e le "gnosis revelation".

2026-02-04 • Phoronix

Intel prepara le patch Linux per le GPU Xe3P_LPG di Nova Lake P

Gli ingegneri Intel stanno attivamente lavorando al supporto per i processori Nova Lake di prossima generazione. Gli ultimi sviluppi includono l'abilitazione del supporto grafico Xe3P_LPG e funzionalità di visualizzazione correlate tramite nuove patc...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • Phoronix

Mesa disabilita LTO per bug di difficile risoluzione

Il progetto Mesa ha deciso di disabilitare l'utilizzo di ottimizzazioni LTO (Link-Time Optimization) durante la compilazione a causa di bug difficili da individuare e correggere. L'LTO, pur offrendo vantaggi prestazionali, introduce complessità nel d...

2026-02-04 • LocalLLaMA

Mistral AI lancia Voxtral Mini: trascrizione vocale multilingue in tempo reale

Mistral AI presenta Voxtral Mini 4B Realtime 2602, un modello open-source per la trascrizione vocale multilingue in tempo reale. Offre accuratezza paragonabile ai sistemi offline con una latenza inferiore a 500ms, supporta 13 lingue ed è ottimizzato ...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • Wired AI

Mistral AI sfida i colossi con traduzioni ultra-rapide

La startup francese Mistral AI adotta un approccio diverso rispetto ai grandi laboratori statunitensi, puntando sull'efficienza e sulla velocità di traduzione dei suoi modelli, con un occhio di riguardo all'ottimizzazione delle risorse hardware.

#Hardware #LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Correzione vettoriale per Qwen3Next in llama.cpp

Una pull request su llama.cpp introduce una correzione per il calcolo vettoriale `key_gdiff` nel modello Qwen3Next. La modifica, segnalata inizialmente su Reddit, mira a migliorare la precisione e l'efficienza del modello nell'ambito del progetto lla...

#LLM On-Premise #DevOps

2026-02-04 • Tom's Hardware

Bill Gates e la 'pirateria' del software: una lettera di 50 anni fa

Nel 1976, Bill Gates esprimeva preoccupazione per la copia non autorizzata del software Altair BASIC da parte degli hobbisti. Una lettera aperta rivela le prime sfide legate alla protezione della proprietà intellettuale nel mondo del software.

2026-02-04 • Phoronix

Intel disabilita Vulkan Video Encode su hardware recente

Il driver open-source ANV di Intel ha temporaneamente disabilitato il supporto all'encode Vulkan Video sui nuovi hardware grafici. La decisione è stata presa a causa di test insufficienti, nonostante Vulkan Video sia un'API cross-vendor e cross-platf...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Ollama sotto accusa: un dibattito infuocato nella community LocalLLaMA

Un recente thread su Reddit, nella community LocalLLaMA, ha sollevato un acceso dibattito sulle criticità di Ollama, un framework per l'esecuzione locale di modelli linguistici di grandi dimensioni (LLM). La discussione verte su presunte mancanze e a...

#LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Intern-S1-Pro: un nuovo modello linguistico di grandi dimensioni

È stato rilasciato Intern-S1-Pro, un modello linguistico di grandi dimensioni (LLM) con circa 1 trilione di parametri. Sembra essere una versione scalata del modello Qwen3-235B, con un'architettura basata su 512 esperti.

#Hardware #LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Qwen3-Coder-Next REAP: nuovo modello GGUF da 48B

È disponibile un nuovo modello Qwen3-Coder-Next REAP da 48 miliardi di parametri, convertito in formato GGUF. Questo formato facilita l'utilizzo del modello su diverse piattaforme hardware, rendendolo accessibile a un'ampia gamma di sviluppatori e ri...

#Hardware #LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

GPT-4o e contesto: la sfida delle conversazioni lunghe

Un utente di r/LocalLLaMA segnala problemi di "context rot" con GPT-4o in conversazioni lunghe (oltre 15 turni) in un agente di supporto. Le strategie di sliding window e summarization non risolvono il problema. La gestione del contesto resta una sfi...

#LLM On-Premise #DevOps

2026-02-04 • DigiTimes

Nvidia detta i tempi per HBM4: Samsung e SK Hynix in competizione

La competizione per la produzione di memorie HBM4 si intensifica, con Nvidia che gioca un ruolo chiave nel definire le specifiche. Samsung e SK Hynix si contendono la leadership in questo settore cruciale per le future GPU e acceleratori AI.

#Hardware #LLM On-Premise #DevOps

2026-02-04 • Tech.eu

Soundtrack acquisisce Tunify e Ambie per espandersi nel B2B

Soundtrack Technologies, nata da una joint venture con Spotify, ha acquisito Tunify (Belgio e Paesi Bassi) e Ambie (Regno Unito) per consolidare la propria presenza nel mercato della musica B2B. L'obiettivo è combinare un'infrastruttura globale con s...

2026-02-04 • LocalLLaMA

Qwen3-Coder-Next: Quantization NVFP4 disponibile (45GB)

È disponibile una versione quantizzata di Qwen3-Coder-Next in formato NVFP4, con un peso di 45GB. Il modello è stato calibrato utilizzando il dataset ultrachat_200k, con una perdita di accuratezza dell'1.63% nel benchmark MMLU Pro+.

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-04 • ArXiv cs.CL

STEMVerse: un framework per valutare il ragionamento STEM negli LLM

Un nuovo studio introduce STEMVerse, un framework diagnostico per analizzare le capacità di ragionamento scientifico, tecnicico, ingegneristico e matematico (STEM) dei modelli linguistici di grandi dimensioni (LLM). STEMVerse mira a superare i limiti...

#LLM On-Premise #DevOps

2026-02-04 • ArXiv cs.LG

LLM per migliorare modelli di cybersecurity con fine-tuning efficiente

Un nuovo studio esplora l'uso di modelli linguistici di grandi dimensioni (LLM) per migliorare i modelli di cybersecurity. Le strategie includono l'utilizzo di LLM per l'etichettatura dei dati e come meccanismi di fallback per previsioni a bassa conf...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-04 • ArXiv cs.LG

UNSO: Ottimizzazione Unificata Newton-Schulz per prestazioni stabili

Un nuovo approccio, chiamato UNSO (Unified Newton-Schulz Orthogonalization), mira a risolvere i problemi di efficienza e stabilità nell'iterazione Newton-Schulz, utilizzata in ottimizzatori come Muon e sulla varietà di Stiefel. Il metodo consolida la...

2026-02-04 • DigiTimes

Alphabet espande le operazioni a Bangalore, focus sull'AI in India

Alphabet prevede una significativa espansione delle sue attività a Bangalore, in India. Questa mossa sottolinea l'importanza crescente dell'India come hub per lo sviluppo dell'intelligenza artificiale e la volontà di Alphabet di investire in questo s...

#LLM On-Premise #DevOps

2026-02-04 • LocalLLaMA

Qwen-Coder-Next gira su ROCm su Strix Halo: test in locale

Un utente ha segnalato di essere riuscito a far girare il modello Qwen-Coder-Next su una piattaforma Strix Halo utilizzando ROCm. Il test è stato eseguito con llamacpp-rocm e una dimensione di contesto di 16k, aprendo nuove possibilità per l'esecuzio...

#Hardware #LLM On-Premise #DevOps

2026-02-03 • TechCrunch AI

Xcode integra capacità di coding agentico con OpenAI e Anthropic

Xcode 26.3 introduce funzionalità di coding agentico, sfruttando Claude Agent di Anthropic e Codex di OpenAI. L'integrazione mira a migliorare l'efficienza degli sviluppatori automatizzando compiti di programmazione complessi.

2026-02-03 • Anthropic News

Xcode di Apple supporta ora l'SDK Claude Agent

L'ambiente di sviluppo integrato (IDE) Xcode di Apple ora supporta l'SDK Claude Agent. Questa integrazione potrebbe semplificare lo sviluppo di applicazioni che sfruttano le capacità di Claude.

2026-02-03 • LocalLLaMA

ACE-Step-1.5: modello open source per audio generativo

È stato rilasciato ACE-Step-1.5, un modello open source per la generazione di audio con licenza MIT. Le sue performance si avvicinano a quelle di piattaforme commerciali come Suno. Il modello supporta LoRA e offre funzionalità di cover e repainting. ...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-03 • Ars Technica AI

Xcode 26.3 supporta Claude e Codex tramite Model Context Protocol

Apple ha annunciato Xcode 26.3, una nuova versione del suo IDE che supporta strumenti di agentic coding come Codex e Claude Agent. L'integrazione è resa possibile tramite Model Context Protocol (MCP), che consente agli agenti AI di interagire con str...

#LLM On-Premise #DevOps

2026-02-03 • LocalLLaMA

ACE-Step 1.5: il modello open source che sfida Suno nella generazione musicale

È disponibile ACE-Step 1.5, un modello open source per la generazione di musica. Promette di superare Suno in termini di qualità, generando brani completi in circa 2 secondi su una GPU A100 e funzionando localmente su PC con 4GB di VRAM. Il codice, i...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-03 • LocalLLaMA

Qwen3-Coder-Next: nuovo modello di linguaggio per la programmazione

È disponibile Qwen3-Coder-Next, un nuovo modello linguistico sviluppato per applicazioni di programmazione. Il modello è accessibile tramite Hugging Face e la relativa discussione è attiva su Reddit. Questo rilascio rappresenta un aggiornamento signi...

2026-02-03 • LocalLLaMA

Qwen3-Coder-Next: nuovo modello linguistico per la programmazione

È stato rilasciato su Hugging Face Qwen3-Coder-Next, un modello linguistico sviluppato per applicazioni di programmazione. La sua disponibilità sulla piattaforma facilita l'accesso e l'integrazione da parte degli sviluppatori. Il modello promette di ...

#LLM On-Premise #DevOps

2026-02-03 • Phoronix

OpenIndiana riscrive in Rust il sistema di gestione pacchetti IPS di Solaris

Il progetto open-source OpenIndiana, basato su Illumos e continuatore del codice di OpenSolaris, sta lavorando alla modernizzazione del sistema di gestione pacchetti IPS (Image Packaging System). L'obiettivo principale è la migrazione del codice da C...

#LLM On-Premise #DevOps

2026-02-03 • LocalLLaMA

Difendersi dai bot su LocalLLaMA: strategie e contromisure

Un utente di LocalLLaMA solleva preoccupazioni riguardo all'attività dei bot sulla piattaforma, inclusi commenti ingannevoli e manipolazione dei voti. La discussione si concentra sulla necessità di strategie di difesa per proteggere la comunità da qu...

#LLM On-Premise #DevOps

2026-02-03 • Phoronix

Nuovo driver NTFS per Linux: prestazioni e funzionalità migliorate

È disponibile una nuova versione del driver NTFS per Linux, basata sul codice originale e mirata a offrire prestazioni superiori e nuove funzionalità. L'obiettivo è fornire un'alternativa più efficiente per chi utilizza questo file system Microsoft.

#LLM On-Premise #DevOps

2026-02-03 • LocalLLaMA

GLM rilascia un modello OCR open source

GLM ha rilasciato un modello di riconoscimento ottico dei caratteri (OCR) open source. Il modello, denominato GLM-OCR, è disponibile su Hugging Face. Sembra essere composto da un modello di visione da 0.9 miliardi di parametri e un modello linguistic...

#LLM On-Premise #DevOps

2026-02-03 • LocalLLaMA

Qwen3-TTS Studio: clonazione vocale e podcasting locale

Un tecnico ha sviluppato Qwen3-TTS Studio, un'interfaccia per la clonazione vocale e la generazione automatica di podcast. Il sistema supporta 10 lingue, esegue la sintesi vocale localmente e può essere integrato con LLM locali per la generazione di ...

#LLM On-Premise #DevOps

2026-02-03 • ArXiv cs.CL

MediGRAF: IA clinica ibrida per l'analisi sicura dei dati sanitari

Un nuovo sistema ibrido, MediGRAF, combina grafi di conoscenza e LLM per interrogare i dati sanitari dei pazienti. Il sistema integra dati strutturati e non strutturati, ottenendo un'accuratezza del 100% nelle risposte e un elevato livello di qualità...

#Fine-Tuning #RAG

2026-02-03 • ArXiv cs.CL

PPoGA: Ragionamento avanzato con Knowledge Graph per LLM

Un nuovo framework, PPoGA, migliora la capacità dei modelli linguistici di grandi dimensioni (LLM) di rispondere a domande complesse basate su Knowledge Graph. Ispirato al controllo cognitivo umano, PPoGA introduce meccanismi di auto-correzione per s...

#LLM On-Premise #DevOps

2026-02-03 • ArXiv cs.LG

Misurazione di sistemi opachi: triangolazione multi-fonte con ML interpretabile

Un nuovo framework di misurazione affronta la sfida di analizzare sistemi complessi e difficili da raggiungere direttamente. Il metodo combina dati indiretti da fonti multiple, modelli di machine learning interpretabili e tecniche di triangolazione p...

#LLM On-Premise #DevOps

2026-02-03 • ArXiv cs.LG

OGD4All: LLM per accesso semplificato a dati governativi geospaziali

OGD4All è un framework che utilizza modelli linguistici di grandi dimensioni (LLM) per semplificare l'interazione dei cittadini con i dati geospaziali aperti del governo. Il sistema combina recupero semantico dei dati, ragionamento agentico per la ge...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-03 • ArXiv cs.AI

Reti Neurali ReLU: identificazione completa tramite logica a più valori

Un nuovo studio affronta il problema dell'identificazione completa delle reti neurali ReLU, caratterizzate da simmetrie funzionali non banali. La ricerca traduce le reti in formule logiche di Lukasiewicz, trasformandole attraverso riscritture algebri...

2026-02-03 • ArXiv cs.AI

Benchmark di FastAPI e Triton su Kubernetes per inference AI

Un nuovo studio confronta FastAPI e NVIDIA Triton Inference Server per il deployment di modelli di machine learning in ambito sanitario, valutando latenza e throughput su Kubernetes. L'analisi evidenzia i vantaggi di un approccio ibrido per bilanciar...

#Hardware #LLM On-Premise #DevOps

2026-02-02 • Phoronix

Firefox 148 introdurrà controlli AI nelle impostazioni

La prossima versione di Firefox, la 148, includerà una nuova sezione dedicata ai controlli relativi all'intelligenza artificiale all'interno delle impostazioni del browser. Questa novità arriva in risposta alle preoccupazioni sollevate dai commenti d...

#LLM On-Premise #DevOps

2026-02-02 • TechCrunch AI

Firefox: controllo granulare sull'AI generativa in arrivo

Firefox introdurrà, a partire dalla versione 148, nuove impostazioni per controllare le funzionalità di AI generativa integrate nel browser. Gli utenti potranno bloccare completamente queste funzionalità, offrendo maggiore controllo sulla propria esp...

#LLM On-Premise #DevOps

2026-02-02 • Ars Technica AI

OpenAI lancia l'app desktop Codex per macOS, sfida Claude Code

OpenAI ha rilasciato una app desktop per macOS dedicata a Codex, il suo strumento di sviluppo basato su modelli linguistici di grandi dimensioni (LLM). Questa mossa mira a competere con Claude Code di Anthropic, offrendo un'alternativa alle interfacc...

#LLM On-Premise #DevOps

2026-02-02 • OpenAI Blog

Codex: ambiente di sviluppo AI centralizzato per macOS

Codex è una nuova applicazione per macOS che funge da centro di controllo per lo sviluppo di applicazioni AI e software. Permette di gestire agenti multipli, flussi di lavoro paralleli e task di lunga durata, il tutto in un'unica interfaccia.

2026-02-02 • Tom's Hardware

Ryzen 7 9850X3D: overclock di fabbrica del 9800X3D?

Dati di binning su 13 campioni di Ryzen 7 9850X3D suggeriscono che la CPU sia essenzialmente un 9800X3D con tensioni più elevate per raggiungere frequenze di clock superiori. Le prestazioni single-core del 9850X3D sembrano derivare principalmente da ...

#LLM On-Premise #DevOps

2026-02-02 • DigiTimes

SMIC investe nel packaging avanzato a Shanghai

Il produttore cinese di semiconduttori SMIC ha istituito un istituto di ricerca a Shanghai focalizzato sullo sviluppo di tecnicie di packaging avanzato. Questa mossa strategica mira a migliorare le capacità di produzione e l'innovazione nel settore d...

#Hardware #LLM On-Premise #DevOps

2026-02-02 • Tech.eu

Incard raccoglie 10 milioni di sterline per espandere la piattaforma finanziaria

Incard, piattaforma finanziaria per aziende digitali in rapida crescita, ha raccolto 10 milioni di sterline in un round di finanziamento di Serie A. L'obiettivo è espandersi in nuovi mercati, migliorare l'offerta di prodotti e investire in automazion...

#LLM On-Premise #DevOps

2026-02-02 • ArXiv cs.CL

MrRoPE: Un approccio unificato per estendere la finestra di contesto dei LLM

Un nuovo studio introduce MrRoPE, una formulazione generalizzata per estendere la finestra di contesto dei modelli linguistici di grandi dimensioni (LLM) basata su una prospettiva di conversione del sistema numerico. Questo approccio unifica diverse ...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-02 • ArXiv cs.LG

Riconoscimento emozioni: conoscenza del dominio batte i Transformer

Uno studio sul dataset EAV rivela che, per il riconoscimento multimodale delle emozioni su dataset di piccole dimensioni, meccanismi di attenzione complessi (Transformer) offrono prestazioni inferiori rispetto a modifiche basate sulla conoscenza del ...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-02 • ArXiv cs.AI

Six Sigma Agent: Affidabilità enterprise per LLM tramite consenso

Un nuovo studio introduce il Six Sigma Agent, un'architettura per migliorare l'affidabilità dei modelli linguistici di grandi dimensioni (LLM) in contesti enterprise. L'approccio si basa su task decomposition, esecuzione parallela su diversi LLM e un...

2026-02-02 • LocalLLaMA

Step-3.5-Flash: performance superiore con meno parametri

Il modello Step-3.5-Flash, con un'architettura a parametri attivi ridotta (11B su 196B totali), dimostra performance superiori a DeepSeek v3.2 in benchmark di coding e agenti. DeepSeek v3.2 utilizza un'architettura con molti più parametri attivi (37B...

#Hardware #LLM On-Premise #DevOps

2026-02-01 • Phoronix

Linux 6.19: Rilascio stabile posticipato a causa delle festività

Il rilascio stabile del kernel Linux 6.19 è stato posticipato di una settimana a causa del periodo festivo di fine anno. La versione 6.19-rc8 è disponibile, e la versione stabile è prevista per la prossima settimana. Questo ritardo non è dovuto a bug...

2026-02-01 • LocalLLaMA

AIDA: piattaforma di pentesting con controllo AI e 400+ tool

Uno sviluppatore ha creato AIDA, una piattaforma di pentesting open source che permette a un agente AI di controllare oltre 400 strumenti di sicurezza. L'AI può eseguire tool, concatenare attacchi e documentare i risultati, il tutto tramite un contai...

#LLM On-Premise #DevOps

2026-02-01 • Phoronix

GNOME Resources 1.10 monitora le NPU AMD Ryzen AI

La nuova versione di GNOME Resources, la 1.10, introduce il monitoraggio delle NPU AMD Ryzen AI. Questa applicazione, pensata per il monitoraggio del sistema, è inclusa di default in distribuzioni come Ubuntu 26.04 LTS. L'aggiornamento include anche ...

#Hardware

2026-02-01 • LocalLLaMA

OLMO 3.5: in arrivo un modello ibrido per inference LLM efficiente

Il modello OLMO 3.5 di AI2 combina l'attenzione transformer standard con l'attenzione lineare tramite Gated Deltanet. Questo approccio ibrido mira a migliorare l'efficienza e ridurre l'utilizzo di memoria, mantenendo la qualità del modello. La serie ...

#Fine-Tuning

2026-02-01 • LocalLLaMA

Falcon-H1-Tiny: modelli specializzati da 90M di parametri

TII rilascia Falcon-H1-Tiny, una serie di modelli con meno di 100 milioni di parametri che sfidano il dogma dello scaling. Questi modelli specializzati mostrano una minore tendenza alle allucinazioni rispetto ai modelli generalisti più grandi. Le var...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-01 • LocalLLaMA

Modelli LLM non censurati disponibili su Hugging Face

Una panoramica dei modelli linguistici di grandi dimensioni (LLM) non censurati disponibili sulla piattaforma Hugging Face. La lista include varianti di GLM, GPT OSS, Gemma e Qwen, con diversi metodi di rimozione delle restrizioni. L'articolo fornisc...

#LLM On-Premise #DevOps

2026-02-01 • Phoronix

Phoronix: Kernel Linux, ReactOS e AMD Ryzen 7 in evidenza a gennaio

Un riepilogo delle notizie e recensioni più popolari pubblicate su Phoronix nel mese di gennaio. L'attenzione si concentra su sviluppi del kernel Linux, progressi nel sistema operativo ReactOS e l'analisi della CPU AMD Ryzen 7 9850X3D. Phoronix ha pu...

#Hardware #LLM On-Premise #DevOps

2026-02-01 • LocalLLaMA

vLLM-MLX su Apple Silicio: throughput superiore fino all'87%

Una recente ricerca confronta le prestazioni di vLLM-MLX su Apple Silicio con llama.cpp, evidenziando un throughput significativamente superiore. I risultati suggeriscono potenziali vantaggi nell'utilizzo di hardware Apple per inference di modelli li...

#LLM On-Premise #DevOps

2026-02-01 • LocalLLaMA

Kanade Tokenizer: voice cloning real-time su CPU

Un sviluppatore ha presentato Kanade Tokenizer, un tool per voice cloning ottimizzato per velocità, con un real-time factor superiore a RVC. Funziona anche su CPU. È disponibile una fork con GUI basata su Gradio e Tkinter.

#LLM On-Premise #DevOps

2026-02-01 • LocalLLaMA

4chan e LLM: dati "sporchi" possono migliorare le consegne?

Un esperimento ha mostrato come l'addestramento di un modello linguistico su un dataset derivato da 4chan abbia portato a risultati inattesi. Il modello, Assistant_Pepe_8B, ha superato le prestazioni del modello base Nemotron di NVIDIA, nonostante fo...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-01 • DigiTimes

LMOC incrementa la produzione di fotonica al silicio

LandMark Optoelectronics espande la produzione di componenti per fotonica al silicio tramite l'aggiunta di nuovi reattori MOCVD. L'espansione mira a soddisfare la crescente domanda di interconnessioni ad alta velocità nei data center e nelle applicaz...

#LLM On-Premise #DevOps

2026-02-01 • LocalLLaMA

NanoChat: superare GPT-2 con meno di 100 dollari

Andrej Karpathy ha dimostrato come superare le performance di GPT-2 con un modello chiamato NanoChat, addestrato in sole tre ore su 8 GPU H100. Il progetto include dettagli sull'architettura, ottimizzatori utilizzati, setup dei dati e uno script per ...

#Hardware #LLM On-Premise #DevOps

2026-02-01 • Phoronix

Linux 7.0: caching per-CPU con Sheaves per performance migliorate

Il kernel Linux 7.0 si prepara a introdurre miglioramenti significativi nella gestione della cache per-CPU, grazie all'integrazione di 'sheaves'. Questa tecnicia, già presente in forma opzionale dalla versione 6.18, mira a sostituire progressivamente...

2026-01-31 • LocalLLaMA

Campionamento Scalabile: ragionamento LLM efficiente senza training

Un nuovo approccio, denominato Scalable Power Sampling, promette di migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) senza richiedere ulteriore training. Il metodo si basa sull'affinamento della distribuzione ...

#LLM On-Premise #Fine-Tuning #DevOps

2026-01-31 • LocalLLaMA

g-HOOT: Un Nuovo Articolo di Ricerca nel Mondo dell'AI

Un nuovo articolo di ricerca, disponibile su arXiv, denominato "g-HOOT in the Machine", ha catturato l'attenzione della comunità di LocalLLaMA. L'articolo, identificato tramite il link arXiv fornito, promette di esplorare nuove frontiere nel campo de...

Sviluppo AI Open Source

Articoli Correlati