Performance e Benchmarking dei Modelli AI

2026-03-02 • ArXiv cs.LG

U-CAN: Unlearning efficiente per la raccomandazione generativa

Un nuovo framework, U-CAN, affronta le problematiche di privacy nei sistemi di raccomandazione generativa basati su LLM. U-CAN mitiga la perdita di utilità durante il machine unlearning, attenuando selettivamente i parametri sensibili nei low-rank ad...

#LLM On-Premise #Fine-Tuning #DevOps

2026-03-02 • ArXiv cs.AI

HumanMCP: Dataset per valutare le performance di tool retrieval

Presentato HumanMCP, un nuovo dataset su larga scala per valutare l'efficacia dei Model Context Protocol (MCP) server. Il dataset include query utente realistiche, diversificate e di alta qualità, progettate per simulare interazioni umane con 2800 to...

#Fine-Tuning

2026-03-01 • LocalLLaMA

Imminente rilascio del modello Qwen3.5 Small Dense?

Indiscrezioni su Reddit suggeriscono l'imminente rilascio di Qwen3.5 Small Dense. La comunità open source attende con interesse per valutare le performance e le potenziali applicazioni di questo modello.

#Hardware #LLM On-Premise #DevOps

2026-03-01 • LocalLLaMA

Qwen 3.5 27B: il modello cinese migliore sotto i 70B per traduzioni

Un utente di LocalLLaMA riporta che Qwen 3.5 27B offre traduzioni dal cinese paragonabili a GPT-3.5 e Gemini, superando altri modelli fino a 70B. Il modello è stato testato su una configurazione locale con 24GB di VRAM, evidenziando un'ottima resa in...

#LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

Google: Ragionamenti più lunghi non implicano maggior accuratezza nei LLM

Una nuova ricerca di Google mette in discussione l'assunto che catene di ragionamento più lunghe portino a risultati migliori nei modelli linguistici. Lo studio introduce il concetto di Deep Thinking Ratio (DTR) per misurare la qualità del ragionamen...

#LLM On-Premise #DevOps

2026-02-28 • LocalLLaMA

Aggiornamenti mensili sui modelli open-weight più performanti

Una panoramica mensile dei modelli open-weight più performanti, valutati in base alle discussioni e ai benchmark della comunità. L'iniziativa mira a fornire un framework aggiornato delle alternative open source ai modelli proprietari, con un focus su...

#LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

LLmFit: uno strumento per scegliere il modello LLM giusto per il tuo hardware

LLmFit è un tool da terminale che aiuta a identificare quale modello LLM si adatta meglio alle risorse hardware disponibili. Analizza RAM, CPU e GPU del sistema, valutando i modelli in base a qualità, velocità e contesto, suggerendo quelli più adatti...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Qwen 3.5: modelli da 27B e 35B eccellono nel ragionamento logico

I modelli Little Qwen 3.5 da 27B e Qwen 35B-A3B hanno dimostrato notevoli capacità di ragionamento logico in un benchmark specifico. I risultati, ottenuti tramite lineage-bench, evidenziano come modelli di dimensioni relativamente contenute possano g...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Qwen3.5: performance promettenti per carichi di lavoro reali

Un utente ha testato Qwen3.5-35B-A3B-UD-Q6_K_XL su progetti reali, riscontrando risultati positivi. La velocità di generazione dei token è elevata, specialmente su singola GPU. L'esperienza suggerisce un potenziale passaggio a un modello ibrido, con ...

#Hardware #LLM On-Premise #DevOps

2026-02-27 • LocalLLaMA

Qwen2.5-Coder-32B: fine-tuning batte ChatGPT 4o nel coding

Un utente ha eseguito il fine-tuning del modello Qwen2.5-Coder-32B, ottenendo performance superiori a ChatGPT 4o nei benchmark di coding. La notizia, diffusa su Reddit, evidenzia il potenziale dei modelli open source quando vengono ottimizzati per ta...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-27 • ArXiv cs.CL

GPT-5: Analisi contestuale e prompt engineering spinto

Un nuovo studio esplora l'uso di LLM, nello specifico GPT-5, per l'analisi del contesto di citazioni testuali. La ricerca si concentra sulla sensibilità dei prompt, variando la loro struttura per valutare come influenzano le interpretazioni del model...

2026-02-27 • ArXiv cs.AI

FIRE: Benchmark Completo per l'Intelligenza Finanziaria degli LLM

FIRE è un nuovo benchmark per valutare le capacità degli LLM in ambito finanziario. Include test di conoscenza teorica basati su esami di certificazione e scenari pratici con 3.000 domande. I risultati ottenuti con modelli all'avanguardia, come XuanY...

2026-02-26 • The Register AI

I modelli AI faticano ancora con la matematica, ma meno di prima

Secondo l'ORCA test, i modelli linguistici di grandi dimensioni (LLM) attuali, pur migliorando, rimangono prediction engine e non sempre forniscono la soluzione corretta ai problemi matematici. Anche Gemini 3 Flash, tra i più performanti, otterrebbe ...

#LLM On-Premise #DevOps

2026-02-26 • Phoronix

NVK: supporto ZCULL per NVIDIA open source con Mesa 26.1

L'integrazione di ZCULL nel driver Vulkan open source NVK di NVIDIA, tramite Mesa 26.1, promette piccoli miglioramenti nelle prestazioni di rendering. Questa ottimizzazione mira a rendere più efficiente l'elaborazione grafica.

#Hardware #LLM On-Premise #DevOps

2026-02-26 • LocalLLaMA

Qwen3.5-35B-A3B: GGUF ottimizzato per GPU da 24GB

Una nuova quantization GGUF per il modello Qwen3.5-35B-A3B promette prestazioni migliorate su GPU con 24GB di VRAM. L'ottimizzazione si concentra sull'utilizzo di tipi di quantization q8_0/q4_0/q4_1 e punta a una maggiore velocità, specialmente con b...

#Hardware #LLM On-Premise

2026-02-26 • ArXiv cs.LG

ACAR: Routing Adattivo per Ensemble Multi-Modello con Tracciabilità

ACAR è un framework per orchestrare modelli multipli, usando la varianza di auto-consistenza per indirizzare i task a configurazioni con uno, due o tre modelli. Implementato su TEAMLLM, ACAR valuta Claude Sonnet 4, GPT-4o e Gemini 2.0 Flash su benchm...

#LLM On-Premise #DevOps

2026-02-25 • IEEE Spectrum

L'AI supera gli umani nei test di matematica a livello di dottorato

I sistemi di intelligenza artificiale stanno rapidamente migliorando nella risoluzione di problemi matematici complessi, tanto da superare le capacità degli scienziati in alcuni ambiti. Nuovi benchmark sono necessari per valutare le reali capacità de...

2026-02-24 • TechCrunch AI

Multiverse Computing sfida Mistral con il modello HyperNova 60B

La startup spagnola Multiverse Computing ha rilasciato su Hugging Face una nuova versione del suo modello HyperNova 60B. L'azienda afferma che il modello supera le prestazioni di Mistral. Il modello è disponibile gratuitamente per la comunità.

2026-02-24 • PyTorch Blog

Helion accelera l'autotuning con l'ottimizzazione bayesiana

Helion, il DSL di alto livello per kernel di machine learning ad alte prestazioni, introduce un nuovo algoritmo di ricerca (LFBO Pattern Search) che sfrutta l'ottimizzazione bayesiana per ridurre drasticamente i tempi di autotuning. L'algoritmo, basa...

#Hardware

2026-02-24 • ArXiv cs.CL

ConfSpec: Ragionamento Speculativo Efficiente per LLM

ConfSpec è un framework che accelera l'inference dei modelli linguistici di grandi dimensioni (LLM) tramite verifica speculativa a livello di singolo passo. Sfrutta modelli di verifica più piccoli e calibrati per ridurre la latenza, mantenendo l'accu...

#Hardware #LLM On-Premise #DevOps

2026-02-24 • DigiTimes

Gemini 3.1 Pro alza l'asticella: la risposta di DeepSeek?

Google presenta Gemini 3.1 Pro, stabilendo un nuovo standard di riferimento nel settore dei modelli linguistici di grandi dimensioni. Resta da vedere come DeepSeek risponderà a questa nuova sfida.

2026-02-23 • LocalLLaMA

GLM-5 supera Kimi K2.5 nel benchmark NYT Connections

Il modello GLM-5 ha raggiunto un nuovo primato nel benchmark Extended NYT Connections, superando Kimi K2.5 Thinking. Questo risultato evidenzia i progressi nel campo dei modelli linguistici open-source e la loro capacità di risolvere compiti compless...

#LLM On-Premise #DevOps

2026-02-23 • LocalLLaMA

Benchmark di 17 LLM locali: focus sul tool calling

Un recente studio ha messo a confronto 17 modelli linguistici di grandi dimensioni (LLM) eseguiti localmente, valutandone le capacità di "tool calling" in scenari reali. La ricerca evidenzia come l'approccio "agentic loop", in cui il modello riceve f...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-23 • LocalLLaMA

Framework open-source per LLM locali: performance Gemini 3/GPT-5.2

Un nuovo framework open-source mira a colmare il divario prestazionale tra i modelli linguistici di grandi dimensioni (LLM) proprietari e le alternative eseguite localmente. L'obiettivo è raggiungere livelli di performance paragonabili a Gemini 3 Dee...

#LLM On-Premise #DevOps

2026-02-21 • LocalLLaMA

Wave Field LLM: attenzione O(n log n) tramite equazioni d'onda

Un nuovo meccanismo di attenzione per LLM, Wave Field LLM, utilizza equazioni d'onda per scalare a O(n log n). Il modello mappa i token su un campo continuo 1D e propaga le informazioni tramite equazioni d'onda smorzate. I risultati iniziali su WikiT...

2026-02-21 • LocalLLaMA

GLM-4.7: Modello Distillato per Ragionamento Avanzato in Locale

È disponibile su Hugging Face un modello distillato, denominato GLM-4.7, progettato per offrire capacità di ragionamento avanzate. Questa versione, menzionata da Unsloth, mira a fornire prestazioni elevate in contesti di utilizzo locale. Il modello è...

#Hardware #LLM On-Premise #DevOps

2026-02-21 • LocalLLaMA

GLM-5: Personalità "Claude" e Censura Bypassata?

Un utente ha scoperto che GLM-5, un modello linguistico di grandi dimensioni, cambia significativamente il suo comportamento quando gli viene detto di essere Claude di Anthropic. Questo cambio di personalità sembra anche aggirare alcune censure integ...

#LLM On-Premise #DevOps

2026-02-21 • LocalLLaMA

ChatJimmy: inference LLM a 15.000 token/s su silicio dedicato?

ChatJimmy.ai ha annunciato di aver raggiunto 15.000 token al secondo tramite un ASIC dedicato, incidendo i pesi del modello direttamente nel silicio. Questo approccio elimina i colli di bottiglia di HBM e VRAM, aprendo un dibattito sull'efficacia dei...

#Hardware #LLM On-Premise #DevOps

2026-02-21 • TechCrunch AI

Sarvam lancia Indus, una nuova app di chat AI in India

La startup indiana Sarvam AI ha lanciato Indus, una nuova applicazione di chat basata sull'intelligenza artificiale. Attualmente disponibile in versione beta, Indus si inserisce in un mercato in rapida espansione, dove la competizione tra i fornitori...

#LLM On-Premise #DevOps

2026-02-20 • OpenAI Blog

Modello AI tenta sfide matematiche di alto livello

Un modello di intelligenza artificiale si confronta con il First Proof math challenge, una competizione che mette alla prova le capacità di ragionamento su problemi complessi. L'iniziativa mira a valutare le performance dei modelli AI in scenari che ...

2026-02-20 • Tom's Hardware

Test di benchmark GPU di nuova generazione: cosa aspettarsi nel 2026

Un'anteprima dei test di benchmark per le GPU di prossima generazione, inclusi i modelli RTX 50 e RX 9000. L'articolo si concentra sulle metodologie di test e sulle aspettative di performance, escludendo upscaling e frame generation.

#Hardware #LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Deepseek e Gemma: confronto nella community LocalLLaMA

Un post su Reddit, nella comunità LocalLLaMA, mette a confronto i modelli Deepseek e Gemma. La discussione verte sulle caratteristiche e le performance di questi modelli, con un focus sull'utilizzo in contesti locali. L'articolo originale include un'...

#LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Benchmark di allucinazione: Kimi K2.5 supera Opus 4.6 nel settore farmaceutico

Un recente benchmark ha valutato le capacità di diversi modelli linguistici di grandi dimensioni (LLM) nel settore farmaceutico, concentrandosi sulla tendenza a generare allucinazioni. Sorprendentemente, Kimi K2.5 ha mostrato prestazioni superiori ri...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-20 • AI News

IA: Ottimismo dei dirigenti sull'impatto futuro su produttività e assunzioni

Un recente studio internazionale rivela che l'IA ha prodotto modesti aumenti di produttività e cambiamenti nell'occupazione. I dirigenti prevedono un'accelerazione di questi effetti nei prossimi tre anni, con incrementi di produttività previsti fino ...

#LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

SanityBoard: Nuovi Modelli LLM e Agenti Open Source a Confronto

SanityBoard si aggiorna con nuovi risultati di benchmark per modelli come Qwen3.5 Plus, GLM 5 e Gemini 3.1 Pro, oltre a tre nuovi agenti open source per la generazione di codice. L'analisi evidenzia l'importanza dell'infrastruttura e delle caratteris...

#LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Luma v2.9: un LLM compatto addestrabile in locale

È stato rilasciato Luma v2.9, un modello di linguaggio di piccole dimensioni (circa 10 milioni di parametri) basato su architettura transformer. La particolarità è che può essere addestrato con dati personalizzati ed eseguito interamente in locale, s...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-20 • ArXiv cs.CL

Valutazione di LLM per il greco: il benchmark DemosQA

Un nuovo studio presenta DemosQA, un dataset per il Question Answering in greco, creato a partire da domande degli utenti sui social media. La ricerca valuta 11 modelli linguistici, sia monolingui che multilingue, utilizzando diverse strategie di pro...

#Fine-Tuning

2026-02-20 • ArXiv cs.CL

LLM: valutatori guidati da riferimento migliorano l'allineamento

Un nuovo studio esplora l'uso di valutatori LLM guidati da riferimenti per migliorare l'allineamento dei modelli linguistici di grandi dimensioni (LLM) in ambiti non verificabili. I risultati mostrano che questo approccio può migliorare significativa...

#LLM On-Premise #DevOps

2026-02-20 • ArXiv cs.AI

LLM e GraphRAG per la generazione di Design Structure Matrix

Un nuovo studio esplora l'uso di modelli linguistici di grandi dimensioni (LLM) e Retrieval-Augmented Generation (RAG) basata su grafi (GraphRAG) per automatizzare la creazione di Design Structure Matrices (DSM) in sistemi cyber-fisici. La ricerca va...

#LLM On-Premise #DevOps #RAG

2026-02-20 • ArXiv cs.AI

Ontologia AIdentifyAGE per supporto decisionale in odontoiatria forense

Presentata l'ontologia AIdentifyAGE, uno strumento per standardizzare e rendere più trasparenti le valutazioni dell'età in ambito forense, in particolare nei casi di minori non accompagnati. L'ontologia mira a migliorare l'interoperabilità tra sistem...

2026-02-20 • LocalLLaMA

Qwen3 Coder Next: performance impressionanti con 102GB di RAM

Un utente ha testato Qwen3 Coder Next 8FP convertendo la documentazione Flutter con un prompt di sole tre frasi e una finestra di contesto di 64K token. Il modello ha richiesto 102GB di RAM su 128GB disponibili, superando altri modelli OSS come GPT O...

#Hardware

2026-02-20 • TechCrunch AI

Google Gemini Pro 3.1: prestazioni da record nei benchmark

Il nuovo modello Gemini Pro 3.1 di Google promette capacità avanzate per la gestione di carichi di lavoro complessi. Le prestazioni nei benchmark suggeriscono un significativo passo avanti nelle capacità dei LLM di Google.

#LLM On-Premise #DevOps

2026-02-20 • LocalLLaMA

Gemini 3.1 in Arrivo Prima di Gemma 4: Anticipazioni

Indiscrezioni suggeriscono che Google potrebbe rilasciare Gemini 3.1 prima di Gemma 4. La notizia, apparsa su Antigravity e rilanciata su Reddit, alimenta le speculazioni sulle prossime mosse di Google nel campo dei modelli linguistici di grandi dime...

2026-02-19 • LocalLLaMA

GLM-5: un LLM sopravvive (quasi) un mese su FoodTruck Bench

GLM-5, un modello linguistico di grandi dimensioni (LLM), ha quasi completato un mese di test sulla piattaforma FoodTruck Bench, progettata per simulare scenari di business reali. Nonostante una buona capacità diagnostica e un utilizzo efficiente deg...

#LLM On-Premise #DevOps

2026-02-19 • The Register AI

Google presenta Gemini 3.1 Pro, promettendo capacità di ragionamento avanzate

Google ha annunciato Gemini 3.1 Pro, descrivendolo come un passo avanti nelle capacità di ragionamento. Questo nuovo modello di intelligenza artificiale promette prestazioni migliorate in diversi ambiti, alimentando la competizione nel settore dei mo...

#Hardware #LLM On-Premise #DevOps

2026-02-19 • Ars Technica AI

Google presenta Gemini 3.1 Pro, punta su problem-solving complesso

Google ha annunciato Gemini 3.1 Pro, l'ultima versione del suo modello di intelligenza artificiale. Promette miglioramenti significativi nelle capacità di problem-solving e ragionamento. Il modello è attualmente in anteprima per sviluppatori e consum...

#LLM On-Premise #DevOps

2026-02-19 • LocalLLaMA

TextWeb: Rendering di pagine web in formato testo per agenti AI

TextWeb è un progetto open source che trasforma pagine web in griglie di testo di dimensioni ridotte (2-5KB), ideali per l'elaborazione da parte di agenti AI. Invece di screenshot da 1MB, TextWeb utilizza MCP, LangChain e CrewAI per una rappresentazi...

#LLM On-Premise #DevOps

2026-02-19 • Phoronix

Simdjson: parsing JSON ancora più veloce con SIMD, +30% di boost

Il progetto open-source Simdjson, focalizzato sul parsing ad alte prestazioni di file JSON tramite istruzioni SIMD, ha annunciato la versione 4.3. Questo aggiornamento introduce ulteriori ottimizzazioni SIMD, incrementando ulteriormente la velocità d...

#LLM On-Premise #DevOps

2026-02-19 • LocalLLaMA

Kitten TTS V0.8: Modello text-to-speech super-compatto open source

Kitten ML ha rilasciato Kitten TTS V0.8, una serie di modelli text-to-speech (TTS) open source di dimensioni estremamente ridotte, con il modello più piccolo che occupa meno di 25 MB. Questi modelli, disponibili con licenza Apache 2.0, offrono otto v...

#Hardware #LLM On-Premise #Fine-Tuning

2026-02-19 • ArXiv cs.CL

LLM per classificare tabelle web con poche consegne

Un nuovo studio esplora l'uso di modelli linguistici di grandi dimensioni (LLM) per classificare dati tabellari estratti dal web, come cataloghi di prodotti o dataset scientifici. Il metodo, chiamato TaRL, utilizza semantic embeddings delle righe del...

#LLM On-Premise #DevOps #RAG

2026-02-19 • ArXiv cs.CL

Paradosso Perplexity: LLM e Compressione del Codice

Una nuova ricerca rivela che i modelli linguistici di grandi dimensioni (LLM) gestiscono meglio la compressione del codice rispetto ai problemi matematici. L'analisi per-token evidenzia come la sintassi del codice venga preservata, mentre i valori nu...

2026-02-19 • LocalLLaMA

Visualizzazione Avanzata delle Tecniche di Quantization per LLM Locali

Un utente di Reddit ha ripreso e ampliato un lavoro precedente sulla visualizzazione delle tecniche di quantization, includendo nuovi tipi e misurazioni di PPL/KLD per valutare l'efficienza. Il codice sorgente e alcuni risultati sono disponibili su C...

#LLM On-Premise #DevOps

2026-02-18 • LocalLLaMA

Benchmark LLM: Ragionamento logico e il test 'dell'autolavaggio'

Un test su 53 modelli linguistici ha valutato la loro capacità di risolvere un semplice problema di ragionamento: se l'autolavaggio è a 50 metri, è meglio andare a piedi o in auto? Solo una minoranza ha risposto correttamente in modo consistente, evi...

#LLM On-Premise #DevOps

2026-02-18 • LocalLLaMA

LLM valutano altri LLM: un'analisi meta

Un utente di Reddit ha riproposto un esperimento interessante: far valutare a diversi modelli linguistici le performance di altri LLM su criteri specifici. I dati raccolti sono disponibili su Hugging Face per ulteriori analisi e confronti.

#LLM On-Premise #DevOps

2026-02-18 • Tom's Hardware

DLSS 4.5 di Nvidia primeggia su FSR e rendering nativo nei test

Nei test alla cieca su sei titoli, DLSS 4.5 di Nvidia ha ottenuto risultati significativamente superiori rispetto a FSR di AMD e al rendering nativo. I risultati indicano una preferenza marcata tra i videogiocatori su PC per la tecnicia di Nvidia, ev...

#Hardware #LLM On-Premise #DevOps

2026-02-18 • LocalLLaMA

GLM-5: Nuove tecniche per ridurre i costi di training e inference

Il report tecnico di GLM-5 rivela innovazioni chiave come l'adozione di DSA per ridurre i costi di training e inference, un'infrastruttura RL asincrona per migliorare l'efficienza del post-training e algoritmi Agent RL per un apprendimento più effica...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-18 • ArXiv cs.CL

EduResearchBench: Benchmark per valutare LLM nella scrittura accademica

Presentato EduResearchBench, una piattaforma di valutazione per modelli linguistici di grandi dimensioni (LLM) nella scrittura accademica. Il benchmark utilizza un framework di task atomici gerarchici per valutare le capacità dei modelli in diversi m...

2026-02-18 • ArXiv cs.LG

Rilevamento anomalie: embedding di serie temporali e feature engineering

Un nuovo approccio ibrido combina embedding di serie temporali da Granite TinyTimeMixer con feature statistiche per il rilevamento di anomalie in apparecchiature HVAC. L'integrazione, valutata su oltre 50.000 campioni, raggiunge un'alta precisione e ...

#LLM On-Premise #Fine-Tuning #DevOps

2026-02-18 • The Register AI

Anthropic: Sonnet 4.6 migliora in coding e ragionamento

Anthropic ha rilasciato la versione 4.6 del modello Sonnet, focalizzandosi su un miglioramento delle capacità di coding, ragionamento e pianificazione. Il modello promette anche risposte più 'calde, oneste e prosociali'.

#LLM On-Premise #DevOps

2026-02-17 • LocalLLaMA

Test di ragionamento: i modelli AI falliscono sul lavaggio auto

Un test condotto su 53 modelli di AI ha rivelato difficoltà nel ragionamento di base. Molti modelli hanno fornito risposte errate a una semplice domanda sul lavaggio auto, suggerendo che le capacità di ragionamento del mondo reale sono ancora una sfi...

2026-02-17 • LocalLLaMA

Qwen3.5: Architetture di Attenzione Sotto Esame

Un articolo di Maxime Labonne esplora le diverse implementazioni dell'attenzione nel modello linguistico Qwen3.5. La discussione, nata su Reddit, evidenzia come non ci sia un consenso unanime sulle architetture di attenzione più efficaci, aprendo un ...

#LLM On-Premise #DevOps

2026-02-17 • ArXiv cs.CL

LLM e traduzione automatica: attenzione all'urgenza nei contesti di crisi

I modelli linguistici di grandi dimensioni (LLM) vengono proposti sempre più spesso per la gestione delle crisi, in particolare per la comunicazione multilingue. Uno studio recente evidenzia come le traduzioni automatiche, anche se linguisticamente c...

#LLM On-Premise #DevOps

2026-02-17 • ArXiv cs.CL

Selezione Dati ASR Multimodale per Adattamento Accento

Un nuovo approccio per migliorare i sistemi di riconoscimento automatico del parlato (ASR) in presenza di accenti diversi. La tecnica utilizza la coerenza multimodale per selezionare dati di addestramento senza necessità di etichette, riducendo il di...

#Fine-Tuning

2026-02-17 • ArXiv cs.LG

Quantificazione dell'incertezza nei modelli generativi: un nuovo approccio

Un nuovo framework, Directional Concentration Uncertainty (DCU), promette di migliorare l'affidabilità dei modelli generativi. DCU quantifica l'incertezza misurando la dispersione geometrica degli output, superando le euristiche tradizionali e genera...

#LLM On-Premise #DevOps

2026-02-16 • LocalLLaMA

Qwen 3 Max-Thinking: prestazioni superiori nel ragionamento spaziale

Un benchmark di ragionamento spaziale (MineBench) mostra un significativo miglioramento nelle prestazioni del modello Qwen 3 Max-Thinking rispetto a Qwen 3.5. I risultati suggeriscono che Qwen 3 Max-Thinking si avvicina o supera modelli come Opus 4.6...

2026-02-16 • LocalLLaMA

Qwen 3.5 in difficoltà su Vending-Bench 2: analisi dei risultati

Un utente ha segnalato difficoltà del modello linguistico Qwen 3.5 nell'esecuzione del benchmark Vending-Bench 2. L'analisi dei risultati, condivisa su Reddit, evidenzia i limiti del modello in questo specifico scenario. Vending-Bench 2 è progettato ...

#LLM On-Premise #DevOps

2026-02-16 • ArXiv cs.LG

Abstractive Red-Teaming: Testare i Modelli Linguistici su Caratteristiche Specifiche

Un nuovo approccio, chiamato abstractive red-teaming, mira a identificare query che violano le specifiche di comportamento dei modelli linguistici. L'obiettivo è scovare categorie di domande problematiche prima del deployment su larga scala, utilizza...

#LLM On-Premise #DevOps

2026-02-16 • ArXiv cs.AI

Benchmark AI: un framework adattivo per valutazioni pesate

Un nuovo studio introduce un framework teorico per ripensare il benchmarking nell'ambito dell'intelligenza artificiale, in particolare per i modelli linguistici di grandi dimensioni. Il framework propone un approccio adattivo che integra le priorità ...

#LLM On-Premise #DevOps

Performance e Benchmarking dei Modelli AI

Articoli Correlati