Il panorama delle lingue artificiali è sempre stato popolato da creazioni umane, dal Dothraki di Game of Thrones al Klingon di Star Trek. Oggi, però, un modello di intelligenza artificiale chiamato ConlangCrafter è in grado di generare interi nuovi linguaggi senza intervento umano, spingendo i confini di ciò che un LLM può immaginare.

Pubblicato il 27 giugno negli atti dell’Association of Computer Linguists, lo studio dimostra come un sistema dedicato possa produrre lingue più diversificate e coerenti rispetto a modelli generici come Gemini-2.5-Pro. Il team di Gašper Beguš (UC Berkeley), Morris Alper (Carnegie Mellon) e Moran Yankua (Tel Aviv University) ha progettato ConlangCrafter per applicare regole linguistiche precise in ambiti come fonologia, morfosintassi e lessico, ma anche per lasciare spazio alla creatività algoritmica.

Come nasce una lingua artificiale

A differenza dei tentativi fatti con un semplice prompt su un LLM generalista, ConlangCrafter integra un generatore di numeri casuali che introduce variazioni sistematiche, garantendo che ogni lingua sia unica. Un ciclo di revisione automatico controlla poi la coerenza interna, intervenendo per eliminare contraddizioni. L’utente può scegliere le regole da applicare o lasciare che sia il sistema a inventarle, persino creando ibridi come un “giapponese-esperanto”.

“L’obiettivo è che le lingue siano creative e tutte diverse tra loro, ma anche coerenti”, spiega Alper. “Una lingua è un sistema di regole che non devono entrare in conflitto”. Per misurare la diversità, i ricercatori hanno analizzato differenze in caratteristiche come l’ordine delle parole; per la coerenza, hanno verificato che le traduzioni nelle lingue inventate rispettassero le regole interne. Risultato: il sistema completo è circa due volte più variegato e il 70% più coerente rispetto al prompting semplice di un LLM.

Perché è importante per la ricerca (e per i decisori IT)

Per chi sviluppa o valuta soluzioni NLP, la capacità di generare linguaggi artificiali con proprietà controllate ha implicazioni profonde. David Mortensen, ricercatore al Language Technologies Institute di CMU, osserva che “c’è una mole consistente di ricerche che suggerisce come la struttura linguistica influenzi le performance dei modelli, ma finora le ipotesi sono state difficili da testare”. ConlangCrafter permette di isolare variabili come la tipologia linguistica o il lessico, offrendo un ambiente sperimentale solido e riproducibile.

Da un punto di vista più ampio, lo strumento segnala una tendenza: i modelli specializzati possono battere quelli generalisti su compiti specifici, anche quelli creativi. Per le organizzazioni che gestiscono dati linguistici sensibili o che necessitano di controllo completo sull’infrastruttura – pensiamo a istituzioni accademiche o dipartimenti di linguistica computazionale – soluzioni come ConlangCrafter potrebbero essere eseguite localmente, garantendo sovranità sui dati e piena ripetibilità degli esperimenti. Non è un caso che il sistema sia disponibile anche per l’uso offline.

Oltre l’immaginazione: simulare mondi linguistici

Beguš guarda già al futuro: “Il prossimo passo sarà studiare l’ipotesi di Sapir-Whorf, secondo cui il modo in cui parliamo modella il nostro pensiero e la percezione del mondo”. L’idea è di simulare mondi diversi, ognuno con la propria lingua artificiale, per osservare come le strutture linguistiche influenzino ipotetiche società. Prima, però, ConlangCrafter dovrà evolversi per gestire dimensioni più complesse come la semantica, l’uso conversazionale e gli aspetti visivi della scrittura.

Nel frattempo, lo strumento è già una risorsa preziosa per esplorare le potenzialità dei LLM oltre la mera predizione di testo. Mentre l’industria corre verso modelli sempre più grandi, la scommessa di ConlangCrafter è che l’intelligenza linguistica passi anche dalla capacità di inventare con rigore.