Generazione di sequenze simboliche realistiche

Un nuovo studio introduce un modello surrogato capace di generare sequenze simboliche che mimano fedelmente le caratteristiche statistiche del linguaggio scritto e del DNA genomico. Queste sequenze presentano distribuzioni di frequenza specifiche e correlazioni a lungo raggio.

Preservare frequenze e correlazioni

Il modello proposto preserva sia le frequenze empiriche dei simboli della sequenza originale sia la sua struttura di correlazione a lungo raggio, quantificata dall'esponente di analisi di fluttuazione detrended (DFA). Questo approccio supera i limiti dei modelli esistenti, che solitamente mantengono solo una delle due caratteristiche.

Mappatura e validazione

Il metodo genera surrogati di sequenze simboliche mappando rumore gaussiano frazionario (FGN) sull'istogramma empirico attraverso un'assegnazione che preserva la frequenza. I surrogati risultanti corrispondono all'originale nelle statistiche di primo ordine e nello scaling a lungo raggio, randomizzando al contempo le dipendenze a corto raggio. La validazione รจ stata eseguita su testi rappresentativi in inglese e latino, e l'applicabilitร  รจ stata dimostrata con DNA genomico, riproducendo la composizione di base e lo scaling DFA.

Questo strumento permette di disaccoppiare le caratteristiche strutturali dei sistemi simbolici e di testare ipotesi sull'origine delle leggi di scaling e degli effetti di memoria in diversi domini, dal linguaggio al DNA.