Generazione di sequenze simboliche realistiche
Un nuovo studio introduce un modello surrogato capace di generare sequenze simboliche che mimano fedelmente le caratteristiche statistiche del linguaggio scritto e del DNA genomico. Queste sequenze presentano distribuzioni di frequenza specifiche e correlazioni a lungo raggio.
Preservare frequenze e correlazioni
Il modello proposto preserva sia le frequenze empiriche dei simboli della sequenza originale sia la sua struttura di correlazione a lungo raggio, quantificata dall'esponente di analisi di fluttuazione detrended (DFA). Questo approccio supera i limiti dei modelli esistenti, che solitamente mantengono solo una delle due caratteristiche.
Mappatura e validazione
Il metodo genera surrogati di sequenze simboliche mappando rumore gaussiano frazionario (FGN) sull'istogramma empirico attraverso un'assegnazione che preserva la frequenza. I surrogati risultanti corrispondono all'originale nelle statistiche di primo ordine e nello scaling a lungo raggio, randomizzando al contempo le dipendenze a corto raggio. La validazione รจ stata eseguita su testi rappresentativi in inglese e latino, e l'applicabilitร รจ stata dimostrata con DNA genomico, riproducendo la composizione di base e lo scaling DFA.
Questo strumento permette di disaccoppiare le caratteristiche strutturali dei sistemi simbolici e di testare ipotesi sull'origine delle leggi di scaling e degli effetti di memoria in diversi domini, dal linguaggio al DNA.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!