works/bPmatch/examples&statistics1D20.net

influenza della lunghezza minima l nel calcolo della copertura
Come già detto in precedenza, affinchè il confronto delle sequenze S e T sia significativo in termini statistici, cioè, affinchè le sequenze selezionate per la copertura abbiano una buona probabilità di essere significative e non siano semplicemente state prese per caso, occorre utilizzare un l superiore a logk(n).
Più è grande l, più il risultato della copertura è attendibile.
Di contro però, con l'aumentare dell'attendibilità, diminuisce la sensibilità. Questo perchè si ignorano tutte le sequenze più piccole di l che possono aver avuto il ruolo evolutivo che si va cercando.
Occorre quindi selezionare accuratamente un valore di l a seconda del rapporto sensibilità/attendibilità che si desidera ottenere.
grafici
Nei grafici seguenti si mostrano i rapporti tra l'occorrenza del caso 1 (in verde), l'occorrenza del caso 2 (in blu) e l'occorrenza del sottociclo del caso 2 (in rosso) come descritti dall'[algoritmo di copertura] precedentemente mostrato.
Dato che il caso 2 avviene solo immediatamente dopo l'inserimento di una nuova sequenza nella copertura, la porzione blu rappresenta anche la quantità di stringhe che costituiscono la copertura calcolata.

Coperture calcolate da [S generata casualmente a T generata casualmente].
Coperture calcolate da [S porzione di genoma umano a T porzione di genoma umano].
Coperture calcolate da [S generata casualmente a T porzione di genoma umano].
Coperture calcolate da [S porzione di genoma umano a T generata casualmente].

Si osserva chiaramente che anche se il sottociclo del caso 2 può causare un grande aumento del costo computazionale dell'algoritmo, tale aumento risulta presente unicamente nei dintorni di un valore di l prossimo a logk(n). Dai grafi risulta anche che se voglio dare attendibilità alla copertura ottenuta devo prendere valori di l superiori a questa zona critica: con l=20, ossia circa 2 log4(1000000), ho che la copertura risulta non essere vuota solo per il caso di sequenze di genoma utilizzate per coprire altre sequenze di genoma.
PHPMySQLTheGIMPsourceForge
©2002-2004 by Claudio Felicioli as pangon - mail -