Jak získáváme znaky pomocí sekvenace unikátních lokusů rEKAPITULACE Jak získáváme znaky pomocí sekvenace unikátních lokusů Sekvenace lokusu u taxonů, které chceme studovat 1. Přednáška Stažení homologních sekvencí od relevantních taxonů z databáze 2. přednáška Tvorba alignmentu 3. přednáška Bude náplní prvního praktika 30. 11. 9:00
alignment Mutliple sequence alignment (MSA) Kontrolní otázka: Co v alignmentu představuje jeden znak?
FINGERPRINT Kontrolní otázka: Co ve fingerprintu představuje jeden znak?
ODHAD GENETICKÉ VZDÁLENOSTI
Distance z podobnosti vzorů RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (Mx, My) a dále fragmenty vyskytující se v obou elektroforetogramech ( Mxy) Vypočteme podíl shodných fragmentů I = 2Mxy/(Mx + My) a z něj distanci D= 1- I X Y
Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Frekvence alel v jednom lokusu Alela Populace A Populace B 1 0,12 0,20 2 0,48 0,30 3 0,40 0,50 D= (0,5((0,12-0,20)2+(0,48-0,30)2+(0,40-0,50)2))0,5= (0,5(0,0064+0,0324+0,01))0,5= 0,156
Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.
VÝPOČET „p“ p = nd/n p = 3/14 = 0,21 p = ΔTm . 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů p = nd/n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21 Odhad p z reasociační kinetiky DNA-DNA hybridizace p = ΔTm . 0,01 (0,015)
FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p P distance není aditivní Počet pozorovaných rozdílů 0,75 DNA p P distance není aditivní Skutečný počet substitucí na jednu pozici
ODHAD POČTU SUBSTITUCÍ ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC
příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) A G C T u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut u/3
Rozdělení počtu výskytu málo pravděpodobných jevů Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů 25 let → 20 substitucí…pro 5 let ℷ=4 ∞ ℷ=4 ℷ=4 ℷ=4 λ - očekávaný počet událostí k – počet událostí Pravděpodobnost, že k žádné události nedojde (k=0) je e -ℷ Pravděpodobnost, že dojde právě ke k událostem je f(k,ℷ) = (ℷk e-ℷ)/k!
příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut) u/3 Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) Očekávaný počet substitucí za čas t 4/3 ut
příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds.
příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Rozptyl D: V(D) = (p(1 -p))/(L(1 - 4/3 p)2) L= délka sekvence u/3
Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Jukes-Cantor příklad A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246 u/3
Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut)
Jukes-Cantor Součet řádku je 1 A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 Suma = 1 4/3 ut 4/3 ut
Nekonečně vzdálené sekvence se podobají z 1/4 Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 ut=∞ Sekvence A Sekvence B 4/3 ut 4/3 ut Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p
Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3
Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3
DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový
DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový
DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí Rozptyl D: V(D) = [a2P + c2Q -(aP +cQ)2]/L c = (a + b)/2 L= délka sekvence
DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254
DALŠÍ MODELY F84 Rovnovážné frekvence nukleotidů πA πC πG πT
General time reversible DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí.
RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Odhad počtu substitucí Skutečný počet substitucí
FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).
dxy = -ln (det Fxy) = -ln (0.002) = 6,216 LogDet distance dxy = -ln (det Fxy) Sekvence A Sekvence B Alignment 900 pozic Fxy =[ ] 0,249 0,006 0,027 0,009 0,003 0,166 0,001 0,018 0,027 0,006 0,256 0,004 0,006 0,021 0,009 0,194 dxy = -ln (det Fxy) = -ln (0.002) = 6,216
PŘEDPOKLADY MODELŮ Marcov property – substituční události nejsou ovlivněny minulostí. Rate homogeneity (v čase) – substituční rychlosti se v čase nemění (opak je „heterotachy“) Rate homogeneity (v místě) - substituční rychlosti se nemění v různých pozicích (opak je „rate heterogeneity across sites“) Stationarity – předpokládáme, že frekvence bazí jsou stále ve stejné rovnováze.
JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).