Jak získáváme znaky pomocí sekvenace unikátních lokusů

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

Vestavné mikropočítačové systémy
VÝPOČET OC.
Statistická indukce Teorie odhadu.
Statistické metody pro testování asociace genů a nemocí
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
Obecně použitelné odvození
Single Nucleotide Polymorphism
Testování statistických hypotéz
Limitní věty.
Odhady parametrů základního souboru
ZÁKLADY EKONOMETRIE 10 cvičení Cobb-Douglas PF
Zarovnávání biologických sekvencí
Poznámky identifikaci SNP
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Získávání informací Získání informací o reálném systému
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Markery asistovaná selekce
Odhad genetických parametrů
Jak se pozná nejlepší strom?
Příklad přejímací kontroly A Příklad uvádí, jak ovlivní střední hodnota a směrodatná odchylka pravděpodobnost chyby (vadného výrobku). Ptáme se, kolik.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
Imunologické, mikrosatelity, SSCP, SINE
Vybraná rozdělení spojité náhodné veličiny
Generování náhodných veličin (2) Spojitá rozdělení
Stanovení genetické vzdálenosti
Využití v systematické biologii
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Lineární regresní analýza
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Experimentální fyzika I. 2
DNA Hybridizační techniky
GENETICKÁ A FENOTYPOVÁ
 VZNIK GENETICKÉ PROMĚNLIVOSTI = nejdůležitější mikroevoluční
Pravděpodobnost.
8. Kontingenční tabulky a χ2 test
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].
„AFLP, amplified fragment length polymorphism“
Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.
Ziheng Yang Bill Pearson Aidan Budd Nick Goldman.
Poissonovo rozdělení diskrétní náhodné veličiny
Inferenční statistika - úvod
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
IV..
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Odhady odhady bodové a intervalové odhady
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Induktivní statistika
Neparametrické testy parametrické a neparametrické testy
Odhady parametrů základního souboru
Induktivní statistika
GENETICKÁ A FENOTYPOVÁ
Fylogenetická evoluční analýza
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Jak získáváme znaky pomocí sekvenace unikátních lokusů
2. přednáška Differenciální rovnice
Obecně použitelné odvození
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

Jak získáváme znaky pomocí sekvenace unikátních lokusů rEKAPITULACE Jak získáváme znaky pomocí sekvenace unikátních lokusů Sekvenace lokusu u taxonů, které chceme studovat 1. Přednáška Stažení homologních sekvencí od relevantních taxonů z databáze 2. přednáška Tvorba alignmentu 3. přednáška Bude náplní prvního praktika 30. 11. 9:00

alignment Mutliple sequence alignment (MSA) Kontrolní otázka: Co v alignmentu představuje jeden znak?

FINGERPRINT Kontrolní otázka: Co ve fingerprintu představuje jeden znak?

ODHAD GENETICKÉ VZDÁLENOSTI

Distance z podobnosti vzorů RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (Mx, My) a dále fragmenty vyskytující se v obou elektroforetogramech ( Mxy) Vypočteme podíl shodných fragmentů I = 2Mxy/(Mx + My) a z něj distanci D= 1- I X Y

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Frekvence alel v jednom lokusu Alela Populace A Populace B 1 0,12 0,20 2 0,48 0,30 3 0,40 0,50 D= (0,5((0,12-0,20)2+(0,48-0,30)2+(0,40-0,50)2))0,5= (0,5(0,0064+0,0324+0,01))0,5= 0,156

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.

VÝPOČET „p“ p = nd/n p = 3/14 = 0,21 p = ΔTm . 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů p = nd/n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21 Odhad p z reasociační kinetiky DNA-DNA hybridizace p = ΔTm . 0,01 (0,015)

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p P distance není aditivní Počet pozorovaných rozdílů 0,75 DNA p P distance není aditivní Skutečný počet substitucí na jednu pozici

ODHAD POČTU SUBSTITUCÍ ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) A G C T u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut u/3

Rozdělení počtu výskytu málo pravděpodobných jevů Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů 25 let → 20 substitucí…pro 5 let ℷ=4 ∞ ℷ=4 ℷ=4 ℷ=4 λ - očekávaný počet událostí k – počet událostí Pravděpodobnost, že k žádné události nedojde (k=0) je e -ℷ Pravděpodobnost, že dojde právě ke k událostem je f(k,ℷ) = (ℷk e-ℷ)/k!

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut) u/3 Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) Očekávaný počet substitucí za čas t 4/3 ut

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds.

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Rozptyl D: V(D) = (p(1 -p))/(L(1 - 4/3 p)2) L= délka sekvence u/3

Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Jukes-Cantor příklad A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246 u/3

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut)

Jukes-Cantor Součet řádku je 1 A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 Suma = 1 4/3 ut 4/3 ut

Nekonečně vzdálené sekvence se podobají z 1/4 Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 ut=∞ Sekvence A Sekvence B 4/3 ut 4/3 ut Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí Rozptyl D: V(D) = [a2P + c2Q -(aP +cQ)2]/L c = (a + b)/2 L= délka sekvence

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254

DALŠÍ MODELY F84 Rovnovážné frekvence nukleotidů πA πC πG πT

General time reversible DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí.

RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Odhad počtu substitucí Skutečný počet substitucí

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

dxy = -ln (det Fxy) = -ln (0.002) = 6,216 LogDet distance dxy = -ln (det Fxy) Sekvence A Sekvence B Alignment 900 pozic Fxy =[ ] 0,249 0,006 0,027 0,009 0,003 0,166 0,001 0,018 0,027 0,006 0,256 0,004 0,006 0,021 0,009 0,194 dxy = -ln (det Fxy) = -ln (0.002) = 6,216

PŘEDPOKLADY MODELŮ Marcov property – substituční události nejsou ovlivněny minulostí. Rate homogeneity (v čase) – substituční rychlosti se v čase nemění (opak je „heterotachy“) Rate homogeneity (v místě) - substituční rychlosti se nemění v různých pozicích (opak je „rate heterogeneity across sites“) Stationarity – předpokládáme, že frekvence bazí jsou stále ve stejné rovnováze.

JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).