Jak získáváme znaky pomocí sekvenace unikátních lokusů

Slides:

Advertisements

Podobné prezentace

Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny

Advertisements

Vestavné mikropočítačové systémy

Statistická indukce Teorie odhadu.

Statistické metody pro testování asociace genů a nemocí

Cvičení 9 – Ekonomická funkce nelineární v parametrech :

Obecně použitelné odvození

Single Nucleotide Polymorphism

Testování statistických hypotéz

Limitní věty.

Odhady parametrů základního souboru

ZÁKLADY EKONOMETRIE 10 cvičení Cobb-Douglas PF

Zarovnávání biologických sekvencí

Poznámky identifikaci SNP

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Získávání informací Získání informací o reálném systému

PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.

Markery asistovaná selekce

Odhad genetických parametrů

Jak se pozná nejlepší strom?

Příklad přejímací kontroly A Příklad uvádí, jak ovlivní střední hodnota a směrodatná odchylka pravděpodobnost chyby (vadného výrobku). Ptáme se, kolik.

8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.

Jak správně interpretovat ukazatele způsobilosti a výkonnosti

Imunologické, mikrosatelity, SSCP, SINE

Vybraná rozdělení spojité náhodné veličiny

Generování náhodných veličin (2) Spojitá rozdělení

Stanovení genetické vzdálenosti

Využití v systematické biologii

Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.

Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.

Genetická diverzita hospodářských zvířat

Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.

Lineární regresní analýza

Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.

Experimentální fyzika I. 2

DNA Hybridizační techniky

GENETICKÁ A FENOTYPOVÁ

 VZNIK GENETICKÉ PROMĚNLIVOSTI = nejdůležitější mikroevoluční

Pravděpodobnost.

8. Kontingenční tabulky a χ2 test

Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.

Normální rozdělení. U 65 náhodně vybraných živě narozených dětí byla zkoumána jejich porodní hmotnost [g] a délka [cm].

„AFLP, amplified fragment length polymorphism“

Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.

Ziheng Yang Bill Pearson Aidan Budd Nick Goldman.

Poissonovo rozdělení diskrétní náhodné veličiny

Inferenční statistika - úvod

Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.

SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.

POZNÁMKA: Pokud chcete změnit obrázek na tomto snímku, vyberte obrázek a odstraňte ho. Potom klikněte na ikonu Obrázek v zástupném textu a vložte vlastní.

Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.

DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..

Odhady odhady bodové a intervalové odhady

Obecně použitelné odvození

Jak se pozná nejlepší strom?

Induktivní statistika

Neparametrické testy parametrické a neparametrické testy

Odhady parametrů základního souboru

Induktivní statistika

GENETICKÁ A FENOTYPOVÁ

Fylogenetická evoluční analýza

ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných

Jak získáváme znaky pomocí sekvenace unikátních lokusů

2. přednáška Differenciální rovnice

Obecně použitelné odvození

SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p

7. Kontingenční tabulky a χ2 test

Induktivní statistika

Základy statistiky.

Transkript prezentace:

Jak získáváme znaky pomocí sekvenace unikátních lokusů rEKAPITULACE Jak získáváme znaky pomocí sekvenace unikátních lokusů Sekvenace lokusu u taxonů, které chceme studovat 1. Přednáška Stažení homologních sekvencí od relevantních taxonů z databáze 2. přednáška Tvorba alignmentu 3. přednáška Bude náplní prvního praktika 30. 11. 9:00

alignment Mutliple sequence alignment (MSA) Kontrolní otázka: Co v alignmentu představuje jeden znak?

FINGERPRINT Kontrolní otázka: Co ve fingerprintu představuje jeden znak?

ODHAD GENETICKÉ VZDÁLENOSTI

Distance z podobnosti vzorů RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (Mx, My) a dále fragmenty vyskytující se v obou elektroforetogramech ( Mxy) Vypočteme podíl shodných fragmentů I = 2Mxy/(Mx + My) a z něj distanci D= 1- I X Y

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Frekvence alel v jednom lokusu Alela Populace A Populace B 1 0,12 0,20 2 0,48 0,30 3 0,40 0,50 D= (0,5((0,12-0,20)2+(0,48-0,30)2+(0,40-0,50)2))0,5= (0,5(0,0064+0,0324+0,01))0,5= 0,156

Distance z frekvence alel Rogersova vzdálenost (pro všechny alely i lokusu v populacích XA a XB) D= (0,5 Σ(xAi - xBi)2)0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.

VÝPOČET „p“ p = nd/n p = 3/14 = 0,21 p = ΔTm . 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů p = nd/n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21 Odhad p z reasociační kinetiky DNA-DNA hybridizace p = ΔTm . 0,01 (0,015)

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p P distance není aditivní Počet pozorovaných rozdílů 0,75 DNA p P distance není aditivní Skutečný počet substitucí na jednu pozici

ODHAD POČTU SUBSTITUCÍ ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) A G C T u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut u/3

Rozdělení počtu výskytu málo pravděpodobných jevů Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů 25 let → 20 substitucí…pro 5 let ℷ=4 ∞ ℷ=4 ℷ=4 ℷ=4 λ - očekávaný počet událostí k – počet událostí Pravděpodobnost, že k žádné události nedojde (k=0) je e -ℷ Pravděpodobnost, že dojde právě ke k událostem je f(k,ℷ) = (ℷk e-ℷ)/k!

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut) u/3 Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) Očekávaný počet substitucí za čas t 4/3 ut

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) ut Sekvence A Sekvence B Substituční rychlost Časový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds.

příklad korekce na mnohonásobné substituce Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut) A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Rozptyl D: V(D) = (p(1 -p))/(L(1 - 4/3 p)2) L= délka sekvence u/3

Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Jukes-Cantor příklad A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246 u/3

Obecně použitelné odvození Jukes-Cantor Obecně použitelné odvození A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 G u/3 u/3 -u u/3 C u/3 u/3 u/3 -u T 4/3 ut 4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut)

Jukes-Cantor Součet řádku je 1 A G C T -u u/3 u/3 u/3 A u/3 -u u/3 u/3 Suma = 1 4/3 ut 4/3 ut

Nekonečně vzdálené sekvence se podobají z 1/4 Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 ut=∞ Sekvence A Sekvence B 4/3 ut 4/3 ut Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

Jukes-Cantor Sekvence A Sekvence B Je symetrický A G C T -u u/3 u/3

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY A G C T α β α Kimura 2P Kimura 2 parametrový

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí Rozptyl D: V(D) = [a2P + c2Q -(aP +cQ)2]/L c = (a + b)/2 L= délka sekvence

DALŠÍ MODELY Kimura 2P A G C T D = 0,5 ln(a) + 1/4 ln(b) Kimura 2 parametrový A G C T α β α D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254

DALŠÍ MODELY F84 Rovnovážné frekvence nukleotidů πA πC πG πT

General time reversible DALŠÍ MODELY GTR General time reversible + A G C T α ε β δ γ ζ Rovnovážné frekvence nukleotidů πA πC πG πT Parametry: frekvence (rychlost) záměn (αβγδεζ) a frekvence nukleotidů (πA πC πG πT) se odvozují z analyzovaných sekvencí.

RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Odhad počtu substitucí Skutečný počet substitucí

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ ACTGAACGTAACGC C T G C T T T C Koincidence Jednoduchá substituce Zpětná substituce Vícenásobná substituce K = 12, p = 3 Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

dxy = -ln (det Fxy) = -ln (0.002) = 6,216 LogDet distance dxy = -ln (det Fxy) Sekvence A Sekvence B Alignment 900 pozic Fxy =[ ] 0,249 0,006 0,027 0,009 0,003 0,166 0,001 0,018 0,027 0,006 0,256 0,004 0,006 0,021 0,009 0,194 dxy = -ln (det Fxy) = -ln (0.002) = 6,216

PŘEDPOKLADY MODELŮ Marcov property – substituční události nejsou ovlivněny minulostí. Rate homogeneity (v čase) – substituční rychlosti se v čase nemění (opak je „heterotachy“) Rate homogeneity (v místě) - substituční rychlosti se nemění v různých pozicích (opak je „rate heterogeneity across sites“) Stationarity – předpokládáme, že frekvence bazí jsou stále ve stejné rovnováze.

JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).