Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.

Slides:



Advertisements
Podobné prezentace
Stanovení objemu stojících stromů
Advertisements

Konstrukce trojúhelníků
Výpočet zásoby porostu na zkusných plochách při požadované přesnosti
Obecně použitelné odvození
Dopravní úloha Literatura Kosková I.: Distribuční úlohy I.
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
SINOVÁ VĚTA PRO III. ROČNÍK SOU Poznámky pro žáky se SPU DOC PDF
LOGISTICKÉ SYSTÉMY 6/14.
GEOMETRICKÉ TVARY v rozsahu učiva 1. stupně ZŠ
Diskrétní matematika Opakování - příklady.
Aplikace teorie grafů Základní pojmy teorie grafů
NORMOVANÉ NORMÁLNÍ ROZDĚLENÍ
Odhady parametrů základního souboru
Goniometrické funkce Řešení pravoúhlého trojúhelníku
Cvičení 6 – 25. října 2010 Heteroskedasticita
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
Matematika a její využití v geografii
Zarovnávání biologických sekvencí
Prof. Ing. Václav Řehout, CSc.
Procenta Výpočet počtu procent
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Matematika Lichoběžník.
X. Řešení úloh v testech Scio z obecných studijních předpokladů
LOGISTICKÉ SYSTÉMY 7/14.
Získávání informací Získání informací o reálném systému
TRIGONOMETRIE OBECNÉHO TROJÚHELNÍKU
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
19_Obvody a obsahy rovinných obrazců
Jazyk vývojových diagramů
Nejmenší společný násobek
Jak se pozná nejlepší strom?
Shluková analýza.
1) Určete odchylku přímek AC a CC´
Stanovení genetické vzdálenosti
Střední odborné učiliště Liběchov Boží Voda Liběchov Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona:IV/2 Inovace a zkvalitnění výuky.
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
Shluková analýza.
Čtyřúhelníky Matematika – 7. ročník
* Rovnoběžníky Matematika – 7. ročník *
Bioinformatika Predikce genů, Fylogenetická analýza
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Experimentální fyzika I. 2
Průměr Maximum Minimum
JAK NAJÍT NEJLEPŠÍ STROM
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vstup: Úplný graf G=(V,E), ohodnocení hran d:E → R + Výstup: Nejkratší Hamiltonovská cesta HC v grafu G Najdi minimální kostru K grafu G Pokud K neobsahuje.
Vyhledávání vzorů (template matching)
Čtyřúhelníky a rovnoběžníky
Známe-li délku úhlopříčky.
ÚVOD DO FYLOGENETICKÉ ANALÝZY II..
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Alena Čechová. Dostupné z Metodického portálu ISSN: , financovaného.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Obecně použitelné odvození
Jak se pozná nejlepší strom?
Čtyřúhelníky Druhy čtyřúhelníků.
Čtyřúhelníky Druhy čtyřúhelníků
Matematika 2 Geometrické útvary.
Fylogenetická evoluční analýza
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Domácí úkol Pro molekulu morfinu (vzorec si najděte na Internetu) vytvořte: FSR (kořen = atom N) SAR SSSR Popište složitost jednotlivých kroků algoritmu.
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Jak se pozná nejlepší strom?
Induktivní statistika
Transkript prezentace:

Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p

Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo nebereme v potaz různou frekvenci různých typů záměn, frekvenci nukleotidů, ODHAD POČTU SUBSTITUCÍ

Jukes-Cantor Obecně použitelné odvození 4/3 ut u/3 -u u/3 -u u/3 -u A GCT A G C T D = ut = -3/4 ln(1- 4/3 p) D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) JC K2P

A G C T α εβ δ γ ζ GTR General time reversible + DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T Parametry: frekvence (rychlost) záměn ( αβγδεζ ) a frekvence nukleotidů ( π A π C π G π T ) se odvozují z analyzovaných sekvencí zároveň s výpočtem D metodou maximum likelihood (přednáška 4. 4.). P(t)=e Qt, celková rychlost=1 pak D=t

PROTEINOVÉ MODELY D = -19/20 ln(1- 20/19 p) Poissonův model: p - procento rozdílných aminokyselin Obdoba nukleotidového Jukes-Cantorova modelu předpokládá stejnou frekvenci všech typů záměn a stejnou frekvenci aminokyselin. D = -3/4 ln(1- 4/3 p)

PROTEINOVÉ MODELY PAM 001 – rozdíly v sekvencích proteinů odpovídající D=0,01. Matice se dá přepočítat na vyšší D umocněním, např. D=0,1 ~ M 10 (PAM10) P=e D P x =e xD Q = lnP

Novější substituční matice (Q) odvozené ze skutečných proteinů LG (LG-F) WAG (WAG-F) JTT (JTT-F) mtREV (mtREV-F) PROTEINOVÉ MODELY

Sekvence A Sekvence B ODKUD SE BEROU RELATIVNÍ RYCHLOSTI SUBSTITUCÍ DNA – z počtu pozorovaných záměn v našich sekvencích Proteiny – z velkých empirických souborů sekvecí Proč se to dělá pokaždé jinak?

FYLOGENETICKÉ STROMY

Anatomie stromu Vnitřní větev Vnitřní uzel (poslední společný předek) Terminální větev Vrcholový uzel (současnost) ABCDEF

AB CDEF A B C D E F Zakořeněný a nezakořeněný

ABCDEF Jaký má tvar (topologii) Jaké má délky větví Jak věrohodné je jeho větvení Kde je jeho kořen Co chceme u stromu zjistit?Co chceme u stromu zjistit

JAK NAJÍT NEJLEPŠÍ STROM ?

Algoritmus – najde jen jeden strom postupným přidáváním sekvencí, klastrovací analýza UPGMA, Neighbour-joining (distanční metody). Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Strom, který „nejlépe vysvětlí“ naše data. Jak se pozná nejlepší strom?

ABCD A- B0.5- C D VYCHÁZÍME Z MATICE DISTANCÍ A-B jsou taxony nebo jiné OTU (operation taxonomic units). Nejjednodušší algoritmickou metodou je shlukovací analýza UPGMA (Unweighted Pair Group Method with Arithmetic mean)

1) Najdeme v tabulce nejmenší hodnotu (v tomto případě d BC ) UPGMA ABCD A- B0.5- C D C B 2) Dvě OTU (druhy) s nejmenší vzájemnou vzdáleností spojíme do jedné OTU a vypočítáme vzdálenost této OTU od ostatních: D (BC)A = (D AB + D AC )/2 = (0,5 + 0,45)/2 = 0,475 D (BC)D = (D BD + D CD )/2 = (0,4 + 0,35)/2 = 0,375 (obecně: aritmetický průměr ze vzdáleností všech dvojic jednoduchých OTU (druhů), kde každý člen dvojice pochází z jedné ze spojovaných OTU)

3) Z přepočítaných hodnot vytvoříme novou tabulku. UPGMA ABCD A D C B 4) Celý postup opakujeme. Nejmenší distance je tentokrát mezi D a BC. Proto D připojíme k BC. Vypočítáme vzdálenost BCD od A. D (BCD)A = (D AB + D AC + D AD )/3 = (0,5 + 0,45 + 0,55)/3 = 0,5 D A

C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 D BC /2 D (BC)D /2 D (BC)D /2 - D BC /2 D (BCD)A /2 D (BCD)A /2 - D (BC)D /2

C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 D (BC)D /2 D (BC)D /2 - D BC /2 D (BCD)A /2 D (BCD)A /2 - D (BC)D /2 0,075

UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 C B D A D (BCD)A /2 D (BCD)A /2 - D (BC)D /2 0,075 0,1875 0,1125

C B D A UPGMA Výpočet délek větví: D BC = 0,15 D (BC)D = 0,375 D (BCD)A = 0,5 0,075 0,1875 0,1125 0,25 0,0625

UPGMA Je to nejjednodužší metoda konstrukce fylogenetických stromů umí strom zakořenit Předpokládá, že substituční rychlost je konstantní, takže distance (D) je přímo úměrná času (T), naprosto přesně platí molekulární hodiny Proto předpokládá, že distance a strom je ultramerický, všechny dnešní taxony „dosubstituovaly“ stejně daleko C B D A

UPGMA Tyto předpoklady jsou však téměř vždy porušeny Pokud jsou předpoklady porušeny výrazně metoda se prostě splete a vytvoří nesprávný strom Má tendenci posouvat divergentnější sekvence blíže ke kořeni stromu – artefakt přitahování dlouhých větví (LBA) LBA je jedno z největších úskalí molekulární fylogenetiky

UPGMA C B D A 0,2 0,3 0,1 0,4 0,1 ABCD A- B0,8- C0,90,5- D0,60,40,5-

UPGMA C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25

AB AC AD BC BD C D ABCD A- B0.5- C D Známe genetickou vzdálenost pro všechny páry sekvencí. Nejmenší čtverce (least squares)

AB AC AD BC BD C D ACDB Skóre 2. Vezmeme první topologii a vyzkoušíme, jak dobře do ní distance pasují. Měníme délky větví topologie tak aby pasovali co nejlépe. Nejlepší skóre si zapamatujeme. Q = ∑ ∑w ij (D ij - d ij ) 2 n i=1 j=1 Nejmenší čtverce (least squares)

AB AC AD BC BD C D Skóre 3. Vezmeme další topologii a určíme její skóre. Q = ∑ ∑w ij (D ij - d ij ) 2 n i=1 j=1 B C D 4. Projdeme všechny topologie, co nás napadnou. Tu s celkově nejlepším skóre vybereme. A Nejmenší čtverce (least squares)

C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25 Nejmenší čtverce (least squares) ABCD A- B0,8- C0,90,5- D0,60,40,5- Q 1 = (0,8-0,8) 2 +(0,9-0,9) 2 +(0,6-0,6) 2 +(0,5-0,5) 2 +(0,4-0,4) 2 +(0,5-0,5) 2 = 0,0 Q 2 = (0,8-0,763) 2 +(0,9-0,763) 2 +(0,6-0,763) 2 +(0,5-0,5) 2 +(0,4-0,4) 2 +(0,5-0,5) 2 = 0, Nejmenší čtverce garantují nalezení správného stromu jsou-li dobře spočítané distance.

Q = ∑ ∑ D ij n i=1 j=1 Délky větví na topologiích optimalizujeme úplně stejně jako v případě „nejmenších čtverců“, ale topologie vzájemně porovnáváme podle součtu délek všech větví. Vybereme tu s nejmenším součtem. Minimální evoluce (minimum evolution)

Q = ∑ ∑ D ij n i=1 j=1 Minimální evoluce (minimum evolution) C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25 12 Q 1 = 0,2+0,3+0,1+0,1+0,1+0,4= 1,2 Q 2 = 0,2+0,2+0,05+0,25+0,13+0,383=1,213

Algoritmizovaná „minimum evolution“ postupně rozkládáme hvězdicový strom (star decomposition) shlukováním nejbližších taxonů tak, aby se v každém kroku co maximálně zmenšila celková délka stromu. Neighbor-joining

ABCD A- B0,8- C0,90,5- D0,60,40,5- D B C A u i = ∑ D ij /(n-2) n j: j ≠1 u A = 0,8/2+0,9/2+0,6/2=1,15 u B = 0,8/2+0,5/2+0,4/2=0,85 nD AB = D AB - u A – u B = 0,8-1,15-0,85=-1,2 ABCD A- B-1,2- C -1,3- D -1,2 -

Neighbor-joining D B C A ABCD A- B-1,2- C -1,3- D -1,2 - X D B C A X BCBC 0,2 0,3 v B = ½ D BC +1/2(u B - u C ) = ½ 0,5 +1/2(0,85 – 0,95) = 0,2 v c = ½ D BC +1/2(u C - u B ) = ½ 0,5 +1/2(0,95 – 0,85) = 0,3 D A(BC) = (D AB + D AC - D BC )/2 = 0,6

Neighbor-joining ABCD A- 0,6- D 0,2- u i = ∑ D ij /(n-2) n j: j ≠1 u A = 0,6/1+0,6/1=1,2 u D = 0,6/1+0,2/1=0,8 D B C A X BCBC 0,2 0,3 0,5 0,1 v X(BC) = (D A(BC) + D D(BC) - D AD )/2 = 0,1 v A = ½ D AD +1/2(u A - u D ) = ½ 0,6+1/2(1,2 – 0,8) = 0,5 v D = ½ D AD +1/2(u D - u A ) = ½ 0,6+1/2(0,8 – 1,2) = 0,1

Neighbor-joining D B C A 0,2 0,3 0,5 0,1 C B D A 0,2 0,3 0,1 0,4 0,1 = Neighbor-joining stejně jako nejmenší čtverce garantuje nalezení správného stromu jsou-li dobře spočítané distance.