NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování.

Slides:



Advertisements
Podobné prezentace
Statistické testy z náhodného výběru vyvozuji závěry ohledně základního souboru často potřebuji porovnat dva výběry mezi sebou, porovnat průměr náhodného.
Advertisements

Obecně použitelné odvození
Otáčivé účinky síly (Učebnice strana 70)
Ideový závěr Co si mám z přednášky odnést (+ komentáře k užití statistiky v biologii)
Single Nucleotide Polymorphism
Fylogeografie Studuje geografickou strukturaci populací Navazuje na evoluční biologii, ochranu živ. prostř., taxonomii.
A5M33IZS – Informační a znalostní systémy Testování modelů.
Odhady parametrů základního souboru
Polymorfismy DNA a jejich využití ve forenzní genetice
Cvičení 6 – 25. října 2010 Heteroskedasticita
Lineární regresní analýza Úvod od problému
MOLEKULÁRNÍ TAXONOMIE
Diskrétní rozdělení a jejich použití
t-rozdělení, jeho použití
Taxonomie x1, y1, z1 = plesiomofie
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů - k ruce můžete mít jakékoli materiály - kalkulačka.
Markery asistovaná selekce
Testování hypotéz vymezení důležitých pojmů
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
Imunologické, mikrosatelity, SSCP, SINE
MOLEKULÁRNÍ TAXONOMIE
Data s diskrétním rozdělením
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Lineární regrese.
Lineární regresní analýza
STRATEGIE MOLEKULÁRNÍ GENETIKY
Analýza variance (ANOVA).
Použití molekulárních znaků v systematice
Odhad metodou maximální věrohodnost
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Z POPULAČNÍ BIOLOGIE VELKÝCH RYBOVITÝCH OBRATLOVCŮ
0,20,40,60,80 nerovnoměrnost v používání kodónů (  2 ) index využití preferovaných kodónů (CAI) ,84 7,82.
Metrologie   Přednáška č. 5 Nejistoty měření.
JAK NAJÍT NEJLEPŠÍ STROM
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
PSY717 – statistická analýza dat
„AFLP, amplified fragment length polymorphism“
Analýza variance (ANOVA). ANOVA slouží k porovnávání středních hodnot 2 a více náhodných proměnných. Tam, kde se používal dvouvýběrový t-test, je možno.
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů - k ruce můžete mít jakékoli materiály - kalkulačka.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Testování hypotéz Otestujte,… Ověřte,… Prokažte,… že střední věk (tj.  ) …činí 40 let (= 40) …je alespoň 40 let (≥ 40)
Odhady odhady bodové a intervalové odhady
Korelace. Určuje míru lineární vazby mezi proměnnými. r < 0
Obecně použitelné odvození
Jak se pozná nejlepší strom?
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
Induktivní statistika
t-test Počítání t-testu t statistika Měření velikosti efektu
Induktivní statistika
- váhy jednotlivých studií
Odhady parametrů základního souboru
Základy zpracování geologických dat Rozdělení pravděpodobnosti
Fylogenetická evoluční analýza
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do statistického testování
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Parciální korelace Regresní analýza
NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku
Neparametrické testy pro porovnání polohy
Jak získáváme znaky pomocí sekvenace unikátních lokusů
GENOVÝ STROM X DRUHOVÝ STROM
Vnitrodruhové vztahy Reifová a Munclinger – Evoluční genetika (ZS)
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
Transkript prezentace:

NEPOVINNÝ ESEJ Rozsah textu 2-3 strany, důraz na metodiku Prezentace 10 min. ( po přednášce) Proč ho psát? Získáte 4 body ke zkoušce Bodování zkoušky: bodů – dobře 14 – 17 bodů – velmi dobře 18 a více - výborně

? JAK SPOJIT RŮZNÉ SADY DAT?

Mnoho alignmentů Mnoho stromů Jeden strom Jeden alignment JAK SPOJIT RŮZNÉ SADY DAT?

SUPER MATICE ABCDEABCDE Gen 1Gen 2Gen 3Gen 4 ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.

Také se jim říká ‘konkatenace’ Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu. SUPER MATICE

ABCDEABCDE Gen 1Gen 2Gen 3Gen 4 ? Q 1, α 1, …Q 2, α 2, …Q 3, α 3, …Q 4, α 4, …

SUPERTREE Mnoho alignmentů Mnoho stromů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů

Matrix Representation with Parsimony (Baum and Ragan, 1992) Uděláme ze stromů alignment (?!) Každá „bipartition“ představuje v alignmentu jeden sloupec SUPERTREE

A B C E D F A * * * * B * * * - C *.. * D *... E.. * - F.. *. A C D F Z tohoto alignmentu udělej strom podle maximální parsimonie SUPERTREE

Neighbor-net (Bryant and Moulton, 2004) Je založena na neighbor-joining, ale umožňuje spojovat jeden taxon s více taxony. SÍŤ

Neighbor-net

ZAKOŘENĚNÍ STROMU

Všechny zmíněné metody produkují nezakořeněný strom!!! Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny, kterou studujeme. METODA OUTGROUPŮ

Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete. METODA OUTGROUPŮ

MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem

MOLEKULÁRNÍ HODINY proč mohou fungovat µ - mutační rychlost (počet nově vzniklých mutací za jednotku času u jednoho jedince) µ*N e – počet nově vzniklých mutací za jednotku času u v populaci (N e = efektivní velikost populace) 1/N e – pravděpodobnost fixace mutace Rychlost fixace nových mutací v populaci µ*N e * 1/N e = µ Nezávisí na velikosti populace!!!

ZDROJE CHYBY tikají nepravidelně

95 %

ZDROJE CHYBY tikají různě rychle v různých genech Studie na genech v mitochondriích mloků Rate = K(2T) K -počet substitucí mezi dvěma druhy T -doba od odvětvení obou druhů (100 MYA) Mueller 2006, Systematic Biology

0,010, tělesná hmotnost (kg) divergence sekvencí (%/milion let) 0, medvědi koně psi hlodavci primati husy velryby žáby mloci želvy pstruzi mořské želvy žraloci Martin a Palumbi, PNAS USA 90: , 1993 ZDROJE CHYBY tikají různě rychle u různých skupin

REKONSTRUKCE FYLOGENEZE S TÍM POČÍTÁ C B D A 0,2 0,3 0,1 0,4 0,1 D B C A 0,2 0,05 0,383 0,13 0,2 0,25 X Sekvence A Sekvence B ut Substituční rychlostČasový interval v=ut

GLOBÁLNÍ HODINY t1t1 t2t2 t3t3 t4t4 v 1 =v 2 =t 1 μ v 4 =v 5 =t 4 μ v 3 =v 6 +v 1 =t 2 μ v 8 +v 4 =v 7 +v 6 +v 1 =t 3 μ t 2 je v tomto příkladu kalibrační bod QΓ Pokud platí globální hodiny a máme k dispozici alespoň jeden kalibrační bod, můžeme rozpřáhnout t(čas) a μ(substituční rychlost). Protože platí vztahy uvedené níže, nebudeme metodou maximum likelihood optimalizovat délky větví v 1 -v 8 ale časy t 1, t 3 a t 5 udávající hloubky uzlů a jednotnou globální substituční rychlost μ.

TEST ROVNOMĚRNOSTI CHODU MH Likelihood ratio test δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu, platnosti hodin (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely (v tomto případě 4).

LOKÁLNÍ HODINY Strom rozdělíme na několik oblastí a v každé předpokládáme platnost lokálních hodin. Pro každou oblast stromu potřebujeme kalibrační bod. t1t1 t2t2 t3t3 t4t4 μ1μ1 μ2μ2

RELAXOVANÉ HODINY Aby byla umožněna různá substituční rychlost a abychom mohli počítat likelihood, přidělují se větvím v 1 -v 8 jejich substituční rychlosti. Ty jsou buď navzájem nezávislé a tahají se z nějakého rozložení, nebo se substituční rychlost dceřiné větve odvíjí od rychlosti mateřské větve podle nějakého vztahu. t1t1 t3t3 t4t4 t2t2 v 1 =t 1 μ 1 v 2 =t 1 μ 2 v 3 =t 2 μ 3 v 4 =t 4 μ 4 v 5 =t 4 μ 5 v 6 =(t 2 -t 1 )μ 6 v 7 =(t 3 -t 2 )μ 7 v 8 = (t 3 -t 4 )μ 8

ZDROJE CHYBY kalibrace Kalibrační body (často fosílie) nutno interpretovat opatrně Datování fosílie je vždy nepřesné (konfidenční interval) Postavení fosílie na stromu je obtížné určit. Sedí někde na větvi ne přesne na uzlu Fosílie ukazují na spodní hranici vzniku skupiny a nevíme, jak dlouho se daná skupina organizmů vyskytovala předtím než je první známá fosílie.

ZDROJE CHYBY kalibrace Kalibrační body (často fosílie) nutno interpretovat opatrně Naopak např. vznik ostrova, na kterém skupina organizmů vznikla udává horní hranici jejího vzniku.

KONFIDENČNÍ INTERVALY Parfrey a kol. PNAS %

PŘÍKLAD Epidemie HIV a hepatitidy C v nemocnici Al-Fateh v Benhazi, Libye

PŘÍKLAD

MOLEKULÁRNÍ HODINY – SHRNUTÍ Tikají nepravidelně, v jednotlivých genech a liniích jdou nestejně rychle Rychlost hodin se mění během evoluce Nutnost kalibrace a kalibrační body třeba interpretovat uvážlivě Výsledkem není jedna hodnota, ale interval. Intervaly bývají obvykle nepříjemně široké, ale i tak mohou někdy přinést odpověď na otázku. Čím více dat tím užší budou intervaly spolehlivosti Lepší široké intervaly, které obsahují skutečnou hodnotu (složitější modely) než užší intervaly, které jsou zcela špatně (jednoduché, nesprávně zvolené modely)

MIKROSATELITY

RESTRIKČNÍ ANALÝZY VNTR – Variable Number of Tantem Repeats Využívá polymorfismus v počtu kopií tandemových repetic – minisatelitů (10-60 nt). Tento polymorfismus je velmi variabilní i mezi jedinci téhož druhu. Celkovou DNA naštípeme restrikční endonukleázou, která neštěpí uvnitř minisatelitu. Naštípanou DNA přeblotujeme na membránu a hybridizujeme se značenou próbou proti minisatelitu, pokud chceme zviditelnit všechny lokusy (obrázek v pravo), nebo proti minisatelitu a unikátní sekvenci v sousedství, pokud chceme zviditelnit jen jeden lokus (obrázek dole).

FORENZNÍ GENETIKA

IDENTIFIKACE

URČOVÁNÍ RODIČOVSTVÍ Stejně jako v případě identifikace se používají obvykle mikrosatelity a VNTR (minisatelity). Po odečtení znaků pocházejících od matky (M) musí ostatní znaky pocházet od otce (Pα nebo Pβ). Pravděpodobnost otcovství se vypočte na základě těchto znaků stejně jako v případě identifikace jedince.

HUSICE SNĚŽNÁ

RUSKÁ CARSKÁ RODINA Car Mikuláš II a jeho rodina – carevna Alexandra a děti Olga, Tatiana, Maria, Anastasia a carevič Alexej.