SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

Vestavné mikropočítačové systémy
VÝPOČET OC.
Statistická indukce Teorie odhadu.
Obecně použitelné odvození
Single Nucleotide Polymorphism
Testování statistických hypotéz
Odhady parametrů základního souboru
Polymorfismy DNA a jejich využití ve forenzní genetice
Zarovnávání biologických sekvencí
Poznámky identifikaci SNP
Taxonomie x1, y1, z1 = plesiomofie
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů - k ruce můžete mít jakékoli materiály - kalkulačka.
Získávání informací Získání informací o reálném systému
PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.
Odhad genetických parametrů
Jak se pozná nejlepší strom?
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Jak správně interpretovat ukazatele způsobilosti a výkonnosti
Imunologické, mikrosatelity, SSCP, SINE
Odhady parametrů základního souboru
Stanovení genetické vzdálenosti
Využití v systematické biologii
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Projekt HUGO – milníky - I
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Generování náhodných veličin Diskrétní a spojitá rozdělení Simulační modely ek.procesů 4.přednáška.
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Experimentální fyzika I. 2
DNA Hybridizační techniky
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
GENETICKÁ A FENOTYPOVÁ
Pravděpodobnost.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Polymorfismus lidské DNA.
Hustota pravděpodobnosti – případ dvou proměnných
„AFLP, amplified fragment length polymorphism“
Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Inferenční statistika - úvod
Prohledávání stromového prostoru – heuristické hledání, Marcov chain Monte Carlo – a skórování stromů podle různých kritérií. Algoritmus – najde jen jeden.
Exonové, intronové, promotorové mutace
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů - k ruce můžete mít jakékoli materiály - kalkulačka.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Projekt HAPMAP Popis haplotypů
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Odhady odhady bodové a intervalové odhady
Obecně použitelné odvození
Exonové, intronové, promotorové mutace
Jak se pozná nejlepší strom?
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
Základy statistické indukce
Induktivní statistika
- váhy jednotlivých studií
Odhady parametrů základního souboru
Základy genetiky = ? X Proč jsme podobní rodičům?
Induktivní statistika
Fylogenetická evoluční analýza
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Ostatní metody získávání molekulárních dat
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
37. Bi-2 Cytologie, molekulární biologie a genetika
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme o alelách C a T. Téměž všechny SNPy mají jen 2 alely. Genom dvou lidí se liší zhruba v 3 mil. bazí (ne všechno jsou SNP).

SNPs

SNPs genotypizace Molecular beacon Hybridizační metody Enzymatické metody Metody založené na fyzikálních vlastnostech DNA Hybridizační metody

SNPs – hybridizační metody lidských SNPs

SNPs – enzymatické metody Primer extension – např. Infinium (Illumina) infinium_hd_assay.ilmn

SNP – OSTATNÍ METODY _ _ _ denaturacePCRrenaturace vertikální elektroforéza vizualizace Single-Strand Conformation Polymorphism

SROVNÁNÍ METOD MetodaDNA hybri dizace Mass fingerpti nting Mikro satelity RFLF (VNTR) SINERAPDAFLPSNP Počet lokusů VšechnyMnohoJedenMnohoJedenMnoho Jeden / mnoho Repliko vatelnost RůznáVysoká Různávysoká Povaha znaků DistanceKodomin antní Kodomi nantní? Vzácná událost Domi nantní Kodomi nantní? Kodo minantní RozlišeníStřednívysokéVysoké NízkéStředníVysoké Jedno duchost provedení TěžkéJedno duché TěžkéJedno duché TěžkéJedno duché Střední- Doba trvání StředníKrátkáDlouháKrátkáDlouháKrátká -

REKAPITULACE Sekvenace lokusu u taxonů, které chceme studovat 1. Přednáška Stažení homologních sekvencí od relevantních taxonů z databáze 2. přednáška Jak získáváme znaky pomocí sekvenace unikátních lokusů Tvorba alignmentu 3. přednáška Bude náplní prvního praktika :00

ALIGNMENT Mutliple sequence alignment (MSA) Kontrolní otázka: Co v alignmentu představuje jeden znak?

FINGERPRINT Kontrolní otázka: Co ve fingerprintu představuje jeden znak?

ODHAD GENETICKÉ VZDÁLENOSTI

DISTANCE Z PODOBNOSTI VZORŮ RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (M x, M y ) a dále fragmenty vyskytující se v obou elektroforetogramech ( M xy ) Vypočteme podíl shodných fragmentů I = 2M xy /(M x + M y ) a z něj distanci D= 1- I X Y

DISTANCE Z FREKVENCE ALEL Rogersova vzdálenost (pro všechny alely i lokusu v populacích X A a X B ) D= (0,5 Σ(x Ai - x Bi ) 2 ) 0,5 AlelaPopulace APopulace B 10,120,20 20,480,30 30,400,50 Frekvence alel v jednom lokusu D= (0,5((0,12-0,20) 2 +(0,48-0,30) 2 +(0,40-0,50) 2 )) 0,5 = (0,5(0,0064+0,0324+0,01)) 0,5 = 0,156

DISTANCE Z FREKVENCE ALEL Rogersova vzdálenost (pro všechny alely i lokusu v populacích X A a X B ) D= (0,5 Σ(x Ai - x Bi ) 2 ) 0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.

VÝPOČET „p“ p = ΔTm. 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů Odhad p z reasociační kinetiky DNA-DNA hybridizace p = n d /n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ K = 12, p = 3 Jednoduchá substituce Vícenásobná substituce Zpětná substituce CTCT TCTC GTCTCT Koincidence ACTGAACGTAACGC Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p P distance není aditivní

Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC ODHAD POČTU SUBSTITUCÍ

A G C T u/3 u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut Jukes-Cantor příklad korekce na mnohonásobné substituce

Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů Pravděpodobnost, že dojde právě ke k událostem je f(k, ℷ ) = ( ℷ k e - ℷ )/k! ∞ 25 let → 20 substitucí…pro 5 let ℷ =4 ℷ =4 Pravděpodobnost, že k žádné události nedojde (k=0) je e - ℷ

A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut ) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce Očekávaný počet substitucí za čas t 4/3 ut

Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence je odhadem Ds. Jukes-Cantor příklad korekce na mnohonásobné substituce Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut )

A G C T u/3 Pravděpodobnost, že dojde ke změně Ds = 3/4 (1- e -4/3 ut ) Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce V(D) = (p(1 -p))/(L(1 - 4/3 p) 2 ) L = délka sekvence Rozptyl D:

A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246

Jukes-Cantor Obecně použitelné odvození 4/3 ut u/3 -u u/3 -u u/3 -u A G Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) CT A G C T

Jukes-Cantor Součet řádku je 1 4/3 ut u/3 -u u/3 -u u/3 -u A GCT A G C T Suma = 1

Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p Sekvence A Sekvence B ut=∞ 4/3 ut

Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B

Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B

Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α

Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α

A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí V(D) = [a 2 P + c 2 Q -(aP +cQ) 2 ]/L c = (a + b)/2 L = délka sekvence Rozptyl D:

A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254

DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T F84

A G C T α εβ δ γ ζ GTR General time reversible + DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T Parametry: frekvence (rychlost) záměn ( αβγδεζ ) a frekvence nukleotidů ( π A π C π G π T ) se odvozují z analyzovaných sekvencí.

RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Skutečný počet substitucí Odhad počtu substitucí

d xy = -ln (det F xy ) Sekvence A Sekvence B F xy = [ ] 0,2490,0060,0270,009 0,0030,1660,0010,018 0,0270,0060,2560,004 0,0060,0210,0090,194 Alignment 900 pozic d xy = -ln (det F xy ) = -ln (0.002) = 6,216 LogDet distance

JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).