PROTEIN MASS FINGERPRINT. DNA/RNA MASS FINGERPRINT.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

VÝPOČET OC.
Výpočet zásoby porostu na zkusných plochách při požadované přesnosti
Cvičení 9 – Ekonomická funkce nelineární v parametrech :
Obecně použitelné odvození
Testování neparametrických hypotéz
Single Nucleotide Polymorphism
Testování statistických hypotéz
Odhady parametrů základního souboru
Polymorfismy DNA a jejich využití ve forenzní genetice
Zarovnávání biologických sekvencí
Poznámky identifikaci SNP
Prof. Ing. Václav Řehout, CSc.
10_Podobná zobrazení V geometrii o dvou útvarech říkáme, že jsou podobné, pokud je druhý z nich v určitém měřítku zmenšeným nebo zvětšeným obrazem prvého.
Taxonomie x1, y1, z1 = plesiomofie
MOLEKULÁRNÍ TAXONOMIE Zkouška Součásti zkoušky: Písemná část (5 příkladů) – maximální zisk 10 bodů - k ruce můžete mít jakékoli materiály - kalkulačka.
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN
Získávání informací Získání informací o reálném systému
TRIGONOMETRIE OBECNÉHO TROJÚHELNÍKU
Odhad genetických parametrů
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Jak se pozná nejlepší strom?
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Fingerprinting techniky
Imunologické, mikrosatelity, SSCP, SINE
Odhady parametrů základního souboru
Stanovení genetické vzdálenosti
Využití v systematické biologii
Diskrétní rozdělení Karel Zvára 1.
Náhodný jev A E na statistickém experimentu E - je určen vybranou množinou výsledků experimentu: výsledku experimentu lze přiřadit číslo, náhodnou proměnnou.
Data s diskrétním rozdělením
Projekt HUGO – milníky - I
Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p.
Genetická diverzita hospodářských zvířat
Použití molekulárních znaků v systematice
Sekvence A Sekvence B D = ut Zjištění rozdílů (p) Korekce na mnohonásobné substituce Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC Bereme nebo.
Experimentální fyzika I. 2
DNA Hybridizační techniky
rozdělení metod využitelnost jednotlivých metod náročnost metod používání metod perspektivy.
GENETICKÁ A FENOTYPOVÁ
Pravděpodobnost.
Monte Carlo simulace Experimentální fyzika I/3. Princip metody Problémy které nelze řešit analyticky je možné modelovat na základě statistického chování.
Polymorfismus lidské DNA.
Hustota pravděpodobnosti – případ dvou proměnných
„AFLP, amplified fragment length polymorphism“
Monte Carlo simulace hexameru vody Autor: Bc. Lenka Ličmanová Vedoucí práce: Mgr. Aleš Vítek Seminář KFY PŘF OU.
Praktikum z genetiky rostlin JS Genetické mapování mutace lycopodioformis Arabidopsis thaliana Genetické mapování genu odolnosti k padlí.
Exonové, intronové, promotorové mutace
SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Projekt HAPMAP Popis haplotypů
DATA Taxon A CCCTGG Taxon B ACTTGA HYPOTÉZA Evoluční model: GTR + Γ Vzdálenost (délka větve ) A B t MAXIMUM LIKELIHOOD L = P(A|C,t) x P(C|C,t) x P(C|T,t)…..
Obecně použitelné odvození
Některá rozdělení náhodných veličin
Jak se pozná nejlepší strom?
NÁZEV ŠKOLY: ČÍSLO PROJEKTU: NÁZEV MATERIÁLU: TÉMA SADY: ROČNÍK:
Základy statistické indukce
- váhy jednotlivých studií
Odhady parametrů základního souboru
Základy genetiky = ? X Proč jsme podobní rodičům?
GENETICKÁ A FENOTYPOVÁ
Fylogenetická evoluční analýza
Jana Michalová Tereza Nováková Radka Ocásková
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Ostatní metody získávání molekulárních dat
Jak získáváme znaky pomocí sekvenace unikátních lokusů
Obecně použitelné odvození
Jak získáváme znaky pomocí sekvenace unikátních lokusů
SUBSTITUČNÍ SATURACE 0,95 PROTEINY 0,75 DNA p
Základy statistiky.
Transkript prezentace:

PROTEIN MASS FINGERPRINT

DNA/RNA MASS FINGERPRINT

SNPs Single Nucleotide Polymorphism Polymorfimus DNA, kdy se jedinci nebo druhy liší v jedné nukleotidové záměně AAGCCTA AAGCTTA V tomto případě mluvíme o alelách C a T. Téměž všechny SNPy mají jen 2 alely. Genom dvou lidí se liší zhruba v 3 mil. bazí (ne všechno jsou SNP).

SNPs

SNPs genotypizace Molecular beacon Hybridizační metody Enzymatické metody Metody založené na fyzikálních vlastnostech DNA Hybridizační metody

SNPs – hybridizační metody lidských SNPs

SNPs – enzymatické metody Primer extension – např. Infinium (Illumina) infinium_hd_assay.ilmn

SNP – OSTATNÍ METODY _ _ _ denaturacePCRrenaturace vertikální elektroforéza vizualizace Single-Strand Conformation Polymorphism

SROVNÁNÍ METOD Fingerprinting (“otisk prstu DNA”) – souhrné označení pro metody poskytující velice variabilní elektroforetické vzory – VNTR RFLP, RAPD, AFLF. Čistě distanční Znakové Proteinové DNA Protein mass fingerprinting

SROVNÁNÍ METOD MetodaDNA hybri Dizace Mass fingerpti nting Mikro satelity RFLF (VNTR) SINERAPDAFLPSNP Počet lokusů VšechnyMnohoJedenMnohoJedenMnoho Jeden / mnoho Repliko vatelnost RůznáVysoká Různávysoká Povaha znaků DistanceKodomin antní Kodomi nantní? Vzácná událost Domi nantní Kodomi nantní? Kodo minantní RozlišeníStřednívysokéVysoké NízkéStředníVysoké Jedno duchost provedení TěžkéJedno Duché TěžkéJedno duché TěžkéJedno duché Střední- Doba trvání StředníKrátkáDlouháKrátkáDlouháKrátká -

ODHAD GENETICKÉ VZDÁLENOSTI

DISTANCE Z PODOBNOSTI VZORŮ RAPD/RFLP Koeficient genetické vzdálenosti dle. Nei a Li 1979, PNAS 76, 1979 Pro každou dvojici (x, y) spočteme všechny fragmenty (M x, M y ) a dále fragmenty vyskytující se v obou elektroforetogramech ( M xy ) Vypočteme podíl shodných fragmentů I = 2M xy /(M x + M y ) a z něj distanci D= 1- I X Y

DISTANCE Z FREKVENCE ALEL Rogersova vzdálenost (pro všechny alely i lokusu v populacích X A a X B ) D= (0,5 Σ(x Ai - x Bi ) 2 ) 0,5 Vzdálenost Cavali-Svorza a Edwardse (1967) (pro všechny alely u lokusu v populacích X a Y) V případě, že použijeme více lokusů bude celková vzdálenost průměrem vzdáleností lokusů. Reynoldsova distance (1983) nebo Neiova distance (1972, 1978) berou v poraz biologické procesy.

VÝPOČET „p“ p = ΔTm. 0,01 (0,015) p = podíl rozdílných nukleotidů mezi sekvencemi 2 taxonů Odhad p z reasociační kinetiky DNA-DNA hybridizace p = n d /n AATGTAGGAATCGC ACTGAAAGAATCGC p = 3/14 = 0,21

FREKVENCE SUBSTITUCÍ JE VYŠŠÍ NEŽ „p“ K = 12, p = 3 Jednoduchá substituce Vícenásobná substituce Zpětná substituce CTCT TCTC GTCTCT Koincidence ACTGAACGTAACGC Vidíme jen 3 rozdíly (p=3/14), ale ve skutečnosti došlo ke dvanácti substitucím (D = 12/14).

Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA 0,95 PROTEINY SUBSTITUČNÍ SATURACE p

Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC ODHAD POČTU SUBSTITUCÍ

A G C T u/3 u = substituční rychlost u/3 = rychlost substituce za jednu konkrétní bázi (např. A -> G) u/3 Rychlost substituce za kteroukoli bázi i sebe sama 4/3 u Očekávaný počet substitucí za čas t 4/3 ut Jukes-Cantor příklad korekce na mnohonásobné substituce

Poissonovo rozdělení Rozdělení počtu výskytu málo pravděpodobných jevů Pravděpodobnost, že dojde právě ke k událostem je f(k, ℷ ) = ( ℷ k e - ℷ )/k! ∞ 25 let → 20 substitucí…pro 5 let ℷ =4 ℷ =4 Pravděpodobnost, že k žádné události nedojde (k=0) je e - ℷ

A G C T u/3 Pravděpodobnost, že za čas t k žádné události nedojde e -4/3 ut Pravděpodobnost, že za čas t k události dojde 1- e -4/3 ut Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) Pravděpodobnost, že dojde ke změně p = 3/4 (1- e -4/3 ut ) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce

Sekvence A Sekvence B ut Substituční rychlostČasový interval Sekvence A - AATGTAGGAATCGC Sekvence B - ACTGAAAGAATCGC p = počet neshodných míst/ délka sekvence 1-p = „sequence identity“ ODHAD POČTU SUBSTITUCÍ

A G C T u/3 Pravděpodobnost, že dojde ke změně p = 3/4 (1- e -4/3 ut ) Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad korekce na mnohonásobné substituce V(D) = (p(1 -p))/(L(1 - 4/3 p) 2 ) L = délka sekvence Rozptyl D:

A G C T u/3 Korigovaný počet substitucí D = ut = -3/4 ln(1- 4/3 p) u/3 Jukes-Cantor příklad Příklad naší sekvence: D= -3/4 ln(1- 4/3 * 0,21) D= 0,246

Jukes-Cantor Obecně použitelné odvození 4/3 ut u/3 -u u/3 -u u/3 -u A G Pravděpodobnost, že dojde ke konkrétní události P (C|A) = 1/4 (1- e -4/3 ut ) CT A G C T

Jukes-Cantor Součet řádku je 1 4/3 ut u/3 -u u/3 -u u/3 -u A GCT A G C T Suma = 1

Jukes-Cantor Nekonečně vzdálené sekvence se podobají z 1/4 Skutečný počet substitucí na jednu pozici Počet pozorovaných rozdílů 0,75 DNA p Sekvence A Sekvence B ut=∞ 4/3 ut

Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B

Jukes-Cantor Je symetrický u/3 -u u/3 -u u/3 -u A GCT A G C T Sekvence A Sekvence B

Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α

Kimura 2P Kimura 2 parametrový DALŠÍ MODELY A G C T α ββ β β α

A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) P – podíl transic Q – podíl transverzí V(D) = [a 2 P + c 2 Q -(aP +cQ) 2 ]/L c = (a + b)/2 L = délka sekvence Rozptyl D:

A G C T α ββ β β α Kimura 2P Kimura 2 parametrový DALŠÍ MODELY D = 0,5 ln(a) + 1/4 ln(b) a = 1/(1 - 2P - Q) b = 1/(1 -2Q) Příklad naší sekvence: P=2/14=0,14 Q=1/14=0,07 a = 1/(1 – 2*0,14 – 0,07) = 1,54 b = 1/(1 -2*0,07) = 1,16 D = 0,5 ln(1,54) + 1/4ln(1,16)=0,254

DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T F84

A G C T α εβ δ γ ζ GTR General time reversible + DALŠÍ MODELY Rovnovážné frekvence nukleotidů π A π C π G π T Parametry: frekvence (rychlost) záměn ( αβγδεζ ) a frekvence nukleotidů ( π A π C π G π T ) se odvozují z analyzovaných sekvencí.

RŮZNÉ MODELY FUNGUJÍ RŮZNĚ Skutečný počet substitucí Odhad počtu substitucí

d xy = -ln (det F xy ) Sekvence A Sekvence B F xy = [ ] 0,2490,0060,0270,009 0,0030,1660,0010,018 0,0270,0060,2560,004 0,0060,0210,0090,194 Alignment 900 pozic d xy = -ln (det F xy ) = -ln (0.002) = 6,216 LogDet distance

JAKÉ DISTANCE POUŽÍVAT? Modely s větším počtem parametrů (GTR) jsou flexibilnější a většinou přesnější než metody jednoduché. Potřebují však velké množství parametrů a distance jimi vypočítané mají větší rozptyl. Pro kratší úseky proto dávají horší výsledky. Simulace ukázala, že pro D< 0,5 dávají poměrně přesné výsledky i nejjednoduší metody (Jukes-Cantor, Kimura). Pro větší distance (a dostatečně dlouhé sekvence) je lépe použít složitější modely (GTR).