Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION.

Podobné prezentace


Prezentace na téma: "Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION."— Transkript prezentace:

1 Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION

2 Frekvence F(x) = P(x) N Je vyšší u řetězců, které jsou součástí často používaných struktur Vzájemná informace MI(x,y) = P(x,y) log ( P(x,y) / (P(x)*P(y)) ) Je vyšší uvnitř struktur než na jejich rozhraní, vyjádřuje korelaci Entropie H(x) = -Σ p(x)*log(p(x)) Určuje míru neuspořádanosti, nebo taky potřebu informace pro definování určitého stavu

3 Strukturní interpretace frekvence fyzikálně-chemické a prostorové vlastnosti

4 Strukturní interpretace vzájemné informace ZINC FINGER vazební místo

5 Další možnosti strukturní interpretace statistických veličin a výpočtů doména vysoká f SHLQFNMIDIVISK nízká f

6 Matej Lexa, Faculty of Informatics MU BrnoMethods in Plant Sciences, Srni Oct 1-4, 2006 Bioinformatics at the intersection of biology, linguistics and computer science Why bother? BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLE WASBREWING MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYIMASKRDLDENCVIGARAKIHDIVISMN DENMN BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLE WASBREWING Mental image: Protein: MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYIMASKRDLDENCVIGARAKIHDIVISMN DENMN

7 Kubota, Lee, Mostly-unsupervised statistical segmentation of Japanese: application to kanji. kanji, hiragana, katakana – znaky různé úrovně kanji jsou na úrovni našich slabik a tvoří polovinu slov sekvence kanji se často dají segmentovat různými způsoby _______ s1 _______ s2 A B C D'W X Y Z _______ t1 _______ t2 _______ t3 _______ t4

8 Kubota, Lee, Mostly-unsupervised statistical segmentation of Japanese: application to kanji. Pro každou mezeru se vypočítá hodnota (s1+s2)/(t1+...+tn) ____*___________*____ * * * * * * * * * * * * * * A|B C D|W X Y|Z

9 >SENTENCE THECALLOFTHEWILD >SENTENCE BYJACKLONDON >SENTENCE CHAPTERONE >SENTENCE BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLEW ASBREWING Vstupní data pro analýzu textu ve formátě FASTA

10 __

11 < THE CALL OF THE 3.37 WILD < BY JACK LOND ON < CHAP TER ONE 1.69 < INTO THE PRIM ITI VE < BU CK DID NOT READ THE NEW SPAP ER SOR HE WOU 2.25 LD 2.73 HA VE KNOW 6.71 NTH ATT 1.74 ROU BLEWASB REW ING < THEC ALL OFTHEW 4.86 ILD 19.2 < BY JACK LONDON < CHAPTERONE < IN TOTHEP RIMI 3.24 TIVE < BUCK DI DNOT REA 6.81 DTHEN EWS PAPERSOR HEW OULD HAVE KNOWN THAT TROUBL EWAS BREWING Segmentace textu v angličtině ~50% ~20% ~20% ~35% 2-gram4-gram2-gram4-gram

12 CGVGFIANLRGKPDH TLVE QALKALGC MEH RGG CSAD NDSGD GAGV MTAIP Obr. - Stereo pohled na identifikované segmenty RELLAQ WFNT RNLPM PDGDRLGVGM VFLPQ EPSAREVARAY VEEVV RLEKLTVLG WREVPVNS DVLGI QAKN 1.57 NQ PHIEQILVT CPEG 2.37 CAGDELDRRL YIARSIIGKKLAEDF Segmentace sekvence z PDB

13 Weisser D, Klein-Seetharaman J (2004). Identification of fundamental building blocks in protein sequences using statistical association measures. ACM SAC 2004

14

15 Jedním z důvodů spoluvýskytu krátkých sekvencí je, že spolu vytvářejí samostatní doménu, která se vyskytuje ve větším počtu proteinů Spoluvýskyt krátkých sekvencí v proteinech a = SHLQFMV b = DHLDDRK c =...

16 Vyhodnocení hledání domén >512 Počet korelací procházejících daným místem proteinu Atg07210 porovnaný se záznamem v databáze PRODOM

17 Celková struktura sekvence jak se jeví při srovnání s ostatními sekvencemi v databázích pomocí BLASTu

18 Weisser D, Klein-Seetharaman J (2004). Identification of fundamental building blocks in protein sequences using statistical association measures. ACM SAC 2004

19


Stáhnout ppt "Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION."

Podobné prezentace


Reklamy Google