Biologická sekvence (BS) ACAGTGCGAGCATGACGATGACGCAGCAGATTGACAGAGACGATAGCAGCAT MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYDENKIHDIVISMNDENMNQ Jazyk THISISJUSTASIMPLESENTENCEINENGLISHFORYOURINSPIRATION
Frekvence F(x) = P(x) N Je vyšší u řetězců, které jsou součástí často používaných struktur Vzájemná informace MI(x,y) = P(x,y) log ( P(x,y) / (P(x)*P(y)) ) Je vyšší uvnitř struktur než na jejich rozhraní, vyjádřuje korelaci Entropie H(x) = -Σ p(x)*log(p(x)) Určuje míru neuspořádanosti, nebo taky potřebu informace pro definování určitého stavu
Strukturní interpretace frekvence fyzikálně-chemické a prostorové vlastnosti
Strukturní interpretace vzájemné informace ZINC FINGER vazební místo
Další možnosti strukturní interpretace statistických veličin a výpočtů doména vysoká f SHLQFNMIDIVISK nízká f
Matej Lexa, Faculty of Informatics MU BrnoMethods in Plant Sciences, Srni Oct 1-4, 2006 Bioinformatics at the intersection of biology, linguistics and computer science Why bother? BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLE WASBREWING MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYIMASKRDLDENCVIGARAKIHDIVISMN DENMN BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLE WASBREWING Mental image: Protein: MASAQSFYLLHLAVDDFMNGAGVLSHERELLFYIMASKRDLDENCVIGARAKIHDIVISMN DENMN
Kubota, Lee, Mostly-unsupervised statistical segmentation of Japanese: application to kanji. kanji, hiragana, katakana – znaky různé úrovně kanji jsou na úrovni našich slabik a tvoří polovinu slov sekvence kanji se často dají segmentovat různými způsoby _______ s1 _______ s2 A B C D'W X Y Z _______ t1 _______ t2 _______ t3 _______ t4
Kubota, Lee, Mostly-unsupervised statistical segmentation of Japanese: application to kanji. Pro každou mezeru se vypočítá hodnota (s1+s2)/(t1+...+tn) ____*___________*____ * * * * * * * * * * * * * * A|B C D|W X Y|Z
>SENTENCE THECALLOFTHEWILD >SENTENCE BYJACKLONDON >SENTENCE CHAPTERONE >SENTENCE BUCKDIDNOTREADTHENEWSPAPERSORHEWOULDHAVEKNOWNTHATTROUBLEW ASBREWING Vstupní data pro analýzu textu ve formátě FASTA
__<BUC KDIDNO _<BUCK DIDNOT <BUCKD IDNOTR BUCKDI DNOTRE UCKDID NOTREA CKDIDN OTREAD KDIDNO TREADT DIDNOT READTH IDNOTR EADTHE DNOTRE ADTHEN NOTREA DTHENE OTREAD THENEW TREADT HENEWS READTH ENEWSP EADTHE NEWSPA ADTHEN EWSPAP DTHENE WSPAPE THENEW SPAPER HENEWS PAPERS ENEWSP APERSO NEWSPA PERSOR EWSPAP ERSORH WSPAPE RSORHE SPAPER SORHEW PAPERS ORHEWO APERSO RHEWOU PERSOR HEWOUL ERSORH EWOULD Vyhodnocení frekvence 4-gramů v textu
< THE CALL OF THE 3.37 WILD < BY JACK LOND ON < CHAP TER ONE 1.69 < INTO THE PRIM ITI VE < BU CK DID NOT READ THE NEW SPAP ER SOR HE WOU 2.25 LD 2.73 HA VE KNOW 6.71 NTH ATT 1.74 ROU BLEWASB REW ING < THEC ALL OFTHEW 4.86 ILD 19.2 < BY JACK LONDON < CHAPTERONE < IN TOTHEP RIMI 3.24 TIVE < BUCK DI DNOT REA 6.81 DTHEN EWS PAPERSOR HEW OULD HAVE KNOWN THAT TROUBL EWAS BREWING Segmentace textu v angličtině ~50% ~20% ~20% ~35% 2-gram4-gram2-gram4-gram
CGVGFIANLRGKPDH TLVE QALKALGC MEH RGG CSAD NDSGD GAGV MTAIP Obr. - Stereo pohled na identifikované segmenty RELLAQ WFNT RNLPM PDGDRLGVGM VFLPQ EPSAREVARAY VEEVV RLEKLTVLG WREVPVNS DVLGI QAKN 1.57 NQ PHIEQILVT CPEG 2.37 CAGDELDRRL YIARSIIGKKLAEDF Segmentace sekvence z PDB
Weisser D, Klein-Seetharaman J (2004). Identification of fundamental building blocks in protein sequences using statistical association measures. ACM SAC 2004
Jedním z důvodů spoluvýskytu krátkých sekvencí je, že spolu vytvářejí samostatní doménu, která se vyskytuje ve větším počtu proteinů Spoluvýskyt krátkých sekvencí v proteinech a = SHLQFMV b = DHLDDRK c =...
Vyhodnocení hledání domén >512 Počet korelací procházejících daným místem proteinu Atg07210 porovnaný se záznamem v databáze PRODOM
Celková struktura sekvence jak se jeví při srovnání s ostatními sekvencemi v databázích pomocí BLASTu
Weisser D, Klein-Seetharaman J (2004). Identification of fundamental building blocks in protein sequences using statistical association measures. ACM SAC 2004