Maticový model jako řešení pro DIS v prostředí XML Vladimír Rejlek.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Produkce odpadů 2002 – 2007 obce ORP Šumperk
2 3 Lokalita Pod Javornic kou silnicí 4 směr Solnice směr Javornice směr Vamberk CENTRUM 10min. směr Častolovice.
Nový přístup k aplikacím Vema
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK Odpřednášeno
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Ondřej Pečený Patří do muzea? Ondřej Pečený
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Organisation for Economic Cooperation and Development OECD iLibrary.
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Jak se stát miláčkem vyhledávačů
Mezinárodní konkurenceschopnost, její faktory a aplikace na ČR
Dana Sigmundová E-books jako zdroj odborných informací ÚK FSS MU, Ústřední knihovna FSS MU.
Notace napětí 2. ZÁKLADNÍ POJMY A VZTAHY Symetrie tenzoru,
Lego Mindstorms Martin Flusser.
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
Ten, ta, to II Fill in the blanks with the appropriate forms of ten. Vzor: Proč potřebuješ ___ knihy? Proč potřebuješ ty knihy? *Taken from Review Lesson.
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Informatika pro ekonomy II přednáška 11
Databázové systémy 1 Cvičení č. 2 Fakulta elektrotechniky a informatiky Univerzita Pardubice.
Hra je určená pro dvě družstva nebo dva žáky – červené x modré Po kliknutí na tlačítko s číslicí se zobrazí otázka, s otázkou se zároveň zobrazí napovídající.
Univerzální B-stromy (UB-Stromy)
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
1 Extreme programming v praxi Martin Junek, product manager
DOK.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
1IT T ŘI PILÍŘE WEBU Ing. Jiří Šilhán. T ŘI PILÍŘE WWW WWW využívá počítačovou architekturu Klient/server, uživatel musí mít nainstalován prohlížeč, který.
Základní číselné množiny
Anotace Prezentace, která se zabývá prvočísly a čísly složenými AutorPavel Pavlas JazykČeština Očekávaný výstup Žáci rozliší prvočíslo a číslo složené.
Získávání informací Získání informací o reálném systému
Gravitační vlny v přesných řešeních Einsteinových rovnic RNDr
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Hodnocení vědy a výzkumu za využití InCites
Мetafora a metonymie v české mluvnici
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
KASKÁDOVÉ STYLY 4.
Pravděpodobnost a statistika opakování základních pojmů

Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
EDITOR BY: SPRESS 15. ledna ledna ledna 2015.
Soutěž pro dvě družstva
Termodynamika materiálů Ellinghamovy diagramy, Kelloggovy diagramy
Návrh a tvorba WWW Přednáška 1
Fyzika 2 – ZS_3 OPTIKA.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
VII. Neutronová interferometrie II. cvičení KOTLÁŘSKÁ 7. DUBNA 2010 F4110 Kvantová fyzika atomárních soustav letní semestr
Jazyk vývojových diagramů
KIV/ZIS cvičení 6 Tomáš Potužák. Pokračování SQL Klauzule GROUP BY a dotazy nad více tabulkami Stáhnout soubor studenti_dotazy_sql.mdb.
KONTROLA A MĚŘENÍ Měření součástí ve 3D
Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
Změny v SOILINu ve SCIA Engineer oproti Nexis32
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
XML na papír Dušan Fencl
Využití XML v DB aplikacích Michal Kopecký Výběr ze slajdů k 7. přednášce předmětu Databázové Aplikace (DBI026) na MFF UK.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
XML data na disku jako databáze Kamil Toman
Vícerozměrný přístup pro indexování XML dat
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Metrické indexování vektorových modelů v oblasti Information Retrieval
VIKMA06 Vyhledávání informací
Transkript prezentace:

Maticový model jako řešení pro DIS v prostředí XML Vladimír Rejlek

2 Obsah jazyk XML pojem podobnosti v oblasti XML dokumentů kategorizace přístupů přístup DIS s indexací Maticový model

3 XML – ukázka dat XML pro každého Jiří Kosek Grada Publishing s.r.o. Microsoft Word pro pokročilé Šimek Vacek Computer Press …

4 XML – stromová struktura

5 Přístupy k podobnosti XML 1)Klasické XML dotazovací jazyky rozšířené o operátor podobnosti 2)Závislost odpovědí na dotazy nad XML daty na granularitě těchto dat 3)Podobnost mezi XML dokumenty a DTD 4)Přístup DIS s indexací 5)Přístup DIS bez indexace

6 1. XML dotazovací jazyky rozšířené o operátor podobnosti vychází z již navržených XML dotazovacích jazyků (XQL, XML-QL) přidání operátoru podobnosti (~) dvojí použití porovnání na konstantu porovnání dvou částí dat mezi sebou

7 1. XML dotazovací jazyky rozšířené o operátor podobnosti dotaz v jazyku XXL SELECT H, S FROM cd01.xml, cd02.xml WHERE ~cd AS C AND C.#.interpret AS I AND I = "Gustav Brom se svým orchestrem" AND C.#.(~skladba)? AS S AND S.~hudebnik AS H AND H.# ~ "barytonsaxofon"

8 2. Závislost odpovědí na dotazy na granularitě dat orientace na "text-rich" dokumenty v čase konstrukce dotazu neznáme přesný tvar odpovědi chceme nalézt co nejrelevantnější kontext pro hledané termy dva způsoby řešení: přídavné informace speciální operátory

9 2. Závislost odpovědí na dotazy na granularitě dat jazyk XIRQL přidává kontextové uzly

10 3. Podobnost mezi XML dokumenty a DTD zkoumá XML dokumenty, pro než neznáme DTD pro XML dokument hledáme v množině DTD to nejpodobnější podobnost DTD mezi sebou

11 4. Přístup DIS s indexací

12 4. Přístup DIS s indexací dotazy typu: "najdi všechny dokumenty z kolekce s co největší relevancí k zadanému popisu" klasické DIS vůbec nepočítají s vnitřní strukturou dokumentů potřeba rozšíření indexu o tyto informace

13 5. Přístup DIS bez indexace výstupem není množina relevantních dokumentů ale množina relevantních podstromů dokumentů

14 5. Přístup DIS bez indexace přibližné vnořování stromů (jazyk ApproXQL)

15 Maticový model pro XML DIS přístup DIS s indexací přímo vychází z vektorového modelu pro DIS dokument je v indexu reprezentován maticí namísto vektorem přidává nový prvek: Matice převodu cest

16 Reprezentace dokumentu Reprezentací dokumentu d i v rámci kolekce c v maticovém modelu rozumíme matici D i o rozměrech m  k, kde m je počet měřených termů a k je počet cest v XML struktuře kolekce c. Hodnota d i,j,s  udává váhu termu t j na cestě s v dokumentu d i.

17 Příklad – strom kolekce

18 Příklad – matice dokumentů a b c a b c a b c D 1 : [( 0, 1, 0), ( 0, 0, 1), ( 0, 0, 0)] D 2 : [(0.5, 0, 0), ( 0, 0, 0), (0.5, 0, 0)] D 3 : [(0.5, 0, 0), (0.5, 0, 0), ( 0, 0, 0)] "david" "morrell" "caine" cesty: a)kniha->autor b)kniha->autor->jmeno c)kniha->autor->prijmeni

19 Definice podobnosti podobnost

20 Matice převodu cest matice převodu cest čtvercová reálná matice A o rozměrech k x k, kde k je počet cest v kolekci; a i,j  a a i,i = 1 pro každou cestu vektor, který vyjádří vztah této cesty ke všem ostatním

21 Matice převodu cest Jednokrokový převod Mějme matici dokumentu D o rozměrech mxk a matici převodu cest A o rozměrech kxk, kde a i,j  a a i,i =1. Pak jednokrokovým převodem rozumíme funkci JP(D,A)=UD, kde UD je opět matice o rozměrech mxk a platí, že:

22 Matice převodu cest Převod převodem matice dokumentu D podle matice převodu cest A rozumíme tranzitivní uzávěr funkce JP(D,A) zjednodušeně: váha termu se distribuuje po cestách podle matice převodu cest pomocí funkce maximum

23 Příklad – matice převodu cest a)kniha  autor b)kniha  autor  jmeno c)kniha  autor  prijmeni a b c a b c a b c UD 1 : [( 0.5, 1, 0.1), (0.5, 0.1, 1), ( 0, 0, 0)] UD 2 : [(0.5, 0.1, 0.1), ( 0, 0, 0), (0.5, 0.1, 0.1)] UD 3 : [(0.5, 0.1, 0.1), (0.5, 0.1, 0.1), ( 0, 0, 0)] matice převodu cest matice dokumentů po převodu

24 Maticový model pro XML DIS využití matice převodu cest každá matice dokumentu je před uložením do indexu upravena převodní maticí jednotlivé cesty (elementy) se tak dostávají do vztahů dva dokumenty se stejným termem na různých cestách si budou (mohou) více či méně podobné

25 Maticový model pro XML DIS nevýhody: časová a prostorová složitost je oproti vektorovému modelu horší potřeba přídavných informací (převodní matice) výhody: zpracovává strukturu XML dat kolekce může být z různých zdrojů dotaz a dokument ztotožněny velmi flexibilní (převodní matice je značně univerzální)

26 Závěr zavedení podobnosti do prostředí XML kategorizace přístupů k podobnosti XML Maticový model jako řešení pro přístup DIS s indexací

27 Literatura [1] Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler (2000): Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation ( [2] Jiří Kosek (2000): XML pro každého. Grada Publishing s.r.o. [3] Jonathan Robie, Joe Lapp, David Schach (1998): XML Query Language (XQL). ( [4] Hiroshi Ishikawa, Kazumi Kubota, Yasuhiko Kanemasa (1998): XQL: A Query Language for XML Data. Fujitsu Laboratories Ltd. ( [5] Alin Deutsch, Mary Fernandez, Daniela Florescu, Alon Levy, Dan Suciu (1998): XML-QL: A Query Language for XML. Submission to the World Wide Web Consortium ( html) html [6] Jaroslav Pokorný (2001): XML a databáze. KSI MFF UK ( [7] Scott Boag, Don Chamberlin, Mary F. Fernandez, Daniela Florescu, Jonathan Robie, Jérôme Siméon, Mugur Stefanescu (2002): XQuery 1.0: An XML Query Language. W3C Working Draft ( [8] Jonathan Robie, Don Chamberlin, Daniela Florescu (2000): Quilt: an XML Query Language. ( [9] Jaroslav Pokorný, Václav Snášel, Dušan Húsek (1998): Dokumentografické informační systémy. Skripta MFF UK, Karolinum – nakladatelství UK [10] Michal Kopecký (2000): Dokumentografické informační systémy. KSI MFF UK ( [11] Anja Theobald, Gerhard Weikum (2000): Adding Relevance to XML. Department of Computer Science University of the Saarland, Germany

28 Literatura [12] Taurai Chinenyanga, Nicholas Kushmerick (2001): An Expressive and Efficient Language For XML Information Retrieval. J. American Society for Information Science & Technology [13] William W. Cohen (1998): Integration of heterogeneous databases without common domains using queries based on textual similarity. Proc. SIGMOD, stránky 201­211 [14] Norbert Fuhr, Kai Großjohann (2000): XIRQL – An Extension of XQL for Information Retrieval. University of Dortmund, Germany [15] Norbert Fuhr, Kai Großjohann (2000): XIRQL: A Query Language for Information Retrieval. University of Dortmund, Germany [16] Norbert Fuhr (2000): Probabilistic Datalog – Implementing Logical Information Retrieval for Advanced Applications. [17] Albrecht Schmidt, Martin Kersten, Menzo Windhouwer (2001): Querying XML Documents Made Easy: The Nearest Concept Queries. 17th International Conference on Data Engineering ( [18] Yoshihiko Hayashi, Junji Tomita, Gen'ichiro Kikui (2000): Searching Text-rich XML Documents with Relevance Ranking. ACM SIGIR 2000 Workshop on XML and Information Retrieval ( [19] Torsten Schlieder (2001): Similarity search in XML data using cost-based query transformations. Proceedings of the Fourth International Workshop on the Web and Databases (WebDB'01) ( [20] Torsten Schlieder, Holger Meuss (2000): Result ranking for structured queries against XML documents. DELOS Workshop on Information Seeking, Searching and Querying in Digital Libraries ( [21] Elisa Bertino, Giovanna Guerrini, Marco Mesiti (2001): Measuring the Structural Similarity among XML Documents and DTDs. Dipartimento di Informatica e Scienze dell'Informazione [22] Jakub Vrána (2002): Specificita slov. MFF UK