Vícerozměrný přístup pro indexování XML dat

Slides:



Advertisements
Podobné prezentace
CXPath Dotazování nad heterogenními XML zdroji s pomocí konceptuálního schéma Jan Vávra, 21. dubna 2004
Advertisements

Úvod do HTML. Co je HTML  zkratka pro HyperText Markup Language  značkovací jazyk pro hypertext  umožňuje publikaci dokumentů na internetu.
Aplikační a programové vybavení
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
1 Fakulta stavební, VŠB-Technická univerzita Ostrava 2 Civil and Environmental Engineering Department, University of Utah Modelování v mechanice Ostrava,
Measurement of electromagnetic oscillations of yeast cells in kHz and GHz region PhD student: Michal CIFRA Školitel: Jan VRBA Školitel specialista: Jiří.
Databáze citačních rejstříků Web of Science.  Online akademická služba provozovaná společností Thomson Reuters.Thomson Reuters  Databáze citačních rejstříků,
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Univerzální B-stromy (UB-Stromy)
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
XHTML Tvorba webových stránek. Vývoj značkovacích jazyků HTML – HyperText Markup Language  Značkovací jazyk pro vytváření www stránek. Pomocí značek.
Vyhledávání v xml Milan Plachý.
PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.
ADT Strom.
DOK.
Úvod do databází Databáze.
2005 Šablona eVŠKP - titulní list ÚVOD  Definice doporučené šablony  Soubor s přednastavenými styly, strukturou, designem  NEREÁLNÉ problémy.
Uložení a analýza bodového mračna bodů v Oracle Spatial Fakulta aplikovaných věd / Katedra matematiky Západočeská univerzita v Plzni Bc. Michal.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Sémantizace Webu 3. RDF Peter Vojtáš.
Definice, druhy, chyby, abstrakce
1 PRG036 – Technologie XML Přednáší: Irena Mlýnková Martin Nečaský
FCHT – Aplikovaná Informatika v Chemii
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Datové typy a struktury
Maticový model jako řešení pro DIS v prostředí XML Vladimír Rejlek.
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
XML na papír Dušan Fencl
Využití XML v DB aplikacích Michal Kopecký Výběr ze slajdů k 7. přednášce předmětu Databázové Aplikace (DBI026) na MFF UK.
RDF a RQL Roman Krejčík. RDF a RQL RDF – Resource Description Framework –Jazyk pro ukládání informací v XML –RDF Schema RQL – RDF Query Language –Dotazování.
Kompresní algoritmus LZW Dokumentografické informační systémy.
Logika a umělá inteligence pro multi-agentní systémy Mobilní agent řízený neuronovou sítí.
XML a metainformační systémy (pro geoinformace) Ing. Jan Růžička Institut ekonomiky a systémů řízení, odd.GIS VŠB-TU Ostrava, HGF tř. 17.listopadu
Mocnina částečně uspořádané množiny
XQuery Dotazovací jazyk XML Daniel Privalenkov. O čem bude prezentace Nutnost dotazovacího jazyku v XML Rychlý přehled XQuery Několik příkladů.
Vít Profant Obhajoba bakalářské práce
Union & Find Dáno N objektů rozdělených do disjunktních množin. Úlohy: 1.Zjistěte, zda 2 objekty jsou ve stejné množině 2.Spojte 2 množiny Dotazů i objektů.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
XML data na disku jako databáze Kamil Toman
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Přístup do IS z mobilních zařízení Tomáš Tureček Katedra Informatiky FEI VŠB-TU Ostrava.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Sdílení dat nejen v prostředí Sémantického webu Roman Špánek Výjezdní seminář projektu SemWeb
XML eXtensible Markup Language Adolf Knoll Národní knihovna ČR
210 mm Národní technická knihovna podporuje.... OPEN ACCESS WEEK
DBXplorer Systém pro vyhledávání nad relačními databází podle klíčových slov. zpracovala Margarita Vishnyakova.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Prostorové datové struktury
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Prezentace diplomové práce
Ověření Možnosti Využití Jazyka XML a Formátu SVG Pro Potřeby Metainformačního Systému CAGI Zpracovatel:tomáš duchoslav Vedoucí: ing. Jan růžička.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Úvod do XML 2. část Zdeněk Žabokrtský (s využitím materiálů z
XSLT překladač Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Tvorba metainformačního systému pro prostorová data s využitím Internetových technologií Zpracovatel: Tomáš Duchoslav Vedoucí: Dr. Ing. Bronislava Horáková.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Návrh a implementace algoritmů pro údržbu,
Kontakty slajdy: ftp://ulita.ms.mff.cuni.cz/predn/POS.
1 PRG036 – Technologie XML Přednáší: Irena Mlýnková Martin Nečaský
Perzistence XML dat Kamil Toman
XML a datový standard Zdeněk Jirkovec Softwarové Aplikace a systémy.
Značkovací jazyky Začínáme.
Databázové systémy a SQL
Databázové systémy a SQL
Rešeršní činnost Mgr. Petr Šmejkal
Analýza velkých dat strukturovaně či nestrukturovaně?
Transkript prezentace:

Vícerozměrný přístup pro indexování XML dat Michal Krátký, michal.kratky@vsb.cz školitel: Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB - Technická univerzita Ostrava WOFEX 2003

Obsah Úvod, Nativní XML databáze, Vícerozměrný přístup pro indexování XML dat, Výsledky experimentů, Závěr. 2/11

Úvod Extensible Markup Language (XML) je značkovací jazyk vyvíjený W3C. XML je jazyk pro modelování dat, nativní XML databáze. Struktura dokumentů je popsána DTD nebo XML Schema. XML dotazovací jazyky (XPath, XQL, XQuery,…). Současné přístupy (relační, objektově-relační) nejsou vhodné pro indexování XML dokumentů. Problémem je nutnost průchodu stromem při provádění XML dotazu. 3/11

Vícerozměrný přístup pro indexování XML dat Graf je množina cest. id 123 Atribut je zvláštním případem elementu s řetězcovou hodnotou. books/book/title/”The Two Towers” books/book/author/”J.R.R. Tolkien” … Např.: <book id=“123”> 4/11 books/book/id/”123”

Indexující datová struktura Modelujeme cestu jako n-rozměrný vektor, proto využíváme existující vícerozměrné datové struktury. Především perzistentní, stránkovaný BUB-strom. Dotazování je prováděno pomocí bodových a rozsahových dotazů. 5/11

Indexování XML dat Index: termů, cest, struktury. Index termů: názvy elementů a atributů a jejich hodnoty jsou uloženy s jedinečnými čísly (id). Index cest: obsahuje všechny cesty. Např.: pro cestu books/book/title je uložen vektor (0,1,2) s id 0. Index struktury: obsahuje id cest, elementů a řetězcových hodnot. Např.: 0/1/2/”The Two Towers” => (0,0,1,2,4). 6/11

Dotazování XML dat XPath dotaz: books/book[author=“Joseph Heller”] 3 fáze, získávání: ● id termů z indexu termů, ● id 1 cesty books/book/author z indexu cest: bodový dotaz (0,1,3), ● vektory z indexu struktury: rozsahový dotaz (1,0,0,8)x(1,max,max,8). 7/11

Experimentální výsledky Databáze bílkovin z XML UW projektu: ● velikost souboru: 683MB, ● počet elementů: 21.305.818, ● počet atributů:1.290.647. ● maximální délka cesty 8. BUB-forest, index struktury: BUB-strom indexující prostory dimenze 7 a 9. 8/11

Experimentální výsledky Dotazy: dotaz 1: ProteinDatabase/ProteinEntry/[protein/ name='hypothetical protein YDL110c'] dotaz 2: ProteinDatabase/ProteinEntry/[reference/refinfo/ authors/author='Smith, E.L.'] Relevantních listových uzlů Prohledávaných listových uzlů DAC Čas procesu [s] dotaz 1 1 116 (0.05%) 324 0.125 dotaz 2 15 6 327 (2.3%) 15 275 5.8 průměr 8 2 147.7 (0.9%) 7 799.5 2.9 9/11

Závěr Implementace XML dotazovacího jazyka, např. XPath. http://www.cs.vsb.cz/arg Implementace XML dotazovacího jazyka, např. XPath. Implementace dotazování na částečnou shodu, např. books/book[title=‘*computer*’]. Efektivní provádění úzkých rozsahových dotazů. Komprese v datové struktuře. Kombinace s přístupy indexování nestrukturovaných dokumentů. 10/11

Reference M. Krátký, J. Pokorný, T. Skopal, V. Snášel: The Geometric Framework for Exact and Similarity Querying XML data. In Proceedings of EurAsia-ICT 2002. Shiraz, Iran, Springer Verlag, LNCS 2510. M. Krátký, T. Skopal, and V. Snášel: Multidimensional Term Indexing for Efficient Processing of Complex Queries. Kybernetika, Journal of the Academy of Sciences of the Czech Republic, 2003, accepted. 11/11