DBXplorer Systém pro vyhledávání nad relačními databází podle klíčových slov. zpracovala Margarita Vishnyakova.

Slides:



Advertisements
Podobné prezentace
OZD: Hašování RNDr. Michal Žemlička.
Advertisements

Ing. David Pejčoch Tutorial
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Aplikační a programové vybavení
DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Fakulta elektrotechniky a informatiky
Výpočetní technika Akademický rok 2008/2009 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
Výpočetní technika Akademický rok 2006/2007 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
SQL Structured Query Language
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Databázové systémy I Přednáška č. 5 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Databázové systémy 1 Cvičení č. 3 Fakulta elektrotechniky a informatiky Univerzita Pardubice.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
ADT Strom.
Úvod do databází Databáze.
Martin Kirschbaum 4.A,  určitá uspořádaná množina informací (dat) uložená na paměťovém médiu  Databázový program - umožňuje tvořit, editovat,
Databáze Jiří Kalousek.
Podnikový systém SEWSS Jakub Charvát STATISTICA Enterprise-wide SPC System.
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
MySQL - Vytvoření nové tabulky  create table jméno_tabulky (jméno_položky typ_položky,... ) Přehled nejběžnějších datových typů Přehled nejběžnějších.
17.Tabulkový procesor (filtrování a řazení dat, formuláře, podmínky a podmíněné formátování, export a import dat) Barbora Skoumalová 4.A.
Databázové systémy II Přednáška č. 8 – Pohledy (Views)
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Tabulkový procesor.
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Architektura databází Ing. Dagmar Vítková. Centrální architektura V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická.
Databázové systémy I Cvičení č. 9 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2013.
Fakulta elektrotechniky a informatiky
Anotace Žák dokáže v aplikací MS Word vytvořit tabulku Autor Petr Samec Jazyk Čeština Očekávaný výstup Dokáže v aplikaci MS Word vytvořit, upravit a formátovat.
Relační databáze.
TEXTOVÝ EDITOR.
Databázové systémy Architektury DBS.
KIV/ZIS cvičení 6 Tomáš Potužák. Pokračování SQL Klauzule GROUP BY a dotazy nad více tabulkami Stáhnout soubor studenti_dotazy_sql.mdb.
Informatika pro ekonomy II přednáška 10
Databázové systémy II Přednáška č. X Ing. Tomáš Váňa, Ing. Jiří Zechmeister Fakulta elektrotechniky a informatiky
Databázové systémy I Cvičení č. 8 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2013.
Architektury a techniky DS Cvičení č. 9 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
WWW – hypertextový informační systém
STROMY Datová struktura sestávající z uzlů
Databázové systémy II Cvičení č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Databázové modelování
Rozpoznávání v řetězcích
Databázové systémy Informatika pro ekonomy, př. 18.
Databázové systémy 2 Cvičení č. 5 Fakulta elektrotechniky a informatiky Univerzita Pardubice.
Obecná kvantifikace v relačních databázích Přehled typů dat a algoritmů Alan Eckhardt.
Databázové systémy SQL Výběr dat.
XML data na disku jako databáze Kamil Toman
Databázové systémy 2 Zkouška – 8:00. Příklad I - Funkce Vytvořte funkci ZK_DIFF_MIN_MAX (P_ZAM_ID NUMBER) RETURN VARCHAR2. Funkce může vracet.
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
Vícerozměrný přístup pro indexování XML dat
Lišta nástrojů Standard otevření, uložení a další manipulace se soubory (tj. projekty) načítání dat (mapových vrstev) „žluté plus“ změna měřítka odkaz.
Lišta nástrojů Standard otevření, uložení a další manipulace se soubory (tj. projekty) načítání dat (mapových vrstev) „žluté plus“ odkaz na další lišty.
Databázové systémy I Cvičení č. 8 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2015.
Perzistence XML dat Kamil Toman
Úvod do databází zkrácená verze.
WINDOWS Základní popis a údržba operačních systémů.
Import dat Access (16). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Výukový materiál zpracovaný v rámci projektu: Střední zdravotnická škola ÚO – šablony Registračn í č í slo projektu: CZ.1.07/1.5.00/ Š ablona: III/2.
Ukládání dat biodiverzity a jejich vizualizace
Úvod do databázových systémů
Výpočetní technika Akademický rok 2008/2009 Letní semestr
Databázové systémy 1 – KIT/IDAS1 Ing. Monika Borkovcová, Ph.D.
Informatika pro ekonomy přednáška 8
Optimalizace SQL dotazů
Přednáška 7 SQL – JOIN.
Transkript prezentace:

DBXplorer Systém pro vyhledávání nad relačními databází podle klíčových slov. zpracovala Margarita Vishnyakova

Úvod V Internetových vyhledávačich je populární vyhledávání podle klíčových slov. Vyhledávání na tradičních systémech řízení databáz se uskutečňuje prostřednictvím vlastních aplikaci, které jsou úzce svázána s databázovým schématem. Tradiční systémy pro správu databází nepodporují vyhledávání podle klíčových slov. Cílem je umožnit takové vyhledávání, aniž by bylo nezbytně nutné, aby uživatelé věděli schémata příslušných databází.

Náhled na DBXplorer IR techniky použivají Invertované seznamy (Inverted Lists), což je ekvivalent s Tabulkami symbolů v databazích. Tabulka symbolů udržuje v sobě informaci o klíčových slovech na zvolené urovní zrnitosti(granularity), tj. pro každe klíčové slovo pamatuje místo vyskýtu. DBXplorer podporuje konjunktivní dotazy podle klíčových slov, tj. vyhledávány pouze dokumenty, které obsahují všechny klíčová slova dotazu. To je ve skutečnosti, nejvíce používané paradigma pro internetové vyhledávání.

Přehled DBXplorer Takové vyhledávání vyžaduje Publikace předzpracovávaný krok, který umožňuje vyhledávání podle klíčových slov pomocí stávení tabulky symbolů a souvisejících struktur Hledání krok, ve kterém vybíra odpovídající řádky z publikovaných databází

Přehled DBXplorer - Publikace Databáze (nebo požadovaná část) je připravená pro vyhledávání pomocí následujících kroků. Databáze je identifikována, spolu se souborem tabulek a sloupců v databázi, které mají být zveřejněny. Pomocné tabulky jsou vytvořeny pro podporu vyhledávání podle klíčového slova. Nejdůležitější je struktura tabulky symbolů S, která se používá při hledání, abysme mohli efektivně určit umístění klíčových slov dotazu v databázi (tj. tabulky, sloupců, řádků, kde se vyskytují).

Přehled DBXplorer - Hledání Na dotaz sestávající z klíčových slov odpovída takto: Tabulka symbolů je prohledavana k určení tabulek a sloupců resp. řádků z databáze, které obsahují klíčová slova Všechny potenciální podmnožiny tabulek v databázi, které pri spojení (join), můžou obsahovat řádky, které mají všechny klíčová slova, jsou identifikovány a vyjmenovany resp. očislovany. Pro každé vyjmenované spojovácí stromy, je postaven SQL výraz.

Design tabulky symbolů Pouze přesný problém, tj., kde každé klíčové slovo v dotazu musí odpovídat hodnotě atributu v řádku tabulky. Tabulka symbolů udržuje v sobě informaci o klíčových slovech na zvolené urovní zrnitosti(granularity), tj. pro každe klíčové slovo pamatuje místo vyskýtu. Sloupcová úroveň zrnitostí (Pub-Col) kde pro každé klíčové slovo tabulka symbolů udržuje seznam všech databázových sloupců (tj. seznam table.column), které jej obsahují Buňková úroveň zrnitostí (Pub-Cell), kde pro každé klíčové slovo tabulka symbolů udržuje seznam databázových buněk (tj. seznam table.column.rowid), které jej obsahují.

Design tabulky symbolů - faktory Požadavky na prostor a čas Čas: Pub-Col trvá méně času na vybudování Velikost: Pub-Col jsou menší než Pub-Cell, jelikož opakování klíčového slova ve sloupci nevede ke zvýšení počtů položek v případě Pub-Col Výkon vyhledávání Závisí na efektivní výroby a provádění SQL Pub-Cell vrací větší počet SQL příkazů, než Pub-Col Snadnost údržby Vložení / aktualizace: potřebné pro vložení odlišných od starých hodnot v případě Pub-Col, zatímco v Pub-Cell je potřeba pro každé aktualizaci / vložení Stejně pro mazání

Ukládání tabulky symbolů Ukládáme tabulku symbolů (pub- col) v databázi (hash klíčových slov, sloupec Id) FK Komprese (Cizí Klíč, Foreign Key) Existuje-li cizí-klíčový vztah mezi C1 a C2, skladovat pouze C1 CP Komprese Rozdělit H do minimálního počtu bipartitních klik (klika je nějaký bipartitní podgraf H s maximálním počtem hran) Komprimovat každou kliku. Ukládání v tabulce symbolů (pub- cell) v databázi jako (hash klíčových slov, seznam všech Buňka Id) Nekomprimováná hashovácí tabulka Komprimováná hashovácí tabulka ColumnsMap tabulka v2v2 v3v3 v4v4 c1c1 c2c2 x

Hledání – Vyčet spojovácích stromů Najdeme množinu databázových tabulek, které obsahují alespoň jedno z klíčových slov dotazu Vyčet stromů Všechny potenciální podmnožiny tabulek v databázi, které pri spojení (join), můžou obsahovat řádky, které mají všechny klíčová slova, jsou identifikovány a vyjmenovany. Join Trees Nechť MatchedTables je množina databázových tabulek, které obsahují alespoň jedno z klíčových slov. Pokud schéma grafu G je neorientovaný graf, pak spojovací strom(join tree) je podstrom G, takový že: (a) listy patří k MatchedTables (b) polečně, listy obsahují všechna klíčová slova v dotazu keywords

Hledání – Určení odpovídajících řadek Vstup do tohoto závěrečného vyhledávácího kroku je výčet join stromů. Každý strom je pak mapován na jeden příkaz SQL, který se připojí tabulky, jak je uvedeno ve stromu, a vybere ty řádky, které obsahují všechna klíčová slova. Získané řádky jsou seřazeny před výstupem. Řádky seřazeny podle počtu tabulek zúčastněných ve spojení (stejné jako když klíčová slova se vyskytují blízko sebe v dokumentech, potom mají vyšší hodnocení) Join Trees

Obecné shody – Token shody Token shody - klíčové slovo v dotazu se shoduje pouze na znaku nebo podřetězecu hodnoty atributu (např. načtení řádky adresy určením pouze názvu ulice). Pub-Prefix metoda B + strom indexy lze použít k načtení řádků, jejichž buňky shodují na daném prefixu řetězce Tato klauzule je tvaru WHERE T.C LIKE ‘P%K%’ Při publikování databáze, pro každé klíčové slovo K, vstup (hash (K), TC, P) je uložen v tabulce symbolů, jestliže existuje řetězec ve sloupci TC, které Obsahuje symbol K Má prefix P

Obecné shody – Token shody Database table T Pub-Prefix table Nechť hash hodnoty hledanych sad symbolů ('string', 'koule' a 'round') jsou 1, 2 a 3 RowIdC 1this is a string 2this string 3this is a ball 4no string 5any ball is round Zvažte, hledání klíčových slov "string" Pub-Prefix tabulky vrací předpony "th" a "no" a bude obsahovat následující SQL (T.C LIKE ‘th%string%’) OR (T.C LIKE ‘no%string%’)

Zavěr DBXplorer používá alternativní tabulky symbolů pro umístění klíčových slov v databázi. DBXplorer podporuje přesnou shodu a zobecněnou shodu až do určité míry.