PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina.

Slides:



Advertisements
Podobné prezentace
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
Advertisements

J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
MS ACCESS - DOTAZY DATABÁZOVÉ SYSTÉMY.
Úvod do databázových systémů
CXPath Dotazování nad heterogenními XML zdroji s pomocí konceptuálního schéma Jan Vávra, 21. dubna 2004
KEG Marek RŮŽIČKA EuroMISE – Kardio, VŠE Praha Projekt Stepper – Aplikace pro podporu víceúrovňové formalizace textových dokumentů.
Základy databázových systémů
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Databáze.
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Přednáška č. 5 Proces návrhu databáze
Výpočetní technika Akademický rok 2006/2007 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
Databázové systémy I Přednáška č. 5 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
A4B33DS & X33MIS Zdeněk Kouba
1IT Relační datový model
Databáze Jiří Kalousek.
Cvičení 13 Ing. Pavel Bednář
Definování prostředí pro provozování aplikace dosud jsme řešili projekt v obecné rovině aplikace bude ovšem provozována v konkrétním technickém a programovém.
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Databáze Úvod.
Databázové systémy II Přednáška č. 8 – Pohledy (Views)
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
DATOVÉ MODELY (c) Tralvex Yeap. All Rights Reserved.
Databázové systémy M. Kučerová.
Systémy pro podporu managementu 2
Relační databáze.
1IT D OTAZOVACÍ JAZYKY V RELAČNÍCH DATABÁZÍCH Ing. Jiří Šilhán.
Databázové systémy. Práce s daty Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace.
Základní pojmy Systém je abstrakce, kterou si lidé vytvářejí v procesu poznávání jako nástroj zkoumání reálných objektů.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
Převod ER schémat do ERL Deskripční logiky Mgr. Marek Vajgl.
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Databázové systémy Přednáška č. 4.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Databázové modelování
Informatika II PAA DOTAZOVACÍ JAZYKY
Úvod do databázových systémů
Databáze Lokální systémy a SQL servery VY_32_INOVACE_7B10.
Databázové systémy Informatika pro ekonomy, př. 18.
Databáze velké množství dat pevně dané struktury
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Obecná kvantifikace v relačních databázích Přehled typů dat a algoritmů Alan Eckhardt.
XQuery Dotazovací jazyk XML Daniel Privalenkov. O čem bude prezentace Nutnost dotazovacího jazyku v XML Rychlý přehled XQuery Několik příkladů.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
XML data na disku jako databáze Kamil Toman
Databázové systémy Datové modely.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Perzistence XML dat Kamil Toman
DATABÁZE.
Úvod do databází zkrácená verze.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
NÁZEV ŠKOLY:SOŠ Net Office, spol. s r.o. Orlová Lutyně AUTOR: Mgr. Jana Kijonková NÁZEV: Podpora výuky v technických oborech TEMA: Relační databáze – dotazy.
YOUR LOGO C# Entity Framework. YOUR LOGO  Entity framework nám poskytuje: -Vytváří objektový model na základě databázového schématu -Mapuje tabulky,
Základy RA RA = matematický základ pro relační modul DBS jazyk SQL Relační DBS = Relační algebra + Relační model Doména = množina hodnot stejného typu/významu.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Databáze MS ACCESS 2010.
Úvod do databázových systémů
SQL – příkaz SELECT Ing. Roman Danel, Ph.D.
Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky
Dobývání znalostí z databází znalosti
Výpočetní technika Akademický rok 2008/2009 Letní semestr
Databázové systémy a SQL
Informatika pro ekonomy přednáška 8
Transkript prezentace:

PRÉCIS OD NESTRUKTUROVANÝCH KLÍČOVÝCH SLOV JAKO DOTAZŮ K STRUKTUROVANÝM DATABÁZÍM JAKO ODPOVĚDÍM Martin Lacina

OSNOVA Motivace Datový model Dotazy a jejich vyhodnocení Architektura systému Uživatelské testování

ZÁKLADNÍ CHARAKTERISTIKA dotazy pomocí klíčových slov nad relačními databázemi odpověď na dotaz je celá relační databáze, která je logickou podmnožinou původní DB logická podmnožina obsahuje nejen položky přímo související s danými klíčovými slovy dotazu, ale i položky, které se k nim různými způsoby implicitně vztahují cílem je poskytnout uživateli mnohem hlubší náhled do původních dat dotazy mohou obsahovat více klíčových slov v kombinaci s operátory AND, OR, NOT

MOTIVACE PRO VZNIK k internetu má přístup velké množství lidí dostupný obsah je často uložen ve strukturovaných databázích uživatelé nemají (a neměli by mít) znalosti o datových modelech a dotazovacích jazycích pro každý konkrétní zdroj informací mají jen nepřesnou představu o tom, co chtějí najít chtějí dosáhnout svých cílů s minimální námahou je stále důležitější překlenout propast mezi volným vnímáním světa průměrným uživatelem a systémy (polo-)strukturované reprezentace světa stále větší význam je přikládán volně formulovaným dotazům

MOTIVAČNÍ PŘÍKLAD 'précis' je to co člověk očekává jako odpověď na svou otázku, nebo výchozí bod, který jej navede k úplnější odpovědi Příklad: pokud položíme otázku "Woody Allen", pak možná odpověď (précis) by mohla vypadat třeba takto : „Woody Allen se narodil 1. prosince 1935 v Brooklynu (New York, USA). Jeho práce jako režiséra obsahuje Match Point (2005), Melinda and Melinda (2004), Anything Else (2003). Hrál ve filmech Hollywood Ending (2002), The Curse of the Jade Scorpion (2001).“ na nestrukturovaný dotaz "Woody Allen" dostáváme strukturovanou odpověď

POŽADAVKY NA ODPOVĚĎ odpověď není jedna tabulka (jako v SQL), ale databáze, která je logickou podmnožinou původní databáze obsahuje nejen položky přímo spojené s klíčovými slovy dotazu, ale i ty, které se k nim různými způsoby implicitně vztahují je možné určit, jak rozsáhlá odpověď bude

POUŽITÍ A VÝHODY lepší náhled do původních dat získání ucelené podmnožiny reálných dat z velké databáze, např. pro test nové aplikace před nasazením výhodou je spojení jednoduchosti dotazu s komplexností a strukturou odpovědi pokud byla původní databáze normalizovaná, pak je i odpověď ve formě databáze normalizována nad odpovědí se lze dále dotazovat a upřesňovat požadavky na výslednou podobu odpovědi, což by nad jednou nenormalizovanou tabulkou bylo nepřirozené a často i nemožné

DATOVÝ MODEL použitý autory článku relační databáze obohacené o další vlastnosti relační schéma R i (A i 1,... A i ki ) databázové schéma D je množina relačních schémat naplněním schémat daty vynikají relace a databáze databáze D odpovídá schématu databáze D Relace R i odpovídá schématu relace R i prvky relací jsou n-tice

LOGICKÁ PODMNOŽINA DATABÁZE Def. Mějme relační databázi D, pak její logická podmnožina označená L má následující vlastnosti: množina jmen relací ve schématu L je podmnožinou jmen relací schématu původní databáze D pro každou relaci R i v L je množina jejích atributů podmnožinou množiny atributů relace z D, která má stejné jméno pro každou relaci R i v L je množina jejích n-tic podmnožinou množiny n-tic původní relace R i (s využitím projekce na atributy přítomné ve výsledné relaci)

GRAF SCHÉMATU DATABÁZE Def. Graf schématu databáze G=(V,E) je orientovaný graf odpovídající schématu databáze D. v množině vrcholů grafu rozlišujeme dva typy vrcholů relační vrcholy atributové vrcholy obdobně pro hrany projekční hrany hrany spojení Předpokládáme, že graf schématu databáze D je souvislý.

CESTY V GRAFU SCHÉMATU cesty v grafu vždy začínají v relačním vrcholu relace B je z relace A dosažitelná, pokud existuje cesta v grafu G z relace A do relace B dosažitelnost n-tice z jedné relace do n-tice v jiné relaci cílová relace musí být dosažitelná z výchozí relace po cestě musí existovat n-tice, které se postupně spojují od počáteční až k cílové n-tici hrany v grafu vyjadřují explicitní vztahy mezi vrcholy orientované cesty v grafu vyjadřují "implicitní" vztahy mezi relačními vrcholy značí "implicitní" spojení relací z relačního do atributového vrcholu "implicitní" projekce relace na atribut

ANOTACE SCHÉMATU VAHAMI

SCHÉMA PŘÍKLADOVÉ DATABÁZE THEATRE(tid, name, phone, region) PLAY(tid, mid, date) MOVIE(mid, title, year, did) GENRE(mid, genre) DIRECTOR(did, dname, blocation, bdate, nominat) CAST(mid, aid, role) ACTOR(aid, aname, blocation, bdate, nominat) v některých případech bude použito jen první písmeno názvu relace

PRÉCIS DOTAZ dotaz je kombinací termů z klíčových slov a logických operátoru AND, OR a NOT term může být jedno slovo ("Titanic") nebo fráze ("Julia Roberts") uzavřená v závorkách Def. Počáteční n-tice pro databázi D a précis dotaz Q je taková n-tice, která obsahuje v alespoň jednom atributu term z dotazu, a to ať v pozitivní nebo negativní formě sémantika položeného dotazu (odpověď) je zjištěna ze samotného dotazu a z množiny omezení, které jsou na odpověď kladeny

OMEZENÍ DOTAZU mohou být určena uživatelem při zadání dotazu uložena v uživatelském profilu uložena v systému 2 hlavní skupiny tříd omezení dotazu omezení na relevanci definována na základě vah hran grafu strukturální omezení definována na elementech grafu pro vytvoření instance omezení lze využívat agregační funkce (min, max, avg, sum) i porovnávací operátory (>, <, =) a jejich kombinace

PŘÍKLADY OMEZENÍ DOTAZU minimální váha cesty, minimální váha podgrafu # relací, # atributů na relaci # spojení (tj. maximální délka cesty v grafu)

VYUŽITÍ VAH A OMEZENÍ rozdílné nastavení vah v grafu schématu databáze nebo rozdílné množiny omezení mohou pro stejný précis dotaz vydat různé výsledky Příklad: Filmový kritik se pravděpodobně bude zajímat o detailnější informace o filmech, zatímco filmový fanoušek spíše upřednostní krátkou odpověď obsahující kina, kde může filmy z výsledku dotazu shlédnout. Příklad: Odpověď pro mobilní telefon může obsahovat méně atributů než odpověď pro stolní počítač. lze předdefinovat různá ohodnocení grafu a různé množiny omezení pro různá použití uživatel může začít s dotazem na těsně vázané objekty a postupně jej směřovat určitým směrem a rozšiřovat jej na volněji vázané informace

SÉMANTIKA DOTAZU

PŘÍKLADY DOTAZŮ Množina omezení je prázdná q 1 : “Alfred Hitchcock” OR “Gregory Peck” q 2 : “Clint Eastwood” AND “thriller” thrillery, kde hrál Clint Eastwood thrillery režírované Clintem Eastwoodem herci hrající v thrillerech režírovaných Clintem Eastwoodem q 3 : “Gregory Peck” AND NOT “drama” q 4 : (“Clint Eastwood”AND“thriller”)OR(“Gregory Peck” AND NOT “drama”)

INTERPRETACE DOTAZU při hledání možné interpretace dotazu je třeba vzít v úvahu: graf schématu databáze sémantiku dotazu výskyty termů z dotazu v relacích databáze Příklad: možné interpretace dotazu "Clint Eastwood" AND "thriller" thrillery, kde hrál Clint Eastwood thrillery režírované Clintem Eastwoodem herci hrající s Clintem Eastwoodem v nějakém thrilleru a mnoho dalších interpretace dotazu se určuje naleznutím počátečního podgrafu grafu schématu databáze

POČÁTEČNÍ PODGRAF

VÁHA PODGRAFU

VÁHA PODGRAFU - PŘÍKLAD

ROZŠÍŘENÝ PODGRAF

INTERPRETACE DOTAZU Def. Množina všech možných rozšířených podgrafů dotazu Q nad databází D při množině omezení C obsahuje schéma logické podmnožiny databáze G’, které obsahuje nejrelevantnější informace o dotazu Q při omezení C.

ARCHITEKTURA SYSTÉMU

při každém dotazu Q nad databází D s grafem schématu G jsou provedeny následující kroky parsování dotazu převedení dotazu na disjunktivní normální formu z invertovaného indexu pro obsah databáze se zjistí, které části databáze obsahují klíčová slova z dotazu, tj. zjištění množiny počátečních relací (pokud je prázdná, pak dotazování končí) vytvoří se schéma logické podmnožiny databáze dle množiny počátečních relací společně s relacemi, které je propojují v grafu G a s jejich atributy, které se mají objevit ve výsledku dle platných omezení naplnění schématu logické podmnožiny databáze daty nejdříve se vloží počáteční n-tice poté n-tice z daších relací v grafu G' dle sémantiky dotazu a poskytnutých omezení

EXPERIMENTÁLNÍ VÝSLEDKY Implementace Prototyp systému v C++ Oracle 9i release 2 Server Pentium IV 3GHz 512 MB paměti během experimentů byl server více méně nezatížen 2 testovací databáze The Internet Movie Database (IMDb), Restarurační data,

UŽIVATELSKÉ TESTOVÁNÍ 14 užívatelů s dobrou znalostí jazyka SQL a databází zvolená databáze IMDB uživatelé dostali seznam třiceti témat obsahujících klíčová slova z invertovaného indexu jejich úkolem bylo najít informace o daných tématech pomocí SQL pomocí metody précis

Čas, který uživatel strávil dotazováním databáze, než byl spokojen s výsledkem

Spokojenost uživatelů s výsledky a náročnosti jejich dosažení S1 – SQL před použitím metody précis S2 – SQL po použití metody précis S3 – metoda précis

ZDROJE [1] Alkis Simitsis, Georgia Koutrika, Yannis Ioannidis, “Précis: from unstructured keywords as queries to structured databases as answers”, The VLDB Journal (2008) 17: [2] Alkis Simitsis, Georgia Koutrika, Yannis Ioannidis, "The Essence of a Query Answer," Data Engineering, International Conference on, pp , 2006 IEEE 22rd International Conference on Data Engineering, 2006