1. přednáška Fulltextové vyhledávání Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026, MFF UK) Úvod do databázových systémů B RNDr. Jan Lánský, Ph.D.
2 Obsah přednášky Teoretické základy fulltextového vyhledávání (slajdy 3-26) Webové vyhledávače (slajdy 27-34) Webový vyhledávač google (slajdy 35-47) Příklady na cvičení (slajdy 48-50) Databáze odborných článků ProQuest
3 Fulltextové vyhledávání –Prohledávají se volně psané texty, kde může být stejná událost popsaná více autory rozdílně Různá slova stejného významu (Synonyma) Různé slovní obraty a opisy …
4 Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty....
5 Porozumění textu Synonymie slov –Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač...
6 Porozumění textu Homonymie slov –Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování...
7 Porozumění textu Homonymie slov –Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č. není zřejmé, zda se jedná o jednu, nebo více kontrol –Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět
8 Porozumění textu Významy slov se mohou překrývat. –Hierarchicky zvíře > kůň > hřebec –Asociace kalkulátor ~ počítač ~ procesor...
9 Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píše nebo čte. –Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. –Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj,... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat stejnou informaci jako autor, ani navzájem.
10 Porozumění textu Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. –Homonymie vlastních jmen na začátku věty Dohnal zvítězil. (Čtrnáctý zvítězil.) Dohnal předešel gen. Kvapila velmi výrazně. - jedna, nebo dvě věty? –Homonymie spojky a v předmětu věty Funkce rezistoru a zesilovače v radiotechnice. (funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (zesilovače v radiotechnice) –Homonymie podmětu a předmětu Popílek přikryl sníh. – co leží navrchu?
11 Porozumění textu Příklad české věty s více gramaticky možnými významy –viz např. Podivné fungování gramatiky, fungování gramatiky –věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další
12 Porozumění textu Příklad anglické věty s více gramaticky možnými významy –viz např. Podivné fungování gramatiky, fungování gramatiky –věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další
13 Fulltextové vyhledávání Samotná formulace dotazu, který by vrátil všechny dokumenty, které tazatele zajímají a žádné jiné obvykle nelze zformulovat –Spolu s vyhovujícími – relevantními – odpověďmi se obvykle vrací i odpovědi nerelevantní
14 Fulltextové vyhledávání Striktní boolská logika není pro formulaci dotazů příliš vhodná –Dokument buďto vyhovuje dotazu, nebo nevyhovuje –Dotazování v textech vyžaduje třídit odpovědi podle předpokládané vhodnosti pro tazatele Je potřebné mít možnost definovat míru shody dotazu s dokumentem
15 Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi Relevantní dokumenty Vrácené v DIS 1 Vrácené v DIS 2
16 Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi Relevantní Vrácené dok. Relevantní
17 Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel –Přesnost (Precision) P = Nvr / Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní –Úplnost (Recall) R = Nvr / Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi
18 Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou.
19 Přesnost a úplnost V ideálním případě –P=R=1 –V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě –Odpověď na první verzi dotazu není ani přesná, ani úplná Optimum Počáteční odpověď
20 Přesnost a úplnost Ladění dotazu –Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … Optimum R P
21 Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé, tj. P*R konst. < 1 –Při snaze zvýšit P se na výstup dostane méně relev. dokumentů. –Při snaze zvýšit R se na výstup dostane s více relev. dok. i mnohem více těch nerelevantních Optimum R P
22 Kritérium predikce Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem použity pro vyjádření dané myšlenky –Problémy m.j. způsobují Synonyma (autor mohl použít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) Překrývající se významy slov Opisy jedné situace jinými slovy
23 Kritérium predikce Částečným řešením je zařazení tezauru, který obsahuje –Hierarchie slov a jejich významů –Synonyma slov –Asociace mezi slovy Tazatel může tezaurus využít při formulaci svých dotazů
24 Kritérium predikce Při ladění dotazů má uživatel tendenci postupovat konzervativně –V dotazu zůstávají často ty jeho části, které uživatele napadly na začátku a mění se jen podružné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit Vhodné je uživateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují
25 Kritérium maxima Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne Obvykle podle velikosti Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance
26 Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost –Malé množství dokumentů v odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost –Právnictví „lepší“ Vr. Rel. „horší“ Vr. Rel.
Internetové vyhledávače Služba, která umožňuje najít webové stránky, které obsahují požadované informace (zadané ve vyhledávacím poli) Cílem vyhledávačů je poskytnout co nejrelevantnější informace. 27 Světové: Google Bing AltaVista Yahoo … České: Seznam Centrum Atlas Jyxo …
Zjednodušeně ve třech krocích: 1.Sběr dat pomocí crawlerů (robotů) 2.Zpracování do databáze (indexování) 3.Zpřístupnění uživatelům pomocí vyhledávacího okna Jak vyhledávače fungují?
Zdroj: ternet/basics/search-engine1.htm
Neviditelný web –Intranety –Zaheslovaný obsah –Obsah přístupný přes formuláře –Flash prezentace –Robots.txt –Databáze –…–… Nejsou však všemocné…
Odborná erudice autora (vyhledání informací o autorovi) Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl časopis citován během dvou let od jeho publikování) Jak poznat kvalitní informační zdroj?
Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). Informační cyklus se díky možnosti publikovat online dramaticky zrychlil. Jak poznat kvalitní informační zdroj?
Využití negativního slovníku, seznam stop- slov Vytvoření negativního slovníku: –Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely –Volba slov s vysokou frekvencí v textu dokumentu –Volba velmi krátkých slov Problémy při vyhledávání - nevýznamová a nespecifická slov
Tipnete si 5 nejčastějších? 5. a 4. and 3. to 2. of 1. the Co je v seznamu dříve, sloveso nebo podstatné jméno? –Sloveso (be, 21. místo) Jaké je první podstatné jméno? Kolikáté je v pořadí? –Word (45. místo) Četnost anglických slov Zdroj:
35 Google Internetový vyhledávač stejnojmenné firmy 25 miliard webových stránek, 400 miliónů dotazů za den, 1,3 miliardy obrázků (rok 2006) 47,7 % podíl na světovém trhu (rok 2006) 44 % podíl na trhu ČR (rok 2010)
36 Google – Základní vyhledávání Napíšeme klíčové slovo nebo slova, která má hledaná stránka obsahovat Zkusím štěstí – vrátí jednu (nejrelevantnější stránku) Vyhledávání google – vrátí seznam nejvíce relevantních stránek řazených dle relevance
37 Google - výsledky
38 Google výsledky Stránky řazeny dle relevance (nejvíce relevantní nahoře). Zobrazí prvních 10 výsledků. Na další výsledky se lze přepnout pod obrázkem dole.
39 Google výsledky V levém panelu rozklikneme Více nástrojů Prohledat web / stránky pouze česky Časové omezení, kdy byla stránka naposledy aktualizována Jen stránky s obrázky Náhledy stránek
40 Google - obrázky V levém panelu přepneme na Obrázky Velikost obrázků Typ obrázků (obličej, fotka) Barva
41 Google – videa V levém panelu přepneme na Videa Prohledat web / stránky pouze česky Délka trvání videa Poslední aktualizace Kvalita Titulky Zdroj
42 Google – specializace V levém panelu rozklikneme položku Více Vše, Obrázky, Videa Mapy Zprávy, Nakupování, Knihy, Blogy, Aktualizace, Diskuze
43 Google - mapy
44 Google – rozšířené vyhledávání
45 Google – rozšířené vyhledávání Přesná fráze – slova v textu za sebou, přesný gramatický tvar
46 Google – rozšířené vyhledávání jazyk dokumentu, stát formát (pdf, ppt, doc, xml, …) konkrétní doména (com, vsfs.cz,)
47 Google kalkulačka Matematické operace + - * / Matematické funkce sin, cos, log, exp, … Převody jednotek –5 mil v kilometrech –10 galonu v litrech
48 Google - Úkoly Jak se jmenoval čínský kosmonaut, který letěl do vesmíru v roce 2003? Který z amerických prezidentů neměl za rodný jazyk angličtinu? Jak se jmenuje algoritmus používaný v kompresním programu RAR ?
49 Google - Úkoly Najděte původní slajdy, ze kterých jsou převzaty slajdy 3 – 26 v naší prezentaci. Najděte fotografii autora původních slajdů z předchozího úkolu. Na kterých vysokých školách v Praze se vyučují databázové systémy ? Naplánujte mezi těmito školami vhodnou cestu, určete její délku.
50 Google - Úkoly Jaké je oblíbené zvíře rektorky VŠFS? Spočítejte: sin (pi/6) + log (100) Kolik váží celkem 151 unci a 12 liber? Co vše může znamenat slovo METRO? Ke každému významu najděte obrázek (či video).