1. přednáška Fulltextové vyhledávání Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026, MFF UK) Úvod do databázových systémů B RNDr. Jan.

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
PRŮZKUM NA TÉMA: „Dopady finanční krize“ eficia .
Města ČR – orientace na mapě
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Ondřej Pečený Patří do muzea? Ondřej Pečený
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Český Internet po (uši v?) krizi Marek Antoš. snímek |datum |dokument | 1. Internetové prostředí 2.
19.1 Odčítání v oboru do 100 s přechodem přes desítku
školení internetového vyhledávače
9 CELÁ ČÍSLA
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK SciVerse - plnotextové vyhledávání.
Školení internetového vyhledávače
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Zpracování seminárních a kvalifikačních prací
Školení internetového vyhledavače Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu, která dokáže podle klíčového slova najít internetovou.
Vyhledávání na Internetu
Regulační diagram je to základní grafický nástroj statistické regulace procesu, který umožňuje posoudit statistickou zvládnutost procesu statisticky zvládnutý.
Dynamické rozvozní úlohy
INTERNETOVÉ VYHLEDÁVAČE
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
SmartPhone start - Apple iPhone
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Informace – vyhledávání informací
Zábavná matematika.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Jazyk vývojových diagramů
Nejmenší společný násobek
Únorové počítání.
Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
ČÍSLOVKY Mgr. Michal Oblouk.
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
FRÉZOVÁNÍ DĚLÍCÍM ZPŮSOBEM
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Relační databáze.
Fulltextové vyhledávání Michal Kopecký
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
DĚLENÍ ČÍSLEM 5 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ Zpracovala: Mgr. Jana Francová, výukový materiál EU-OP VK-III/2 ICT DUM 50.
Slovní úlohy řešené soustavou rovnic
Vyhledávání informací na internetu
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
WWW – hypertextový informační systém
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
B130P16: Praktické základy vědecké práce Katedra experimentální biologie rostlin PřF UK iHOP - plnotextové vyhledávání Pubmed.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Jak vyhledávat informace na Internetu?
CZ.1.07/1.4.00/ VY_32_INOVACE_154_IT5 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Školení internetového vyhledávače
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Jana Holá Tvorba rešerše Jana Holá
Internetový vyhledávač Google Elektronické učební materiály - II. stupeň Informatika 9 Autor: Bc. Pavel Šiktanc Jak hledat na internetu??? Hledání pomocí.
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
Jana Holá Tvorba rešerše Jana Holá
Úvod do textových informačních systémů
EBSCO Centrum informačních a knihovnických služeb VŠE
EBSCO Centrum informačních a knihovnických služeb VŠE
Transkript prezentace:

1. přednáška Fulltextové vyhledávání Slajdy 3-26 převzaty z Michal Kopecký: Databázové Aplikace (DBI026, MFF UK) Úvod do databázových systémů B RNDr. Jan Lánský, Ph.D.

2 Obsah přednášky Teoretické základy fulltextového vyhledávání (slajdy 3-26) Webové vyhledávače (slajdy 27-34) Webový vyhledávač google (slajdy 35-47) Příklady na cvičení (slajdy 48-50) Databáze odborných článků ProQuest

3 Fulltextové vyhledávání –Prohledávají se volně psané texty, kde může být stejná událost popsaná více autory rozdílně Různá slova stejného významu (Synonyma) Různé slovní obraty a opisy …

4 Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty....

5 Porozumění textu Synonymie slov –Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač...

6 Porozumění textu Homonymie slov –Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování...

7 Porozumění textu Homonymie slov –Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č. není zřejmé, zda se jedná o jednu, nebo více kontrol –Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět

8 Porozumění textu Významy slov se mohou překrývat. –Hierarchicky zvíře > kůň > hřebec –Asociace kalkulátor ~ počítač ~ procesor...

9 Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píše nebo čte. –Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. –Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj,... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat stejnou informaci jako autor, ani navzájem.

10 Porozumění textu Homonymie a nejednoznačnosti narůstají při přechodu od slov k větám. –Homonymie vlastních jmen na začátku věty Dohnal zvítězil. (Čtrnáctý zvítězil.) Dohnal předešel gen. Kvapila velmi výrazně. - jedna, nebo dvě věty? –Homonymie spojky a v předmětu věty Funkce rezistoru a zesilovače v radiotechnice. (funkce rezistoru v radiotechnice) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (funkce zesilovače v radiotechnice) (funkce rezistoru) a (zesilovače v radiotechnice) –Homonymie podmětu a předmětu Popílek přikryl sníh. – co leží navrchu?

11 Porozumění textu Příklad české věty s více gramaticky možnými významy –viz např. Podivné fungování gramatiky, fungování gramatiky –věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další

12 Porozumění textu Příklad anglické věty s více gramaticky možnými významy –viz např. Podivné fungování gramatiky, fungování gramatiky –věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další

13 Fulltextové vyhledávání Samotná formulace dotazu, který by vrátil všechny dokumenty, které tazatele zajímají a žádné jiné obvykle nelze zformulovat –Spolu s vyhovujícími – relevantními – odpověďmi se obvykle vrací i odpovědi nerelevantní

14 Fulltextové vyhledávání Striktní boolská logika není pro formulaci dotazů příliš vhodná –Dokument buďto vyhovuje dotazu, nebo nevyhovuje –Dotazování v textech vyžaduje třídit odpovědi podle předpokládané vhodnosti pro tazatele Je potřebné mít možnost definovat míru shody dotazu s dokumentem

15 Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu  Jak porovnat kvalitu odpovědí navzájem? Dokumenty v databázi Relevantní dokumenty Vrácené v DIS 1 Vrácené v DIS 2

16 Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů  Jak vyhovět subjektivnímu názoru tazatelů? Dokumenty v databázi Relevantní Vrácené dok. Relevantní  

17 Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel –Přesnost (Precision) P = Nvr / Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní –Úplnost (Recall) R = Nvr / Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi

18 Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou.

19 Přesnost a úplnost V ideálním případě –P=R=1 –V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě –Odpověď na první verzi dotazu není ani přesná, ani úplná Optimum Počáteční odpověď

20 Přesnost a úplnost Ladění dotazu –Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … Optimum R P

21 Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé, tj. P*R  konst. < 1 –Při snaze zvýšit P se na výstup dostane méně relev. dokumentů. –Při snaze zvýšit R se na výstup dostane s více relev. dok. i mnohem více těch nerelevantních Optimum R P

22 Kritérium predikce Při formulaci dotazů je potřebné uhádnout, které termy (slova) byly v dokumentu autorem použity pro vyjádření dané myšlenky –Problémy m.j. způsobují Synonyma (autor mohl použít synonymum, které si tazatel při formulaci dotazů ani nemusí neuvědomí) Překrývající se významy slov Opisy jedné situace jinými slovy

23 Kritérium predikce Částečným řešením je zařazení tezauru, který obsahuje –Hierarchie slov a jejich významů –Synonyma slov –Asociace mezi slovy Tazatel může tezaurus využít při formulaci svých dotazů

24 Kritérium predikce Při ladění dotazů má uživatel tendenci postupovat konzervativně –V dotazu zůstávají často ty jeho části, které uživatele napadly na začátku a mění se jen podružné části, které nekvalitní výsledek nemusí nijak zásadně ovlivnit Vhodné je uživateli pomoci s odstraněním nevhodných částí dotazu, které nepopisují relevantní dokumenty a naopak s přidáváním formulací, které relevantní dokumenty popisují

25 Kritérium maxima Tazatel obvykle není schopen (nebo ochoten) procházet příliš mnoho dokumentů do té míry, aby se rozhodl, zda jsou pro něj relevantní nebo ne Obvykle podle velikosti  Potřeba nejen dokumenty rozlišovat na odpovídající/neodpovídající dotazu, ale řadit je na výstupu podle míry předpokládané relevance

26 Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost –Malé množství dokumentů v odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost –Právnictví „lepší“ Vr. Rel. „horší“ Vr. Rel.

Internetové vyhledávače Služba, která umožňuje najít webové stránky, které obsahují požadované informace (zadané ve vyhledávacím poli) Cílem vyhledávačů je poskytnout co nejrelevantnější informace. 27 Světové: Google Bing AltaVista Yahoo … České: Seznam Centrum Atlas Jyxo …

Zjednodušeně ve třech krocích: 1.Sběr dat pomocí crawlerů (robotů) 2.Zpracování do databáze (indexování) 3.Zpřístupnění uživatelům pomocí vyhledávacího okna Jak vyhledávače fungují?

Zdroj: ternet/basics/search-engine1.htm

Neviditelný web –Intranety –Zaheslovaný obsah –Obsah přístupný přes formuláře –Flash prezentace –Robots.txt –Databáze –…–… Nejsou však všemocné…

Odborná erudice autora (vyhledání informací o autorovi) Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl časopis citován během dvou let od jeho publikování) Jak poznat kvalitní informační zdroj?

Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). Informační cyklus se díky možnosti publikovat online dramaticky zrychlil. Jak poznat kvalitní informační zdroj?

Využití negativního slovníku, seznam stop- slov Vytvoření negativního slovníku: –Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely –Volba slov s vysokou frekvencí v textu dokumentu –Volba velmi krátkých slov Problémy při vyhledávání - nevýznamová a nespecifická slov

Tipnete si 5 nejčastějších? 5. a 4. and 3. to 2. of 1. the Co je v seznamu dříve, sloveso nebo podstatné jméno? –Sloveso (be, 21. místo) Jaké je první podstatné jméno? Kolikáté je v pořadí? –Word (45. místo) Četnost anglických slov Zdroj:

35 Google Internetový vyhledávač stejnojmenné firmy 25 miliard webových stránek, 400 miliónů dotazů za den, 1,3 miliardy obrázků (rok 2006) 47,7 % podíl na světovém trhu (rok 2006) 44 % podíl na trhu ČR (rok 2010)

36 Google – Základní vyhledávání Napíšeme klíčové slovo nebo slova, která má hledaná stránka obsahovat Zkusím štěstí – vrátí jednu (nejrelevantnější stránku) Vyhledávání google – vrátí seznam nejvíce relevantních stránek řazených dle relevance

37 Google - výsledky

38 Google výsledky Stránky řazeny dle relevance (nejvíce relevantní nahoře). Zobrazí prvních 10 výsledků. Na další výsledky se lze přepnout pod obrázkem dole.

39 Google výsledky V levém panelu rozklikneme Více nástrojů Prohledat web / stránky pouze česky Časové omezení, kdy byla stránka naposledy aktualizována Jen stránky s obrázky Náhledy stránek

40 Google - obrázky V levém panelu přepneme na Obrázky Velikost obrázků Typ obrázků (obličej, fotka) Barva

41 Google – videa V levém panelu přepneme na Videa Prohledat web / stránky pouze česky Délka trvání videa Poslední aktualizace Kvalita Titulky Zdroj

42 Google – specializace V levém panelu rozklikneme položku Více Vše, Obrázky, Videa Mapy Zprávy, Nakupování, Knihy, Blogy, Aktualizace, Diskuze

43 Google - mapy

44 Google – rozšířené vyhledávání

45 Google – rozšířené vyhledávání Přesná fráze – slova v textu za sebou, přesný gramatický tvar

46 Google – rozšířené vyhledávání jazyk dokumentu, stát formát (pdf, ppt, doc, xml, …) konkrétní doména (com, vsfs.cz,)

47 Google kalkulačka Matematické operace + - * / Matematické funkce sin, cos, log, exp, … Převody jednotek –5 mil v kilometrech –10 galonu v litrech

48 Google - Úkoly Jak se jmenoval čínský kosmonaut, který letěl do vesmíru v roce 2003? Který z amerických prezidentů neměl za rodný jazyk angličtinu? Jak se jmenuje algoritmus používaný v kompresním programu RAR ?

49 Google - Úkoly Najděte původní slajdy, ze kterých jsou převzaty slajdy 3 – 26 v naší prezentaci. Najděte fotografii autora původních slajdů z předchozího úkolu. Na kterých vysokých školách v Praze se vyučují databázové systémy ? Naplánujte mezi těmito školami vhodnou cestu, určete její délku.

50 Google - Úkoly Jaké je oblíbené zvíře rektorky VŠFS? Spočítejte: sin (pi/6) + log (100) Kolik váží celkem 151 unci a 12 liber? Co vše může znamenat slovo METRO? Ke každému významu najděte obrázek (či video).