Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.
Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Města ČR – orientace na mapě
TEORIE ROZHODOVÁNÍ A TEORIE HER
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
11 Udržovatelnost a servisní logistika
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Český Internet po (uši v?) krizi Marek Antoš. snímek |datum |dokument | 1. Internetové prostředí 2.
Monitoring letové aktivity Návrh na zpracování výsledků.
Student: Ing. Olga Minaříková školitel: doc.akad.soch. Miroslav Zvonek, PhD. srpen 2009.
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Urči název a zařaď do příslušné skupiny
Tomáš NETERDA 1961 Sportovní kariéra : plavecké třídy ZŠ Komenského gymnázium Dašická plavecká škola
Dynamické rozvozní úlohy
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Zpracování informací a znalostí Přesnost a úplnost vyhledávání
Výzkumy volebních preferencí za ČR a kraje od
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Animace Demo Animace - Úvodní animace 1. celé najednou.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
Zábavná matematika.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Vlastnosti sčítání a odčítání
Stav studie „Seroprevalence VHC u injekčních uživatelů drog“ k Národní monitorovací středisko pro drogy a drogové závislosti Úřad vlády ČR tel.
Jazyk vývojových diagramů

Nejmenší společný násobek
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Únorové počítání.
Inovace a zkvalitnění výuky prostřednictvím ICT VY_32_INOVACE_412_3TR_M Autor: Mgr. Jana Siederová 1 Základní škola Karviná – Nové Město tř. Družby 1383.
52_INOVACE_ZBO2_1364HO Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Rozvoj vzdělanosti.
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Rozvojový plán statutárního města České Budějovice v oblasti sociálních služeb na období Ing. Martina Kučerová.
SČÍTÁNÍ A ODČÍTÁNÍ V OBORU DO 100
TRUHLÁŘ II.ročník Výrobní zařízení Střední škola stavební Teplice
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Lounky PRO Vratimov, o.s. ( 1 Charitativní sbírka Lounky 06/2013.
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Celá čísla Dělení.
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
Fyzika 2 – ZS_4 OPTIKA.
Analýza knihovnických standardů za rok 2006 knihovny Jmk Provozní doba Nákup knihovního fondu Kč na 1 obyvatele Roční přírůstek Počet studijních míst Veřejně.
Číslo projektu CZ.1.07/1.500/ Číslo materiálu VY_42_INOVACE_matematika_22 Název školy Táborské soukromé gymnázium, s. r. o. Autor Bc. Ivana Kotková.
MS PowerPoint Příloha - šablony.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Technické kreslení.
Úkoly nejen pro holky.
END 1.Přítelem 2.Druhem 3.Milencem 4.Bratrem 5.Otcem 6.Učitelem 7.Vychovatelem 8.Kuchařem 9.Elektrikářem 10.Instalatérem 11.Mechanikem 12.Návrhářem 13.Stylistou.
Přednost početních operací
Násobilka 2, 3, 4, 5 VY_32_INOVACE_085, 5. sada, M ANOTACE
DĚLENÍ ČÍSLEM 5 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ Zpracovala: Mgr. Jana Francová, výukový materiál EU-OP VK-III/2 ICT DUM 50.
Slovní úlohy řešené soustavou rovnic
Predikce chemických posunů
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
KONTROLNÍ PRÁCE.
Gymnázium, Broumov, Hradební 218
Autor: Ondřej Šimeček Verze: 1.1.3
Transkript prezentace:

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

Vektorový model vyhledávání dokumentů Princip (1): Dokumenty D1 , …, DN i dotaz Q chápány jako vektory Dokument Di : Wi,j je váha (klíčového) slova Sj (j = 1, …K) Dotaz Q:

Vektorový model vyhledávání dokumentů Princip (2): Počítá se míra podobnosti mezi dotazem a dokumentem jako míra podobnosti dvou vektorů. Míra podobnosti se použije pro: sestupné uspořádání vyhledaných dokumentů omezení počtu dokumentů poskytovaných uživateli optimalizaci dotazu na základě již nalezených podobných dokumentů

Míra podobnosti dotazu a dokumentu Dokument D: Dotaz Q: Kosinová míra: Diceova míra:

Vektorový model – příklad (kosinová míra)

Vektorový model – poznámky Je více možností, jak počítat míru podobnosti dvou vektorů. Problém je mimo jiné ve vzájemné závislosti jednotlivých slov. (Použití slova "CD-ROM" např. zvyšuje pravděpodobnost použití slova "Informace".) Výhodou je možnost snadného přeformulování dotazu na základě již nalezených relevantních dokumentů. Nezahrnuje logické spojky, tedy např. nerozliší dotazy „Windows OR Unix" a „Windows AND Unix“. Předmět výzkumu, viz např.: Václav Snášel: Jednotná teorie vyhledávacích problémů viz http://keg.vse.cz/seminar.php?datetime=2005-03-24

Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

Automatická klasifikace dokumentů CÍL: Rozdělit dokumenty do shluků (clusterů) vzájemně podobných dokumentů tak, aby bylo možno: operací typu browse prohlížet podobné dokumenty k jednomu nalezenému využít shluky k vyhledávání podle podobnosti dokumentů.

Příklad shluků – e-maily firmy ENRON Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava

Metody vytváření shluků Shluková analýza je disciplína matematické statistiky pracující s obecnými objekty. Budeme se zabývat pouze dokumenty. Vychází se z matice koeficientů párových podobností dokumentů D1, … , DN. D1 D2 D3 .… DN D1 D2 D3 . DN

Hierarchické metody vytváření shluků DIVIZIVNÍ METODY: Na počátku tvoří všechny dokumenty jeden shluk, který se postupně dělí na menší shluky. AGLOMERATIVNÍ METODY: Na počátku tvoří každý dokument jeden shluk. Jednotlivé shluky se postupně sdružují do větších shluků.

Algoritmus aglomerativní metody 1) Spočti matici koeficientů párových podobností. 2) Z každého dokumentu vytvoř samostatný shluk. 3) Vytvoř nový shluk ze dvou nejpodobnějších shluků i a j. Z matice podobností vynechej řádky shluků i a j. Do matice podobností doplň řádek pro nový shluk. 4) Krok 3 opakuj tak dlouho, pokud jsou dva shluky které lze sloučit.

Příklad matice koeficientů párových podobností Koeficient podobnosti může být pro jednoduchost určen např. jako počet stejných deskriptorů:

Vytvoření nového shluku (1) B K M N Z B . 3 8 6 4 K 3 . 3 8 8 M 8 3 . 5 4 N 6 8 5 . 9 Z 4 6 4 9 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) B K M NZ B . 3 8 6 K 3 . 3 8 M 8 3 . 5 NZ 6 8 5 .

Vytvoření nového shluku (2) B K M NZ B . 3 8 6 K 3 . 3 8 M 8 3 . 5 NZ 6 8 5 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K NZ BM . 3 6 K 3 . 8 NZ 6 8 .

Vytvoření nového shluku (3) BM K NZ BM . 3 6 K 3 . 8 NZ 6 8 . nový shluk: dva nejpodobnější shluky Nová matice podobnosti: Výpočet podobnosti shluků: použita metoda nejbližšího souseda. (Nejbližší = má nejvyšší koeficient podobnosti) BM K(NZ) BM . 6 K(NZ) 6 .

Vytvořené shluky B M K N Z

Příklad shluků – e-maily firmy ENRON Autor: ing. Jan Martinovič, Katedra informatiky, FEIVŠB-TU Ostrava kosinová míra podobnosti e-mailů

Výpočet koeficientu podobnosti dvou shluků metoda nejbližšího souseda: Koeficient podobnosti shluků A, B = maximum ze všech koeficientů podobnosti (a, b), kde a je ze shluku A, b je ze shluku B. metoda nejvzdálenějšího souseda ... metoda průměru skupiny ...

Další přístupy k ukládání a vyhledávání textových dokumentů Vektorový model Automatická klasifikace dokumentů Systém TOPIC – pojmové vyhledávání

Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně

TOPIC - cíle Zpracovat a zpřístupnit data nemající formu databázových systémů Dosáhnout 2x lepší výsledky než klasické vyhledávací systémy Pracovat nezávisle na hardwarovém i softwarovém prostředí

TOPIC - poznámky 95% úplnost poskytuje dokumenty setříděné podle zajímavosti nový standard ve vyhledávacích systémech Kosek J. - Šimůnek M.: Systém TOPIC - verze 4.0 VŠE, 1996, 63 s. firma Verity - http://www.verity.com/ firma Tovek - http://www.tovek.cz/

Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně

Systém TOPIC – jednoduchý dotaz „Internet“

TOPIC – příklad výsledku dotazu „Internet“

TOPIC – příklad výsledku dotazu „Internet“

TOPIC – jednoduchý dotaz „WWW“

TOPIC – příklad výsledku dotazu „WWW“

TOPIC – příklad výsledku dotazu „WWW“

Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně

TOPIC – příklad tématického dotazu Téma „ekonomie“ Ukázky jednoduchých dotazů Tématický dotaz

TOPIC – jednoduchý dotaz „ekonomie“

TOPIC – příklad výsledku dotazu „ekonomie“

TOPIC – jednoduchý dotaz „poptávka“

TOPIC – příklad výsledku dotazu „poptávka“

TOPIC – jednoduchý dotaz „nabídka“

TOPIC – příklad výsledku dotazu „nabídka“

TOPIC – příklad výsledku dotazu „nabídka“ !

TOPIC – jednoduchý dotaz „hrubý domácí produkt“

TOPIC – příklad výsledku dotazu „hrubý domácí produkt“

TOPIC – jednoduchý dotaz „HDP “

TOPIC – příklad výsledku dotazu „HDP“

TOPIC – tématický dotaz „ekonomie“ 8. pro „ekonomie“ 1. pro „ekonomie“ 13. pro „HDP“ 10. pro „ekonomie“ 4. pro „nabídka“ 18. pro „HDP“

TOPIC – tématický dotaz „ekonomie“

TOPIC – tématický dotaz „ekonomie“

Systém TOPIC Úvod, princip Příklady jednoduchých dotazů Příklad tématického dotazu Topic v Národní knihovně

Topic v Národní knihovně

Topic v Národní knihovně

Topic v Národní knihovně

Topic v Národní knihovně