Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.
Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Produkce odpadů 2002 – 2007 obce ORP Šumperk
Překlad Bath profilu 2.0 Martin Vojnar
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
DIGITÁLNÍ MAPOVÝ ARCHIV -moderní přístup k informacím (archiv ČGS) Alena Čejchanová Klára Jančová Archiv České geologické služby.
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Aktuální informace o vyšetřování c-erb-2 genu v referenční laboratoři a návrh změny v indikačních kritériích Hajdúch M., Petráková K., Kolář Z., Trojanec.
19.1 Odčítání v oboru do 100 s přechodem přes desítku
SQL – tříhodnotová logika
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
9 CELÁ ČÍSLA
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
AnotacePrezentace, která se zabývá opakováním znalostí o zlomcích. AutorMgr. Václav Simandl JazykČeština Očekávaný výstupŽáci opakují znalosti o zlomcích.
Dynamické rozvozní úlohy
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Zpracování informací a znalostí Přesnost a úplnost vyhledávání
Kdo chce být milionářem ?
Výzkumy volebních preferencí za ČR a kraje od
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
ČLOVĚK A JEHO SVĚT 2. Ročník - hodiny, minuty Jana Štadlerová ŽŠ Věšín.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Získávání informací Získání informací o reálném systému
Zábavná matematika.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
V rámci všech serverů společnosti Aliaweb, spol. s r.o. oslovíte přes uživatelů Kurzy.cz finanční portál pro laiky i odborníky, tj. investice a.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Název Číselné výrazy Předmět, ročník
Letokruhy Projekt žáků Střední lesnické školy a střední odborné školy sociální ve Šluknově.
Očísluj dopisy násobky čísla 2
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Tvorba číselných výrazů

Nejmenší společný násobek
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
ProcvičujemenásobilkuProcvičujemenásobilku Klikni na libovolné číslo, objeví se.
Únorové počítání.
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Tento Digitální učební materiál vznikl díky finanční podpoře EU- Operačního programu Vzdělávání pro konkurenceschopnost Není –li uvedeno jinak, je tento.
SČÍTÁNÍ A ODČÍTÁNÍ V OBORU DO 100
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
EDITOR BY: SPRESS 15. ledna ledna ledna 2015.
Celá čísla Dělení.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
Číslo projektu CZ.1.07/1.500/ Číslo materiálu VY_42_INOVACE_matematika_22 Název školy Táborské soukromé gymnázium, s. r. o. Autor Bc. Ivana Kotková.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
Přednost početních operací
DĚLENÍ ČÍSLEM 5 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ Zpracovala: Mgr. Jana Francová, výukový materiál EU-OP VK-III/2 ICT DUM 50.
ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, OLOMOUC tel.: , ; fax:
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
KONTROLNÍ PRÁCE.
EBSCO - základní vyhledávání Lze nastavit jiné zobrazování výsledků.
VIKMA06 Vyhledávání informací
VIKMA06 Rešeršní a studijně rozborová činnost
EBSCO - základní vyhledávání
EBSCO - základní vyhledávání
Transkript prezentace:

Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Booleovský model a jeho rozšiřování Literatura: Rauch, J.: Metody zpracování informací II, kapitoly 6, 8 SALTON, G. - McGILL, M.: Introduction to Modern Information Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s. KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and Retrieval Systems. Theory and Implementation. Kluwer Academic Publishers 2000, 318 s.

Booleovský model a jeho rozšiřování Booleovská logika Boolevský model vyhledávání dokumentů – přehled Přesnost a úplnost v booleovském modelu Důvody rozšiřování booleovského modelu - experiment se Stairs Cíle rozšiřování Rozšíření pomocí fuzzy logiky Geometrické rozšíření

Booleovská logika - 1 Booleovská (výroková) logika se zabývá výroky a jejich pravdivostí. Každý výrok je buď pravdivý nebo nepravdivý Rozlišujeme základní a složené výroky Pravdivost základních výroků je dána vnějšími okolnostmi Složené výroky se vytvářejí pomocí výrokových spojek Používají se pravdivostní tabulky pro výrokové spojky

Booleovská logika - 2 Příklady složených výroků: U, U  V, U  V, U  (V  W) U, V, W jsou základní výroky U V U  V U  V U 1

Booleovská logika - 3 vyhodnocení složeného výroku U  (V  W) U V W V  W U  (V  W) 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 0 0 0 0 0 1 1 1 0 0 1 0 1 0 0 0 1 1 0 0 0 0 0 0

Booleovský model a jeho rozšiřování Booleovská logika Boolevský model vyhledávání dokumentů – přehled Přesnost a úplnost v booleovském modelu Důvody rozšiřování booleovského modelu - experiment se Stairs Cíle rozšiřování Rozšíření pomocí fuzzy logiky Geometrické rozšíření

Booleovský model vyhledávání dokumentů – přehled Pro bibliografické záznamy i záznamy (s úseky) plných textů Základní výroky se týkají výskytu výrazů Používají se logické spojky AND, OR, NOT A NOT B znamená A AND NOT B Jsou k dispozici vzdálenostní (proximitní) operátory Je k dispozici pravostranné rozšíření Různé systémy mají různé další možnosti

Booleovský model vyhledávání dokumentů – příklad

Booleovský model– přesnost a úplnost 1 úzké dotazy (AND) * * * Přesnost 0.5 široké dotazy (OR) 0.5 1 Úplnost

Experiment se STAIRS (1985) 40 000 právnických textů - soudní případy, protokoly, výslechy - celkem 350 000 stran 51 požadavků – podklady pro případy přání: úplnost ~ 75% výsledek: přesnost ~ 80% úplnost ~ 20% !

Booleovský model a jeho rozšiřování Booleovská logika Bopolevský model vyhledávání dokumentů – přehled Přesnost a úplnost v booleovském modelu Důvody rozšiřování booleovského modelu - experiment se Stairs Cíle rozšiřování Rozšíření pomocí fuzzy logiky Geometrické rozšíření

Cíle rozšiřování Booleovského modelu Rozlišení důležitosti deskriptorů v dokumentu Rozlišení důležitosti deskriptorů v dotazu Řazení vybraných dokumentů podle důležitosti Odstranění tvrdosti booleovských operací (AND)

Booleovský model a jeho rozšiřování Booleovská logika Bopolevský model vyhledávání dokumentů – přehled Přesnost a úplnost v booleovském modelu Důvody rozšiřování booleovského modelu - experiment se Stairs Cíle rozšiřování Rozšíření pomocí fuzzy logiky Geometrické rozšíření

Fuzzy logika Fuzzy = chomáčovitý, chmýřivý, kučeravý, zakalený, nalíznutý, matný, mlhavý, neostrý, … Fuzzy logika je rozšířením booleovské logiky Připouští různé úrovně pravdivosti Pr ("Míč je veliký") = 0.6 Pr („CD-ROM je deskriptorem pro dokument A") = 0.9

Pravdivost složených výroků ve fuzzy logice Pr(U) Pr(V) Pr (U OR V) Pr (U AND V) Pr(NON U) max( Pr(U), Pr(V)) min( Pr(U), Pr(V)) 1 - Pr(U) 1 1 1 1 0 1 0.7 1 0.7 0 0.7 0.4 0.7 0.4 0.3 0.7 0 0.7 0 0.3 1 0 1 0 0 0 1 1 0 1 0 0.4 0.4 0 1 0 0 0 0 1

Váha deskriptoru v dokumentu a v dotazu - příklady váha deskriptorů výsledná váha dotazu dokument U V [U; 0.7] OR [V; 0.9] [U; 0.7] AND [V; 0.9] D1 1 1 0.9 0.7 D2 1 0 0.7 0.0 D3 0.6 0.8 0.72 0.42 D4 0 0.9 0.81 0.0 Výpočet pro D3 : Váha ( [U; 0.7] OR [V; 0.9] ) = max (0.6 * 0.7, 0.8 * 0.9) = 0.72

Složené výroky ve fuzzy logice – příklady Pr(U) Pr(V) Pr (W) Pr(U OR V OR W) Pr (U AND V AND W) 1 1 1 1 1 0.1 0.9 0.2 0.9 0.1 0.8 0.9 0.8 0.9 0.8 0 0.9 0.1 0.9 0 0.9 0.9 0.1 0.9 0.1 0.7 0.3 0.1 0.7 0.1 0.1 0.1 0.1 0.1 0.1

Rozšíření booleovského modelu pomocí fuzzy logiky Rozlišení důležitosti deskriptorů v dokumentu – vyřešeno Rozlišení důležitosti deskriptorů v dotazu – vyřešeno Řazení vybraných dokumentů podle důležitosti – vyřešeno Odstranění tvrdosti booleovských operací (AND) – NE!

Booleovský model a jeho rozšiřování Booleovská logika Bopolevský model vyhledávání dokumentů – přehled Přesnost a úplnost v booleovském modelu Důvody rozšiřování booleovského modelu - experiment se Stairs Cíle rozšiřování Rozšíření pomocí fuzzy logiky Geometrické rozšíření

Geometrické rozšíření booleovského modelu Cíl: Odstranit tvrdost booleovských operací Princip: Připouští váhy slov v dotazu i v dokumentu Dokument = bod v prostoru Hodnota (U AND V)  Hodnota (U OR V) Příklad: Dvě klíčová slova:  prostor = rovina

Dokument – bod v rovině Dokument D - klíčová slova: U s vahou r V s vahou s [1,1] [0,1] D: [r,s] [0,0] [1,0]

Hodnota (U OR V) Hodnota (U OR V) - přímo úměrná vzdálenosti [r,s] od [0,0] [1,1] [0,1] D: [r,s] s r [0,0] [1,0]

Hodnota (U AND V) Hodnota (U AND V) - nepřímo úměrná vzdálenosti [r,s] od [1,1] [1,1] [0,1] 1 - s D: [r,s] 1 - r [0,0] [1,0]

Složené výroky v geometrickém rozšíření – příklad Dokument D, deskriptory U a V s váhou v dokumentu váha U váha V Hodnota (U OR V) hodnota (U AND V) 1 1 1 1 1 0 0.7 0.3 0.3 0.8 0.6 0.5 0 1 0.7 0.3 0 0 0 0

Porovnání standardního modelu s rozšířenými Přesnost pro konstantní úplnost Fond dokumentů dotazů Booleovský Fuzzy Geom. rozš. CACM 3 024 52 0.179 0.156 0.331 -14% +72% CISI 1 460 35 0.119 0.100 0.180 -11% +62% INSPEC 12 684 77 0.116 0.131 0.270 +13% +133% MED 1 033 30 0.207 0.237 0.557 +15% +167%

Oprava Ve skriptech : Rauch, J.: Metody zpracování informací II, Odstavec 8.4, str. 49 má být hodnota ([U,a] AND [V,b]) = místo