Úvod do textových informačních systémů 1
Textové (dokumentografické) informační systémy 50. léta 20. stol. Postupná automatizace postupů používaných v knihovnictví Nyní samostatná podčást IS Faktografický IS Zpracování informací s definovanou vnitřní strukturou (nejčastěji v podobě tabulek) Dokumentografický IS Zpracování informací v podobě textu v přirozeném jazyce bez pevné vnitřní struktury 2
Práce s DIS Zadání dotazu Porovnání Získání seznamu odpovídajících dokumentů Ladění dotazu Vyžádání dokumentu Obdržení textu DIS 1 3 5 6 2 4 3
Struktura DIS Systém zpřístupnění dokumentů Vrací sekundární informace Autor Název ... Systém dodání dokumentů Někdy není řešen pomocí SW I) 1 2 3 4 II) 5 6 4
Vyhodnocení dotazu Přímé porovnání náročné na čas Dotaz Porovnání Dok1 Doki1 Dotaz Přímé porovnání náročné na čas 5
Vyhodnocení dotazu Nutné vytvoření modelu dokumentu Indexace X1 Nutné vytvoření modelu dokumentu Ztrátový proces, obvykle založený na identifikaci slov v dokumentech Výsledkem strukturovaná data vhodná pro porovnávání 6
Vyhodnocení dotazu Dotaz se upraví do odpovídající podoby Následně se porovná s modelem dokumentů Porovnání Doki1 X1 Dotaz 7
Předzpracování textu Vyhledávání probíhá nad vytvořeným modelem efektivněji, ale může použít jen informace obsažené v modelu. Cílem je vytvořit model, který by zachoval co nejvíce informací, obsažených v původním modelu. Problémem je řada nejednoznačností. 8
Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty. ... 9
Porozumění textu Synonymie slov Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač ... 10
Porozumění textu Homonymie slov Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování ... 11
Porozumění textu Homonymie slov Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č. není zřejmé, zda se jedná o jednu, nebo více kontrol Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět 12
Porozumění textu Významy slov se mohou překrývat. Hierarchicky zvíře > kůň > hřebec Asociace kalkulátor ~ počítač ~ procesor ... 13
Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píše nebo čte. Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. zavináč, databáze Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj, ... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat ani stejnou informaci jako autor, ani stejnou informaci navzájem. 14
Porozumění textu Příklad české věty s více gramaticky možnými významy věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další 15
Porozumění textu Jak pochopíte následující věty? Tvoje stará pila leží ve sklepě Popravit nelze propustit 16
Porozumění textu Angličtina je obvykle jednoznačnější, ale i zde najdeme podobné příklady věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další 17
Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Lemmatizace Přiřazení správného lemmatu jednotlivým slovům Základní tvar slova (1. p. j.č., infinitiv, ...) Slovní druh, osoba, číslo, čas, vid, ... Informace z větného rozboru, (podmět, předmět, ...) 18
Lemmatizace a disambiguace českého jazyka (ÚFAL) Odpovědným zástupcem nemůže být každý. Zákon by měl zajistit individualizaci odpovědnosti a zajištění odbornosti. … <p n=1> <s id="docID:001-p1s1"> <f cap>Odpovědným <MDl>odpovědný_^(kdo_za_něco_odpovídá) <MDt>AAIS7----1A---- <f>zástupcem<MDl>zástupce<MDt>NNMS7-----A---- <f>nemůže<MDl>moci_^(mít_možnost_[něco_dělat])<MDt>VB-S---3P-NA--- <f>být<MDl>být<MDt>Vf--------A---- <f>každý<MDl>každý<MDt>AAIS1----1A---- <p n=2> … Číslo odstavce Číslo věty Slovo v dokumentu Lemma včetně významu Slovní druh (Adverb), … 19
Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Dokumenty v databázi Relevantní dokumenty Vrácené v DIS1 Vrácené v DIS2 20
Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Dokumenty v databázi Relevantní Vrácené dok. 21
Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel Přesnost (Precision) P = Nvr / Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní Úplnost (Recall) R = Nvr / Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi 22
Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou. 23
Přesnost a úplnost V ideálním případě V běžném případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě Odpověď na první verzi dotazu není ani přesná, ani úplná 1 Optimum Počáteční odpověď 1 24
Přesnost a úplnost Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … R 1 Optimum P 1 25
Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé, tj. P*R konst. < 1 Při snaze zvýšit P se na výstup dostane méně relev. dokumentů. Při snaze zvýšit R se na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. R 1 Optimum P 1 26
Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost Malé množství dokumentů v odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost Právnictví „lepší“ Vr. Rel. „horší“ Vr. Rel. 27
Příklad Pokuste se ohodnotit vyhledávač Google pomocí přesnosti vyhodnocení dotazů Položte několik dotazů Tomáš Vaníček Vyšší odborná škola infoprmačních služeb Informační systém podniku Prozkoumejte prvních 10 (třeba) odpovědí Spočítejte, kolik jich je z vašeho hlediska relevantních Pokuste se odlatit dotaz tak, aby se přesnost zvýšila 28