Úvod do textových informačních systémů

Slides:



Advertisements
Podobné prezentace
Sedm základních nástrojů řízení jakosti. Kontrolní tabulky Vývojové diagramy Histogramy Diagramy příčin a následků Paretovy diagramy Bodové diagramy Regulační.
Advertisements

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Raichová. Materiál je publikován pod licencí Creative Commons. ze sady:3tematický.
Kalkulace S tudent. Osnova výkladu 1.Kalkulace nákladů a způsoby jejího rozlišení 2.Kalkulační vzorec nákladů 3.Stanovení nákladů na kalkulační jednici.
Redukce lůžek Existuje prostor pro redukci lůžek akutní péče?
Název kapitoly Název podkapitoly Text Schvalovací proces + hodnoticí kritéria Mgr. Helena Hořáková Praha, 17. února 2016.
Základní škola a Mateřská škola Dobrá Voda u Českých Budějovic, Na Vyhlídce 6, Dobrá Voda u Českých Budějovic EU PENÍZE ŠKOLÁM Zlepšení podmínek.
Hodnocení kvality výuky 2014 – 2015 LS Říjen 2015.
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Josef Ledvoň. Dostupné z Metodického portálu ISSN: , financovaného.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační.
Plánovací část projektu Cíl projektu - vychází z řešení z prognostické části, - odpovídá na otázku, čeho má být dosaženo? - představuje slovní popis účelu.
Název kapitoly Název podkapitoly Text Schvalovací proces + hodnoticí kritéria Jakub Krátký Praha, 5. května 2016.
Didaktická analýza dějepisného učiva Přednáška č. 6 AR 2014/2015.
Software Licence a distribuce Karel Nymsa Dotkněte se inovací CZ.1.07/1.3.00/
Databáze © Mgr. Petr Loskot
Věcné autority v roce 2016
Systém odměňování pracovníků
Vytvořil: Robert Döring
1. Význam a úkoly technického kreslení Technická dokumentace
Vnitropodniková komunikace ve vybraném subjektu
Vysoká škola technická a ekonomická v Českých Budějovicích
Návod na tvorbu prezentace diplomové / bakalářské práce
Evaluace předmětů studenty (Anketky)
Rozhodování 1.
Kvalitativní výzkum Vybrané otázky: Proč kvalitativní výzkum?
Způsoby zápisu algoritmů
Marketingový výzkum. Marketingový výzkum Organizace marketingového výzkumu Cíl výzkumu Typ výzkumu Příprava výzkumného projektu Sběr dat Analýza výsledků.
Téma 11: Finanční plánování
TIPY A RADY PRO PRÁCI S DATABÁZÍ SCOPUS
Financováno z ESF a státního rozpočtu ČR.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Sémantické aspekty katalogizace VI
Selekční jazyky (2) Úvod do problematiky Josef Schwarz
Název školy : Základní škola a mateřská škola,
Poměr Co je poměr. Změna v daném poměru..
Databáze MS ACCESS 2010.
Oblast: Dobré životní podmínky zvířat
SIMULAČNÍ MODELY.
Poměr v základním tvaru.
Six sigma – zkrácená verze
Základy statistické indukce
Schvalovací proces + hodnoticí kritéria
Formální úprava rešerše
Management Přednáška 7, 8: Plánování.
Vzdělávání pro konkurenceschopnost
Schvalovací proces + hodnoticí kritéria
Digitální učební materiál
Pseudosekce: P-T fázový diagram v jednoduchém systému Al2SiO5 s demonstrací postupu při tvorbě pseudosekce.
Digitální učební materiál
ZÁKLADNÍ ŠKOLA, JIČÍN, HUSOVA 170 Číslo projektu
BIBS Informatika pro ekonomy přednáška 2
Digitální učební materiál
Základy účetnictví změny rozvahových položek
ŠABLONY PRO STŘEDNÍ ŠKOLY
Digitální učební materiál zpracovaný v rámci projektu
NÁVOD NA ZADÁVÁNÍ do databáze OBD dle úprav pro Open Access
Materiál byl vytvořen v rámci projektu
Jiří Vyskočil, Marko Genyg-Berezovskyj 2010
Hodnocení korupčních rizik (CIA) Oddělení boje s korupcí Praha, 2018
Vztahy mezi útvary charakter průběhu hlavní podnikatelské činnosti
INFORMACE TAJEMNÍKA PROFESNÍCH UNIÍ
DIGITÁLNÍ UČEBNÍ MATERIÁL
Lineární regrese.
AUTOR: Mgr. Hana Vrtělková NÁZEV: VY_32_INOVACE_M_06_Hra 3 TEMA: Hra 3
Úvod do korpusové lingvistiky 3
Poměr v základním tvaru.
Typy otázek: otevřené přímé uzavřené obecné specifikující spojovací
PRAKTICKÉ ZKUŠENOSTI ŠKOLY ZAPOJENÉ DO PROJEKTU MOV
Analýza informačního systému
Obecné nařízení o ochraně osobních údajů
Grafy kvadratických funkcí
Transkript prezentace:

Úvod do textových informačních systémů 1

Textové (dokumentografické) informační systémy 50. léta 20. stol. Postupná automatizace postupů používaných v knihovnictví Nyní samostatná podčást IS Faktografický IS Zpracování informací s definovanou vnitřní strukturou (nejčastěji v podobě tabulek) Dokumentografický IS Zpracování informací v podobě textu v přirozeném jazyce bez pevné vnitřní struktury 2

Práce s DIS Zadání dotazu Porovnání Získání seznamu odpovídajících dokumentů Ladění dotazu Vyžádání dokumentu Obdržení textu DIS 1 3 5 6 2 4 3

Struktura DIS Systém zpřístupnění dokumentů Vrací sekundární informace Autor Název ... Systém dodání dokumentů Někdy není řešen pomocí SW I) 1 2 3 4 II) 5 6 4

Vyhodnocení dotazu Přímé porovnání náročné na čas Dotaz Porovnání Dok1 Doki1 Dotaz Přímé porovnání náročné na čas 5

Vyhodnocení dotazu Nutné vytvoření modelu dokumentu Indexace X1 Nutné vytvoření modelu dokumentu Ztrátový proces, obvykle založený na identifikaci slov v dokumentech Výsledkem strukturovaná data vhodná pro porovnávání 6

Vyhodnocení dotazu Dotaz se upraví do odpovídající podoby Následně se porovná s modelem dokumentů Porovnání Doki1 X1 Dotaz 7

Předzpracování textu Vyhledávání probíhá nad vytvořeným modelem efektivněji, ale může použít jen informace obsažené v modelu. Cílem je vytvořit model, který by zachoval co nejvíce informací, obsažených v původním modelu. Problémem je řada nejednoznačností. 8

Porozumění textu Posloupnost slov v přirozeném jazyce. Každé slovo zastupuje pro autora nějakou představu, kterou v něm slovo vyvolá - význam. Tyto představy reprezentují reálné předměty. ... 9

Porozumění textu Synonymie slov Více slov může mít pro autora stejný význam krychle = kostka buldozer = nakladač ... 10

Porozumění textu Homonymie slov Jedno slovo může mít pro autora několik významů taška: střešní, nákupní koruna: platidlo, královská k., k. stromu třída: školní, kategorie v teorii množin los: zvíře, poukázka ke slosování ... 11

Porozumění textu Homonymie slov Jedno slovo může používat stejný tvar pro různé pády a další gramatické jevy (gramatická homonymie) kontroly: 1. p. m.č., 2. p. j.č. není zřejmé, zda se jedná o jednu, nebo více kontrol Jeden tvar slova může mít různý význam plesy: podst. jm. ples, podst. jm. pleso žena: podst. jm. žena, sloveso hnát hnát: sloveso hnát, podst. jm. hnát tři: číslovka tři, sloveso třít pět: číslovka pět, sloveso pět 12

Porozumění textu Významy slov se mohou překrývat. Hierarchicky zvíře > kůň > hřebec Asociace kalkulátor ~ počítač ~ procesor ... 13

Porozumění textu Jednotlivá přiřazení jsou navíc závislá na subjektu, který dokument píše nebo čte. Dva lidé mohou jednomu slovu přikládat zcela nebo jen částečně jiný význam. zavináč, databáze Dva lidé si i pod stejným významem mohou představit jiný konkrétní předmět nebo množinu předmětů. máma, pokoj, ... Výsledkem je situace, kdy dva různí čtenáři nemusí přečtením získat ani stejnou informaci jako autor, ani stejnou informaci navzájem. 14

Porozumění textu Příklad české věty s více gramaticky možnými významy věta „Ženu holí stroj“ může - podle volby přísudku ve větě - znamenat: Poháním stroj pomocí hole (hnát) Žena používá depilační přístroj (holit) Návod k nekonvenčnímu způsobu oblékání (strojit) … a další 15

Porozumění textu Jak pochopíte následující věty? Tvoje stará pila leží ve sklepě Popravit nelze propustit 16

Porozumění textu Angličtina je obvykle jednoznačnější, ale i zde najdeme podobné příklady věta „Time flies like an arrow“ může - podle volby přísudku ve větě - znamenat: Čas letí jako voda (fly) Časové mouchy/zipy mají rády šíp (like) … a další 17

Předzpracování textu Částečným řešením problému porozumění textu je zahrnutí lingvistické analýzy Lemmatizace Přiřazení správného lemmatu jednotlivým slovům Základní tvar slova (1. p. j.č., infinitiv, ...) Slovní druh, osoba, číslo, čas, vid, ... Informace z větného rozboru, (podmět, předmět, ...) 18

Lemmatizace a disambiguace českého jazyka (ÚFAL) Odpovědným zástupcem nemůže být každý. Zákon by měl zajistit individualizaci odpovědnosti a zajištění odbornosti. … <p n=1> <s id="docID:001-p1s1"> <f cap>Odpovědným <MDl>odpovědný_^(kdo_za_něco_odpovídá) <MDt>AAIS7----1A---- <f>zástupcem<MDl>zástupce<MDt>NNMS7-----A---- <f>nemůže<MDl>moci_^(mít_možnost_[něco_dělat])<MDt>VB-S---3P-NA--- <f>být<MDl>být<MDt>Vf--------A---- <f>každý<MDl>každý<MDt>AAIS1----1A---- <p n=2> … Číslo odstavce Číslo věty Slovo v dokumentu Lemma včetně významu Slovní druh (Adverb), … 19

Přesnost a úplnost Dva DIS mohou vrátit na shodný dotaz různé odpovědi, které se nemusí překrývat ani v jediném vráceném dokumentu Dokumenty v databázi Relevantní dokumenty Vrácené v DIS1 Vrácené v DIS2 20

Přesnost a úplnost Dva tazatelé mohou mít při položení shodného dotazu různý názor na relevanci vrácených dokumentů Dokumenty v databázi Relevantní Vrácené dok.  21

Přesnost a úplnost Kvalita výsledné množiny dokumentů se měří na základě těchto čísel Přesnost (Precision) P = Nvr / Nv Pravděpodobnost, že dokument zařazený v odpovědi je skutečně relevantní Úplnost (Recall) R = Nvr / Nr Pravděpodobnost, že skutečně relevantní dokument je zařazený v odpovědi 22

Přesnost a úplnost Koeficienty jsou opět závislé na subjektivním názoru tazatele Dokument vrácený na výstupu může uspokojovat požadavky dvou uživatel, kteří položili stejný dotaz, různou měrou. 23

Přesnost a úplnost V ideálním případě V běžném případě P=R=1 V odpovědi jsou zařazeny právě a pouze všechny relevantní dokumenty V běžném případě Odpověď na první verzi dotazu není ani přesná, ani úplná 1 Optimum Počáteční odpověď 1 24

Přesnost a úplnost Ladění dotazu Postupná modifikace dotazu s cílem zvýšit kvalitu odpovědi Teoreticky je sice možné dosáhnout optima, ale … R 1 Optimum P 1 25

Přesnost a úplnost … vlivem víceznačností jsou v praxi oba koeficienty na sobě nepřímo závislé, tj. P*R  konst. < 1 Při snaze zvýšit P se na výstup dostane méně relev. dokumentů. Při snaze zvýšit R se na výstup dostane s více relev. dok. i mnohem více těch nerelevantních. R 1 Optimum P 1 26

Kritérium maxima V důsledku kritéria maxima se při ladění dotazu uživatel obvykle snaží zvýšit přesnost Malé množství dokumentů v odpovědi, obsahující co největší poměr relevantních dokumentů Některé oblasti použití vyžadují co nejvyšší přesnost i úplnost Právnictví „lepší“ Vr. Rel. „horší“ Vr. Rel. 27

Příklad Pokuste se ohodnotit vyhledávač Google pomocí přesnosti vyhodnocení dotazů Položte několik dotazů Tomáš Vaníček Vyšší odborná škola infoprmačních služeb Informační systém podniku Prozkoumejte prvních 10 (třeba) odpovědí Spočítejte, kolik jich je z vašeho hlediska relevantních Pokuste se odlatit dotaz tak, aby se přesnost zvýšila 28