Automatická indexace Základní metody a postupy

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Vymezení slovních druhů
Úvod do studia jazyka – 4. Gramatika Morfologie.
Interpretace práva.
Redukce textů, obsahová analýza, anotace
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Čeština jako ideální flexivní extrém?
-způsoby, postupy, základní pojmy, náměty-
Bohdana Stoklasová Národní knihovna ČR
Bakalářský seminář Úvod BP Závěr BP.
Přístup k vlastnímu hodnocení ze strany ČŠI
Benchmarking Benchmarking je metoda řízení kvality, která zapojené
Řízené slovníky databází ISTA, LLIS/FTXT, LISA. Obecně: Řízený slovník – controlled vocabulary Slovník lexikálních jednotek selekčního jazyka uspořádaný.
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Jméno autora:Mgr. Jitka Charvátová Třída/ročník:
Vyhledávání podobností v datech s využitím singulárního rozkladu
STRUKTURA OSNOVY KURZU
Střední odborné učiliště Liběchov Boží Voda Liběchov Registrační číslo projektu: CZ.1.07/1.5.00/ Šablona: I/2 Inovace a zkvalitnění výuky.
INFORMATIKA 8 Zásady pro úpravy textů III2 – I8- 14.
Systémy pro podporu managementu 2
Vybrané metody analýzy
Úvod do korpusové lingvistiky 4
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Hrátky s češtinou.
Jazyk XML Jazyk pro tvorbu strukturovaných dokumentů Syntaxí velmi podobný HTML Hlavní cíle návrhu: Snadná editace - jazyk je textový Snadné strojové zpracování.
Regulární analýza lékařských zpráv Jiří Semecký, EuroMISE Centrum Kardio
TYPOGRAFICKÉ PRAVIDLA
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
Úvod do problematiky elektronických informačních zdrojů a rešerší Martina Machátová.
Škola:Chomutovské soukromé gymnázium Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Moderní škola Název materiálu:VY_32_INOVACE_CESKYJA ZYK1_16 Tematická.
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Odborné a vědecké práce Brno 12. března Odborné a vědecké práce Zpráva o semestrálním projektu Závěrečná práce Bakalářská a diplomová práce Disertační.
holé, rozvité, několikanásobné
MorČe morfologické značkování češtiny
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
Selekční jazyky Současné trendy Přednáška č. 6 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Selekční jazyky Současné trendy Přednáška č. 2 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Selekční jazyky Současné trendy Přednáška č. 5 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
NÁZEV ŠKOLY: SOŠ Net Office Orlová, spol. s r. o. AUTOR: Mgr. Naděžda Tománková NÁZEV PROJEKTU: Podpora výuky v technických oborech NÁZEV ŠABLONY: III/2.
ESPON – Identifikace územních aspektů informační společnosti
Sousloví v tezaurech dle normy ČSN
Dobývání znalostí z databází znalosti
VIKMA06 Rešeršní a studijně rozborová činnost
VIKMA06 Rešeršní a studijně rozborová činnost
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Jakub Hlávko Název materiálu:
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Theses Abecední rejstřík klíčových slov.
VIKMA05 Organizace znalostí
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_276_ČJ8
Autor: Mgr. Vladimíra Dvořáková
VIKMA05 Organizace znalostí
Střední odborná škola a Střední odborné učiliště, Vocelova 1338
VIKMA06 Vyhledávání informací
Příklad (investiční projekt)
Digitální učební materiál
Word - základní typografická pravidla
Geografické informační systémy
Transkript prezentace:

Automatická indexace Základní metody a postupy 27. 4. 2012 PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz

AI - kontexty zpracování přirozeného jazyka AI a vyhledávání informací strojové zpracování textu AI a vyhledávání informací automatická klasifikace, shlukování (klastrování), abstrahování, automatická tvorba řízeného slovníku

AI - vstup dostupnost plného textu, popř. abstraktu automatická/intelektuální indexace AI-výhody: odstranění subjektivity AI-výhody: velký objem dokumentů AI-nevýhody: stroj nerozumí textu Morfologie, syntaxe Sémantika Intratextová (Slova/výrazy, věty, odstavce, text) Intertextová (různé texty) Extratextová (realita)

AI - vstup (pokr.) AI-problémy: Pojmy nejsou vyjádřeny explicitně Nepřímé odkazy na jiné části textu nebo texty Text obsahuje nevýznamová slova Jazykové problémy: synonymie, homonymie Význam slov se mění v čase nebo mezi jednotlivými dokumenty Různé tvary slov (míra závisí na jazyce)

AI – vstup (pokr.) typy automatické indexace extrakce (extraction indexing) – slovní indexace (SI) klíčová slova z textu: lexikální analýza (identifikace slov a sousloví) odstranění nevýznamových slov lematizace (vážení) (komparace s řízeným slovníkem) přiřazování (assignment indexing) – pojmová indexace (PI) práce s plným textem pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) řízený slovník – simulace intelektuálního procesu

SI – lexikální analýza Číslice Určení hranice slova Velká/malá písmena Odborné texty („§ 12“), odborné termíny („MARC21“) Určení hranice slova Mezera Tečka (zkratky), spojovník (knihovnicko-informační systém) Další interpunkční znaménka Velká/malá písmena

SI – lexikální analýza (pokr.) Sousloví Sémanticky nosnější než jednotlivá slova Dvě základní metody Statistická identifikace sousloví Syntaktická identifikace sousloví Normalizace sousloví Slovník Vypuštění pomocných slovních druhů a zanedbání pořadí složek Syntaktická analýza s použitím kmene (kořene)

SI – nevýznamová slova Odstranění nevýznamových slov Řešení 20-30 % běžného textu Spojky, předložky a další pomocné složky Sousloví s předložkovou vazbou (knihovny pro nevidomé) Slova bez rozlišovací funkce Řešení Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) Odstranění lexikální analýzou a vážením

SI – nevýznamová slova (pokr.) Tvorba stop-slovníku Druhy slov (spojky, předložky, částice apod.) Podle frekvence slova v textu Krátká slova Anti-negativní slovník

SI – lemmatizace Metody Program: lemmatizátor (stemmer) Algoritmické (gramatická pravidla) Generování afixů Slovníkově orientované Slovník kmenů nebo kořenů a dalších morfologických informací Slovník afixů (sufixů a prefixů) Statistické Letter successor variety stemmer (varieta po sobě následujících písmen) Nové dokumenty v db Nerozliší inflexní a derivační afixy Program: lemmatizátor (stemmer)

SI – lemmatizace (pokr.) Příklady převodů slovních druhů Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův)  mužský tvar subst., 1. pád, singulár (autor) Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. –ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně)  zákl. tvar. adj. (konkrétní) Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso  infinitiv (dělat)

SI – lemmatizace (pokr.) Lemmatizace se provádí: Při indexaci Malý index Nutnost ručních zásahů Při zpracování dotazu inverzní lemmatizace (derivace) Zvýšení relevance

SI - vážení Různá důležitost slov pro obsah dok. Selektivní síla indexačního termínu (výrazu) Kritéria vážení: Výraz (slovní druh) Text (délka, počet různých termínů) Vztah výrazu a textu Frekvence výrazu v textu Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) – zohlednění koeficientem při vážení Vztah termínu a celé db Frekvence výrazu v db Vybrané váhové funkce

PI - vstup Simulace intelektuálního procesu Základ: Předpoklad: Výsledky SI Plný text Předpoklad: Strukturovaný řízený slovník Tezarus, sémantická síť, znalostní báze

PI - postup Postup PI: Problémy: Identifikace výrazu Srovnání výrazu s relevantními profily pojmů z řízeného slovníku Určení indexačních termínů Problémy: Shoda dokument/ŘS nemusí být určující pro obsah Netriviální vyjádření pojmu v textu Implicitní reprezentace pojmu v textu

AI - hodnocení praktické aspekty systémy plné texty vyšší účinnost ve srovnání s intelektuální indexací vyšší náklady – vyšší kvalita oborový IS systémy univerzální systém neexistuje funkční systémy specifická oblast často pracují pouze s abstrakty kombinace automatické a intelektuální indexace

AI - příklady příklady systémů ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS NASA MAI Tool (text1, text2)

Literatura Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů. Praha, 2002-2003. Dostupné na: <http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html>. Zde i další literatura.