Počítačové zpracování přirozeného jazyka Daniel Zeman

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Úvod do médií PaedDr. Zdeněk Pejsar, Ph.D.. Při vytváření pojmu multimédia je vhodné vyjít ze syntaktického složení tohoto slova. Pod pojmem multi najdeme.
ŘÍDÍCÍ STRUKTURY - PODMÍNKY
Textový procesor Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je MGR. MILOŠ NYGRÝN.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
DRUHY VĚT PODLE POSTOJE MLUVČÍHO, VĚTA JEDNOČLENNÁ, DVOJČLENNÁ, VĚTNÉ EKVIVALENTY Mgr. Michal Oblouk.
Označení materiálu: VY_32_INOVACE_HLAVE_CESKYJAZYK1_10
COUNTABLE AND UNCOUNTABLE NOUNS
Počítačové zpracování přirozeného jazyka
Představujeme službu Samepage
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Databáze Tabulky a typy dat VY_32_INOVACE_7B11. Proč datové typy ? Abychom mohli do tabulky vložit data, musíme jednotlivým polím (sloupcům) přiřadit.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
WWW – hypertextový informační systém
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
Číslo projektuCZ.1.07/1.5.00/ Název projektuEU peníze středním školám Masarykova OA Jičín Název školyMASARYKOVA OBCHODNÍ AKADEMIE, 17. listopadu.
COUNTABLE AND UNCOUNTABLE NOUNS
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Projekt A5 Nástroje informatiky pro získávání informací a jejich zpracování.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Zpracování rešerše Mgr. Anna Vitásková.
Aplikace vyhledávače Google na zdroje odborných informací
69.1 Stavba věty jednoduché, základní skladební dvojice
Jak vyhledávat informace na Internetu?
Střední průmyslová škola, Mladá Boleslav, Havlíčkova 456
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Umělá inteligence Robin Horniak. Definice Umělá inteligence (Artificial Intelligence), zkráceně UI (AI) věda, která se zabývá tím, jak přinutit stroje.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
ČÍST CIZOJAZYČNÉ KNÍŽKY ?.  Asi každý z nás někdy narazil na nějakou knížku, časopis nebo jakýkoliv jiný materiál, který sice obsahoval velice zajímavé.
Vyledávání na internetu (18). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
SPISOVNÁ VÝSLOVNOST ČEŠTINY Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je PhDr. Lucie Bušová. Dostupné z Metodického portálu
Přísudek a podmět Autor: Mgr. Ivana Tesařová Materiál vznikl v rámci projektu Škola pro život č.proj. CZ.1.07/1.4.00/
Sémantické aspekty katalogizace X. PhDr. Jiří Stodola.
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
JAK SPRÁVNĚ GŮGLIT. PŘESNÁ SLOVA A FRÁZE nejzákladnější a nejvíce známý vyhledávací trik uvozovky k vyhledání přesné fráze. například provedete následující.
TYPOGRAFIE Zpracovala: Mgr. Jitka Hotařová
Vyhledávání v Internetu
Odpověď na tyto otázky nalezneš v jazykových příručkách.
Inf Bezpečný počítač.
Klára Osolsobě, Hana Žižková
Inf Elektronická komunikace
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
Mgr. Marie Havránková TVAROSLOVÍ 7 - slovesa Mluvnice pro 2. ročník
Nástroje podpory uživatelů
Název školy:  ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY Autor:
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů Skladba 9. ročník
Název školy Plavská škola Autor Mgr. Jana Kneřová Název
Kód materiálu: VY_32_INOVACE_08_DELENI_HLASEK Název materiálu:
Automatická indexace Základní metody a postupy
NÁZEV ŠKOLY: 2. základní škola, Rakovník, Husovo náměstí 3
Základní škola a Mateřská škola Choustník, okres Tábor
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Počítačové zpracování přirozeného jazyka
Číslo projektu CZ.1.07/1.4.00/ Název sady materiálů
Microsoft Excel Funkce Když. Microsoft Excel Funkce Když.
Charaktristika češtiny, národní jazyk a jeho útvary
Mgr. Lenka Vrzáňová Větná stavba října 2011
Transkript prezentace:

Počítačové zpracování přirozeného jazyka Daniel Zeman

Předpoklady Žádné (téměř) Pouze: –Základní znalost programování v některém programovacím jazyku –Středoškolské znalosti mluvnice (ne nutně české) –Pasivní znalost angličtiny výhodou http://ufal.mff.cuni.cz/course/popj12

Zápočet Zápočet za domácí úkoly (Perl, Python, Java…; práce s cizími nástroji pro NLP) Dva možné modely: 1.Jeden větší úkol pro jednotlivce na semestr. Krátká prezentace před ostatními v prosinci. 2.Několik drobnějších úkolů v průběhu semestru. Součást „společného projektu“? http://ufal.mff.cuni.cz/course/popj13

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza) http://ufal.mff.cuni.cz/course/popj14

Vyhledání slova ve všech tvarech Lze nechat vyhledat jen část slova, ale: -Internetové vyhledávače mají v indexu slova, ne jejich části. -Ovšem mnohé z nich už morfologii zvládají (Google). -Povolíme-li hledání částí, dostaneme i texty, které nás nezajímají: hledáme hodit, zadáme hod, dostaneme nejen hodit, hodím, hodil, nejen hod, hody, hodování, nejen přehodit, náhoda, přehodnotit, ale dokonce i chodit nebo schody. -Navíc nedostaneme hoď, hoďme, hoďte — to bychom museli hledat jenom ho, a to by bylo vůbec katastrofální. Zadat dotazy pro každý tvar zvlášť nejde, jsou jich desítky až stovky. -Některá slova mění i kmen (stůl – stolu; brát – beru – bral) http://ufal.mff.cuni.cz/course/popj15

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu http://ufal.mff.cuni.cz/course/popj16

Kontrola pravopisu -Prohledávání slovníku je jednoduché, jediná lingvistika je ten slovník. -Problém je rozumně vybrat podobná slova, která nabídneme jako náhradu. Jak měřit podobnost slov? Odhadnout podle kontextu, které z nich uživatel myslel? Gramatika může na daném místě požadovat sloveso, význam ostatních slov zase může napovědět, které sloveso je nejpravděpodobnější. -V češtině je prohledávání slovníku málo účinné, existuje řada koncovek, ale jen některé jsou možné v dané větě, chyby v tvrdém a měkkém i. Viz též kontrolu gramatiky. -Co zatím chybí: přepínač stylu (rozhodnu-li se pro koncovky typu –ej, je to jiná varianta jazyka a mělo by být vyžadováno držení jedné linie). -Zákaz dvou stejných slov za sebou: obecně ano, ale jsou výjimky, které by mohla rozpoznat kontrola gramatiky: Nesnese se se sestrou, snědl jí tu tu buchtu a teď jí jí její koláč http://ufal.mff.cuni.cz/course/popj17

Kontrola gramatiky a stylu -Ideální stav: kompletní syntaktická analýza vztahů ve větě. To je ale těžké. -Současná kontrola gramatiky v angličtině ve Wordu v sobě má i kontrolu stylu (bouří se proti dlouhým větám apod.) -Univerzální úkoly: velké písmeno na začátku věty, zakázat dvě mezery za sebou apod. -Úkoly v češtině: shoda podmětu s přísudkem (tvrdé a měkké i), shoda přívlastků s rozvíjenými podstatnými jmény, čárky kolem vnořených klauzí, interpunkce v uvozovkách http://ufal.mff.cuni.cz/course/popj18

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu. Háčkování: vrátit diakritiku do textu, ze kterého byla odstraněna. Obdobný úkol: doplnit samohlásky do arabského nebo hebrejského textu http://ufal.mff.cuni.cz/course/popj19

Háčkování -Háčkování a doplňování samohlásek, doplňování hranic slov (Asie) -Pouhé hledání ve slovníku nestačí, jak ukazují následující příklady: horka cokolada (horká / hořká), mala (malá / mála), udelana (udělána / udělaná), uspi (uspi / uspí), mami (mami / mámí), zadejte uhel (zadejte úhel / žádejte uhel), cesky (česky / český / Češky / čéšky), rad (rad / raď / rád / řad / řaď / řád) -Stejné problémy mají v řadě dalších jazyků, někde dokonce občas znaménka vynechávají, aniž by je k tomu tlačila neschopnost techniky (francouzština, rumunština) http://ufal.mff.cuni.cz/course/popj110

Problémy podobné háčkování Rozlišování malých a velkých písmen –Ve statistickém strojovém překladu bývá výhodné převést vstupní text na malá písmena. –Pak je ale nutné na výstupu odhadnout, kam patří velké písmeno. T9 v mobilech –Např. „852536“ může znamenat „tlakem“, „vlakem“, „vláken“, „vlčkem“ http://ufal.mff.cuni.cz/course/popj111

Doplňování krátkých samohlásek v arabštině a hebrejštině -Krátké samohlásky v semitských jazycích jsou podobný problém jako naše háčkování. -V dialektech se navíc samohlásky (ale i souhlásky) liší, přestože zápis arabským písmem je jen ten jeden! -جيب لي ثلاثة قحوة -HWHhQ HTh’LTh YL BYJ -jyb ly vlAvp qHwp (Buckwalterův přepis) -Jīb lī thlīthah qaħwah. (spisovná arabština) -žib lí tléta dil qahwa (mar) -žib lí thlétha qahwa (tun) -gib lí taláta ahwa (egy) -žib lí tléte ahwe (syr) -džib lí theláthe gahwe (irq) -přineste mi tři kávy (čsk) http://ufal.mff.cuni.cz/course/popj112

Arabské samohlásky: nejednoznačnosti -Nejednoznačnosti: nejen v dialektech, ale i v mluvnici. -كتاب = kitáb (kniha) -كتب = katab (psát), kutub (knihy) -كتبت = katabt (napsal jsem, napsala jsem, napsal jsi), katabti (napsala jsi), katabit (napsala) -Arabština umí zapisovat samohlásky pomocí diakritiky, ale Arabové to nedělají, vyskytuje se snad pouze v Koránu. -Zapisují se dlouhé samohlásky (Á = ’, Í = Y, Ú = W), proto cizí slova mívají všechny samohlásky dlouhé, aby Arab poznal, jak se vyslovují (Československo = Tšíkúslúfákijá). -Totéž platí pro hebrejštinu: v tóře bývají samohlásky zapsány, aby židé roztroušení po světě a hovořící jinými jazyky nezapomněli výslovnost, ale po Izraeli nic takového nenajdeme http://ufal.mff.cuni.cz/course/popj113

Segmentace -Doplňování hranic slov (asijské jazyky, zejména čínština). I to je trochu analogie k doplňování samohlásek či diakritiky. -Číňané nemají pojem slova, ale pro počítačové zpracování jazyka se tento pojem hodí. Znak (slabika) není vždy ideální ekvivalent. - 这个多少钱? -zhè ge duō shǎo qián ? (če ke tuo šao čchien?) -tenhle kus mnoho málo peníze ? -Zhège duōshǎo qián? -Tohle kolik peněz?... Kolik to stojí? http://ufal.mff.cuni.cz/course/popj114

Přehled aplikací a problémů počítačové lingvistiky 1 Vyhledat slovo v textu ve všech tvarech (morfologická analýza). Kontrola pravopisu (spell checking). Inteligentní pro češtinu: např. kontrola tvrdého a měkkého i v příčestí minulém. Kontrola gramatiky (grammar checking) a stylu. Háčkování: vrátit diakritiku do textu, ze kterého byla odstraněna. Obdobný úkol: doplnit samohlásky do arabského nebo hebrejského textu. Rozpoznávání naskenovaného písma (optical character recognition, OCR). Rozpoznávání řeči (speech recognition). Diktát se vrací ve smartphonech. Vyhledávání v nahrávkách (speech Google?) Strojový překlad z jednoho (přirozeného) jazyka do druhého. Generování textů (např. manuálů) v různých jazycích http://ufal.mff.cuni.cz/course/popj115

http://ufal.mff.cuni.cz/course/popj116 Přehled aplikací a problémů počítačové lingvistiky 2 Rozpoznat (převažující) jazyk, ve kterém je určitý dokument. Nalézt relevantní dokumenty v textové databázi (Google!). Nebo třeba: rozpoznat spam v mailu. Vytáhnout informace ze zpráv nebo článků s jistým tématem (např. všechny obchody s akciemi v daný den) Sumarizace textů (např. vytvořit třístránkové shrnutí tisícistránkového dokumentu). Dotazy na databázi v přirozeném jazyce (např. rezervace letenek). Automatická komunikace se zákazníkem po telefonu: Hlasové řízení stroje. Generování řeči strojem. Výukové systémy interagující se studentem, obecné systémy pro řešení konkrétních problémů.

Dílčí problémy Tokenizace (hranice slov a vět) Morfologická analýza (slovník + ohýbání) Zjednoznačňování, značkování (tagging), lemmatizace Rozlišení významu slov (word sense disambiguation) Zařazení slov do tříd podle použití (clustering) Synchronizace různojazyčných verzí téhož, párování vět a odst. Syntaktická analýza (parsing). Hledání základních jmenných frází (base noun phrase chunking) Zavěšování předložkových frází (prepositional phrase (PP) attachment) Slovesné rámce Hloubková analýza Základ a ohnisko (topic and focus), hloubkový slovosled. Doplnění chybějících členů Koreference Analýza diskurzu, anafora http://ufal.mff.cuni.cz/course/popj117

Předložkové skupiny „Přišel ten pán se sousedem odnaproti.“ http://ufal.mff.cuni.cz/course/popj118 Přišel ten pánse sousedem odnaproti.Přišel ten pán se sousedem odnaproti.Přišel ten pán se sousedem odnaproti.Přišel ten pánse sousedem odnaproti.

Předložkové skupiny Anglický příklad: –I saw the man with a telescope. 1.Viděl jsem ho dalekohledem. 2.Viděl jsem ho s dalekohledem http://ufal.mff.cuni.cz/course/popj119

Předložkové skupiny V období, kdy prudce poklesl zájem na domácím trhu, dokázala továrna část výroby exportovat http://ufal.mff.cuni.cz/course/popj120

Předložkové skupiny a syntaktické nejednoznačnosti V letech 1991 – 1993 jsem absolvovala kurzy řízení a marketingu na Collège Bart v kanadském Québecu. –absolvovala na Collège Bart –kurzy na Collège Bart –řízení a marketingu na Collège Bart –marketingu na Collège Bart –Collège Bart v Québecu –marketingu v Québecu http://ufal.mff.cuni.cz/course/popj121

Předložkové skupiny a syntaktické nejednoznačnosti „říjnové jednání OSN o klimatických změnách v Kodani“ (Události ČT, ) Otázka: Došlo ke klimatickým změnám v Kodani? http://ufal.mff.cuni.cz/course/popj122

Webové služby: Majka wAjkaSkripty/morph.cgi?jazyk=0http://nlp.fi.muni.cz/projekty/wwwajka/Ww wAjkaSkripty/morph.cgi?jazyk=0 Český morfologický analyzátor Masarykovy univerzity v Brně http://ufal.mff.cuni.cz/course/popj123

Hajičova morfologie ex.htmlhttps://lindat.mff.cuni.cz/services/morph/ind ex.html Český morfologický analyzátor + tagger na MFF UK v Praze http://ufal.mff.cuni.cz/course/popj124

Morfo: generátor tvarů bin/zeman/morfo/index.plhttp://quest.ms.mff.cuni.cz/cgi- bin/zeman/morfo/index.pl Opačné rozhraní k morfologickému slovníku: zadejte lemma (základní tvar slova) a nechte si vygenerovat všechny tvary http://ufal.mff.cuni.cz/course/popj125

Literatura James Allen: Natural Language Understanding. Benjamin/Cummings 1994, ISBN Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990 Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. The MIT Press 1999, ISBN Mé prezentace a další odkazy na webu http://ufal.mff.cuni.cz/course/popj126