11.11.1999http://www.ms.mff.cuni.cz/~zeman/1 Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.

Slides:



Advertisements
Podobné prezentace
Autor: Bc. Lucie Čechová, ZŠ Lingua Universal
Advertisements

Slovesa - přechodníky 32_04_05: Mluvnice – Anotace Jazyk
Komunikace s uživateli knihoven s mentálním postižením Eva Cerniňáková Městská knihovna v Praze.
Analýza staročeské morfologie v Excelu
Příslovce a příslovečné spřežky
Výukový materiál zpracovaný v rámci projektu „EU peníze školám“
Základní škola a Mateřská škola Slapy, okres Praha-západ
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Tvar kmene Modul 7 - HÚL 3.
Tvorba www stránek SYNTAXE ICT 4.ročník. Obsah TAGY TAGY ATRIBUTY ATRIBUTY KŘÍŽENÍ TAGŮ KŘÍŽENÍ TAGŮ VELIKOST PÍSMEN VELIKOST PÍSMEN MEZERY VE ZDROJOVÉM.
Morfologická analýza Unifikační gramatiky
Principy překladačů Překladač Jakub Yaghob. Literatura a slajdy Aho, Sethi, Ullman: Compilers - Principles, Techniques and Tools, Addison-Wesley 1986.
Generování mezikódu Jakub Yaghob
Lexikální a syntaktická analýza Jakub Yaghob
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
ORGANIZACE DATOVÉ STRUKTURY SOUBOR
ČÍSLOVKY Mgr. Michal Oblouk.
Informatika I Informatika pro 1. ročník 4 letého gymnázia
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Jméno autora:Mgr. Jitka Charvátová Třída/ročník:
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Stanovení objemu stojících stromů
Bitmapová a Vektorová grafika
Úvod do korpusové lingvistiky 4
GAK – CJBB84 čt Vyhledávání v korpusu s/bez použití lemmatizace a morfologických značek Základní vyhledávání v korpusu Obsah:
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Maturitní okruh č. 15, K. Záchová, VIII.A zaměřeno na MS WORD 2007.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Šablona:III/2č. materiálu: VY_32_INOVACE_114 Jméno autora: Lucie Šrámková Třída/ročník: 4. Datum vytvoření: Výukový materiál zpracován v rámci.
Vztah bezkontextových jazyků a ZA
Regulární výrazy Regulární výrazy představují další možnost popisu regulárních jazyků (právě od nich dostaly své jméno). Definice: Množina všech regulárních.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není –li uvedeno jinak, je tento materiál zpracován.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Slovníky a morfologická analýza
Pathfinding s využitím PostGIS Prezentuje : Jan Kolář.
 U řady jmen s kmenem zakončeným skupinou dvou nebo více souhlásek, např. hra, kresba, látka, astra, ondatra, se v G. pl. do skupiny vkládá e: her, kreseb,...“(Cvrček.
Vzdálené počítačové sítě a programování v prostředí Windows Okruhy ke zkoušce z předmětu: Ing. Zdeněk Votruba LVALVA.
Za předpokladu použití psacích potřeb
Turingův stroj.
Škola:Chomutovské soukromé gymnázium Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Moderní škola Název materiálu:VY_32_INOVACE_CESKYJA ZYK1_16 Tematická.
Konečné automaty a vyhledávání
Algebra v informatice Antonín Jančařík.
PŘÍDAVNÁ JMÉNA PŘIVLASTŇOVACÍ:
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
INTERNETOVÁ DOMÉNA V této prezentaci se dozvíte něco málo o internetových doménách…
Mgr. Michal Oblouk OHEBNÉ SLOVNÍ DRUHY.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
NÁZEV ŠKOLY: ZÁKLADNÍ ŠKOLA PODBOŘANY, HUSOVA 276, OKRES LOUNY AUTOR: SIMONA ŠTRANCOVÁ, DIS. NÁZEV: VY_32_INOVACE_678_STUPŇOVÁNÍ_PŘÍDAVNÝCH_JMEN_KRÁTKÁ.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
XSLT překladač Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Základní gramatika latiny
VY_32_INOVACE_05_01 CZECH SALES ACADEMY Trutnov – střední odborná škola s.r.o. EU PENÍZE ŠKOLÁM CZ.1.07/1.5.00/ VY_32_INOVACE_05_01 Zpracovala:Mgr.
Avast-Antivirus. Avast-Charakteristika Český antivirus avast! chrání již přes 100 milionů počítačů po celém světě. Avast! vyhrál mnoho ocenění a pravidelně.
Číslo DUM: VY_32_INOVACE_02 Autor: Ing. Milana Zuhlová Anotace: Tento materiál slouží k výuce německého jazyka na základní škole. Je možné ho využít při.
Ukládání dat biodiverzity a jejich vizualizace
Klára Osolsobě, Hana Žižková
Slovníky a morfologická analýza
Procvičování s číslicemi Slovní druhy Slovní druhy a jejich číslice ○ ○ Podstatná jména Přídavná jména Zájmena Číslovky.
Anotace: prezentace slouží k tvoření slov z různých slovních druhů
Překladače 5. Syntaktická analýza
Rozvoj řeči u dítěte z hlediska morfologicko-syntaktické roviny
Vedení poznámek.
Automatická indexace Základní metody a postupy
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ
Název školy:. Základní škola a Mateřská škola Nymburk, Komenského 589-
AUTOR: Lenka Malčíková NÁZEV: VY_32_INOVACE_30_Slovní druhy
Transkript prezentace:

http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní slovník: book / pravidelné sloveso, book / pravidelné podstatné jméno, nic / přídavné jméno: nice, … –koncovky: pravidelné sloveso + s / VBZ, pravidelné podstatné jméno + s / NNS, přídavné jméno / JJR, … Konečné automaty a převodníky –mnoho slovníků s ukazateli, kudy pokračovat: reg-kmen-lex  reg-koncovka-lex –fonologie je zahrnuta, ale často jasně oddělena

http:// Metody morfologické analýzy Bezkontextové gramatiky, unifikační gramatiky, … –řeší spíše lingvistické než počítačové problémy –ve skutečnosti vhodnější pro morfologickou syntézu (generování) DATR

http:// Seznamy slovních tvarů Málo specifického kódu, velké nároky na paměť pro slovník. Funguje pro angličtinu. –Problém se zadáváním jazyka: opakované psaní kmenů slov. Pro jazyky, jako je angličtina, je míra opakování snad únosná. –Počet tvarů v angličtině řádově ~ počet lemmat (pár set tisíc). –Čeština: 700 tisíc lemmat (i odvozených), milióny tvarů (asi 20M, ovšem řada homonymních a mnohé zřídka používané) Implementace: vyhledávací stromy, hašovací tabulky (Perl!), trie.

http:// Seznamy slovních tvarů: vyvážené vyhledávací stromy bookbooks bookable booking bookedbookish booklet book-1+s (podst. jméno + množné číslo) nebo book-2+s (sloveso + 3. osoba)

http:// Seznamy slovních tvarů: hašovací tabulky Hašovací funkce spočitatelná pro libovolný řetězec, s omezeným oborem hodnot. Například (slovo = a 1 a 2 …a n ; velikost tabulky = x, nejlépe prvočíslo): Tedy v céčku: hsh = 0 for(i=0;i<n;i++) hsh = hsh*2+(int)a[i]; hsh %= x;

http:// Seznamy slovních tvarů: hašovací tabulky Tabulka statické velikosti, indexem je hašovací hodnota. Z prvku s indexem i vede odkaz na seznam všech slov ve slovníku, jejichž hašovací hodnota je i. U slov je uvedeno jejich lemma a značka. Hašovací funkce pokud možno taková, aby rozprostírala řetězce do tabulky rovnoměrně. Tabulka pokud možno co největší, jaká se vejde do paměti. Výsledek: rychlé vkládání, vyhledávání i odstraňování. Perl už má implementováno, stačí $slovník{$slovo}=$lemma.$značka

http:// Seznamy slovních tvarů: trie Reprezentace části slovníku: –a, a, neurčitý člen –an, a, neurčitý člen před samohláskou –and, and, spojka (a) –ant, ant, podstatné jméno (mravenec) –at, at, předložka (v) t t a n d at,Prep a,Art a,Artv ant,NN and,Conj

http:// Přímé kódování, vnitřní segmentace slova O něco více specifického kódu v programu. Pro jiný jazyk nebo pro přidání dosud nezpracovaných jevů může být obtížné upravit. O něco méně paměťových nároků na slovník. Jeden kmen už se kóduje jen jednou, má u sebe uveden vzor skloňování (časování, stupňování), povolené předpony a přípony. I tak je možné slovník ukládat podobným způsobem jako seznam slovních tvarů: hašovací tabulkou, trie, vyhledávacím stromem, …

http:// Přímé kódování, vnitřní segmentace slova (Word segmentation je ale oddělování slov, například při zpracování řeči — neplést!) Oddělit předpony (do-, od-, roz-, pře-, …, ne-). Pro všechny použitelné koncovky opakovat: –Rozdělit slovo na kmen a koncovku. –Podívat se, zda takový kmen existuje ve slovníku. Pokud ano, zapamatovat si informaci ze slovníku, zejména vzor skloňování. –Zjistit, zda vzor připouští nalezenou koncovku. –Zjistit, zda lemma pro daný kmen připouští nalezenou předponu. –Podle vzoru a koncovky zjistit lemmata a značky, které přicházejí v úvahu.

http:// Bezkontextové gramatiky Zkratka CFG (context-free grammar) Čtveřice (T, N, S, P) –T … abeceda terminálních (koncových) symbolů, obvykle se používají malá písmena –N … abeceda neterminálních symbolů, obvykle se používají velká písmena –S  N … startovní neterminální symbol –P … množina přepisovacích pravidel tvaru X  , kde X  N a   (T  N)* Řetězec lze v CFG odvodit, jestliže může vzniknout opakovanou aplikací pravidel na startovní symbol.

http:// Bezkontextové gramatiky: příklad Neterminály začínají velkým písmenem, terminály malým. –Slovo  Stupeň Zápor Kmen Koncovka –Stupeň  nej –Zápor  ne –Kmen  abatyš | abbé | abdikac | abdikov | … –Koncovka  λ | a | ovi | e | em | y | u | o | ou | … Odlišit kmeny, které dovolují konkrétní skupiny afixů. Vyřešit nepravidelnosti, změny kmenových souhlásek… Problém: gramatika by byla příliš veliká!

http:// Bezkontextové gramatiky: změny kmenových souhlásek Změny kmenových souhlásek — možné řešení: –KmenNF1  m a t K | ž e N | … –K  k | c –N  n | ň –KoncovkaNF1  a | y | e | … Přijme matka, matky, matce, ale i *matca, *matcy, *matke. Buď doplňková pravidla mimo gramatiku (např. před „e“ měkká souhláska, všude jinde tvrdá), nebo zesložitění gramatiky.

http:// Bezkontextové gramatiky: změny kmenových souhlásek Přesnější gramatika pro změnu kmenových souhlásek: –Slovo  KmenNF1Normální KoncovkaNF1Normální | KmenNF1Měkký KoncovkaNF1Měkká –KmenNF1Normální  m a t k | ž e n –KmenNF1Měkký  m a t c | ž e ň –KoncovkaNF1Normální  a | y | u | o | ou | | ám | ách | ami –KoncovkaNF1Měkká  e Nebezpečí, aby se velikost gramatiky nepřiblížila velikosti výčtu všech tvarů. Zbytečně opakujeme části „m a t“, „ž e“.

http:// Bezkontextové gramatiky: palatalizace Navíc ještě palatalizace: matek –Slovo  KmenNF1Normální KoncovkaNF1Normální | KmenNF1Měkký KoncovkaNF1Měkká | KmenNF1Palat –KmenNF1Normální  m a t k | ž e n –KmenNF1Měkký  m a t c | ž e ň –KmenNF1Palat  m a t e k | ž e n –KoncovkaNF1Normální  a | y | u | o | ou | ám | ách | ami –KoncovkaNF1Měkká  e

http:// Bezkontextové gramatiky: analýza a syntéza Syntéza –Vyjdeme ze startovního symbolu. –V řetězci, který máme, vybereme nějaký neterminální symbol a přepíšeme ho na základě přepisovacího pravidla. Někdy (často!) si musíme pravidlo vybrat z několika, která přicházejí v úvahu. –Jakmile se řetězec skládá pouze z terminálních symbolů, je hotov. Analýza –Máme řetězec, v případě morfologické analýzy slovo. –Hledáme části, které lze nahradit neterminály. Nedeterministické! –Cíl: startovní symbol S. V praxi jsou CFG vhodné spíš pro morf. syntézu.

http:// Nedeterminismus analýzy pomocí CFG S  Kmen Přípona | Kmen Koncovka Kmen  venkov Přípona  ský | ská | ské | ští Kmen  skýv Koncovka  a | y | ě | u | o | ou | | ám | ách | ami skýva  Přípona(ský) va  ???

http:// Bezkontextové gramatiky: shrnutí Hezky popisují opravdu pravidelné jevy.  Pro „pravidelné nepravidelnosti“ někdy potřeba operace, které CFG přímo nepodporují, nutno simulovat   Neúnosně roste velikost gramatiky.  Nepřehlednost, špatná modifikovatelnost (týž kmen se vyskytuje na mnoha místech, tj. slovník je roztroušen po gramatice, není jasně oddělen).  Analýza problematická, pro syntézu vhodnější.

http:// Nadstavba nad bezkontextovou gramatikou Napsat bezkontextovou gramatiku, která se zabývá jen pravidelným skloňováním. Bude dělit slovník na vzory pro ohýbání. –14 vzorů pro podstatná jména –4 vzory pro přídavná jména –11 vzorů pro slovesa –(ve skutečnosti další vzory a podvzory pro nepravidelná slova) Nad ní konečný převodník — změny kmen. souhlásek, pravopisné změny typu ďe  dě, kontrola správnosti. –konečný převodník je ekvivalentní konečnému automatu a ten je zase ekvivalentní regulární gramatice

http:// Unifikační gramatiky Založeny na –strukturách rysů (feature structures) –jejich unifikovatelnosti Struktura rysů –Něco jako záznam v databázi, naplněná proměnná typu record v pascalu nebo typu struct v céčku. Popis objektu, seznam rysů. –rysy (atributy, features) … jména polí, položek –hodnoty –Příklady dvojic rys – hodnota: [číslo: množné], [pád: 1].

http:// Struktura rysů entita JMÉNOFF UK TELEFON entita JMÉNODan TELEFON POSsubstantivum GENmaskulinum NUMsingulár CASEdativ fakulta JMÉNOMFF UK DĚKANNetuka TELEFON POSadjektivum GENmaskulinum NUMplurál CASEakuzativ DEGkomparativ NEGafirmativ

http:// Struktura rysů Obecně: parciální funkce z množiny rysů do množiny hodnot. typ RYS 1 HODNOTA 1 RYS 2 HODNOTA 2 RYS 3 HODNOTA 3

http:// Unifikovatelnost Dvě struktury rysů jsou unifikovatelné, jestliže se shodují jejich hodnoty v těch rysech, které mají obě dvě. Příklad: struktury 1 a 2 jsou unifikovatelné 2 a 3 také, 1 a 3 nikoliv. ROD mužský ČÍSLO jednotné PÁD dativ 1 DRUH sloveso ČÍSLO jednotné ČAS přítomný 2 ROD mužský ČÍSLO jednotné PÁD instrumentál 3

http:// Unifikace Unifikace je operace na dvou unifikovatelných strukturách rysů, jejím výsledkem je nová struktura rysů. ROD mužský ČÍSLO jednotné PÁD dativ 1 OSOBA třetí ČÍSLO jednotné ČAS přítomný 2 + = ROD mužský ČÍSLO jednotné PÁD dativ OSOBA třetí ČAS přítomný 3

http:// Vstup: struktury rysů „lemma“ a „značka“. Najít ve slovníku všechny struktury „heslo“, které jsou unifikovatelné se strukturou „lemma“. Pro každou nalezenou strukturu „heslo“ najít v seznamu vzorů strukturu „vzor“, která je současně unifikovatelná s ní i se vstupní strukturou „značka“. Unifikací k sobě pasujících struktur „heslo“, „vzor“ a „značka“ vznikne struktura „tvar“. Na výstupu je pro každou strukturu „tvar“ řetězec složený z hodnot jejích rysů „vzor“ a „koncovka“. Morfologická syntéza pomocí unifikace

http:// Morfologická syntéza pomocí unifikace Vstup: struktury rysů „lemma“ a „značka“. Najít ve slovníku všechny struktury „heslo“, které jsou unifikovatelné se strukturou „lemma“. lemma LEMMA háček značka ČÍSLO množné PÁD nominativ heslo LEMMA háček VZOR hrad heslo LEMMA háček VZOR pán

http:// Morfologická syntéza pomocí unifikace Pro každou nalezenou strukturu „heslo“ najít v seznamu vzorů strukturu „vzor“, která je současně unifikovatelná s ní i se vstupní strukturou „značka“. heslo LEMMA háček VZOR hrad heslo LEMMA háček VZOR pán vzor VZOR hrad ČÍSLO množné PÁD nominativ KONCOVKA y vzor VZOR pán ČÍSLO množné PÁD nominativ KONCOVKA i | ové

http:// Morfologická syntéza pomocí unifikace Unifikací k sobě pasujících struktur „heslo“, „vzor“ a „značka“ vznikne struktura „tvar“. tvar LEMMA háček VZOR hrad | pán ČÍSLO množné PÁD nominativ KONCOVKA y | i | ové

http:// Morfologická syntéza pomocí unifikace: poznámky Unifikace se podobá databázovým operacím. Sama neříká, jak ze struktury „tvar“ vznikne slovní tvar. Pravidlo: výstup = tvar.lemma + tvar.koncovka Zesložitění pravidla, aby řešilo fonologicky podmíněné změny (na to už je unifikace nevhodná): místo *háčeky, *háčeki, *háčekové chceme háčky, háčci, háčkové

http:// Morfologická analýza pomocí unifikace Neunifikační část: najít všechny možné afixy, které lze ve slově vidět  množina struktur „tvar“. Které afixy (koncovky) existují, víme ze struktur typu „vzor“. Vyřešit (nějak) změny kmenových souhlásek, palatalizaci apod. Pak už lze postupovat opačně k syntéze: unifikovat tvar se vzorem, a výsledek se slovníkem. Co se ve slovníku skutečně najde, patří do analýzy. –např. běžím=běžet(trpět)+osoba(1),  běží(stavení)+pád(7)

http:// DATR Formalismus a nástroj pro morfologii založený na strukturách rysů a dědičnosti (viz objektové programování) Např. struktura pro vzor hrad má nějaké koncovky, struktura pro podvzor les vše zdědí, ale některé koncovky předefinuje. Podrobnosti — Daffyd Gibbon, Universität Bielefeld,