MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK
Morfologie češtiny homonymie aneb nejednoznačnosti Šel podle lesa. x Choval se podle. přídavná jména typu jarní
Morče studentský projekt jazyk C, platforma Linux
Smysl morfologické analýzy zpracování textů přirozeného jazyka budování korpusů automatické překlady, slovníky…
Morfologické značkování – vstupní data
Morfologické značkování - požadovaný výsledek tzv. desambiguace průměrně 3,7 značek na slovo úspěšnost pro češtinu kolem 94 %
Algoritmus skrytý Markovův model → učící se algoritmus (trénovací a testovací data) průměrovaný perceptron hlavní parametr: sada rysů Rys: částečný popis situace v textu, předpověď aktuální značky na základě kontextu
Příklady rysů aktuální značka je AAMP4----1A---- předcházející značka je ClXP4---------- a aktuální značka je AAMP4----1A---- aktuální slovo je „hlavní“ a aktuální značka je AAMP4----1A---- aktuální slovo je třetí ve větě a aktuální značka je AAMP4----1A---- aktuální slovo začíná malým písmenem a aktuální značka je AAMP4----1A----
HMM převod jedné sekvence dat na jinou omezená historie váhy pro přechody - trénování
Průměrovaný perceptron váhové koeficienty odpovídající rysům trénovací funkce velmi jednoduchá důsledek: větší rychlost při zachování úspěšnosti
Ruční vývoj verzí verze = sada rysů stovky experimentů důkladný popis verzí a vztahů mezi nimi
Vlastnosti průměrovaného perceptronu nesnáší zahlcení nesnáší komplikované rysy některé rysy si „nezdravě“ konkurují nepotřebuje mnoho iterací
Srovnání úspěšností METODA ÚSPĚŠNOST HMM s přihrádkováním + pravidla[3] 95.38% HMM s přihrádkováním[3] 95.16% MORČE 94.69% Exponential, VTC[2] 93.80% Exponential[2] 92.00% Bigram HMM[2] 81.54% Trigram HMM[2] 81.14% Rule-based (Brill’s) [2] 79.75% Unigram HMM [2] 65.70%
Srovnání rychlostí TYP METODY RYCHLOST TRĚNOVÁNÍ RYCHLOST TESTOVÁNÍ (slova za sekundu) HMM řádově hodiny 500 Exponential měsíc 1500 MORČE 2 hodiny 1222
Pokračování…