Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK.

Podobné prezentace


Prezentace na téma: "MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK."— Transkript prezentace:

1 MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK

2 Morfologie češtiny homonymie aneb nejednoznačnosti Šel podle lesa. x Choval se podle. přídavná jména typu jarní

3 Morče studentský projekt jazyk C, platforma Linux

4 Smysl morfologické analýzy zpracování textů přirozeného jazyka budování korpusů automatické překlady, slovníky…

5 Morfologické značkování – vstupní data

6 Morfologické značkování - požadovaný výsledek tzv. desambiguace průměrně 3,7 značek na slovo úspěšnost pro češtinu kolem 94 %

7 Algoritmus skrytý Markovův model → učící se algoritmus (trénovací a testovací data) průměrovaný perceptron hlavní parametr: sada rysů Rys: částečný popis situace v textu, předpověď aktuální značky na základě kontextu

8 Příklady rysů aktuální značka je AAMP4----1A---- předcházející značka je ClXP a aktuální značka je AAMP4----1A---- aktuální slovo je „hlavní“ a aktuální značka je AAMP4----1A---- aktuální slovo je třetí ve větě a aktuální značka je AAMP4----1A---- aktuální slovo začíná malým písmenem a aktuální značka je AAMP4----1A----

9 HMM převod jedné sekvence dat na jinou omezená historie váhy pro přechody - trénování

10 Průměrovaný perceptron váhové koeficienty odpovídající rysům trénovací funkce velmi jednoduchá důsledek: větší rychlost při zachování úspěšnosti

11 Ruční vývoj verzí verze = sada rysů stovky experimentů důkladný popis verzí a vztahů mezi nimi

12 Vlastnosti průměrovaného perceptronu nesnáší zahlcení nesnáší komplikované rysy některé rysy si „nezdravě“ konkurují nepotřebuje mnoho iterací

13 Srovnání úspěšností METODAÚSPĚŠNOST HMM s přihrádkováním + pravidla[3]95.38% HMM s přihrádkováním[3]95.16% MORČE94.69% Exponential, VTC[2]93.80% Exponential[2]92.00% Bigram HMM[2]81.54% Trigram HMM[2]81.14% Rule-based (Brill’s) [2]79.75% Unigram HMM [2]65.70%

14 Srovnání rychlostí TYP METODYRYCHLOST TRĚNOVÁNÍ RYCHLOST TESTOVÁNÍ (slova za sekundu) HMMřádově hodiny500 Exponentialměsíc1500 MORČE2 hodiny1222

15 Pokračování…


Stáhnout ppt "MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK."

Podobné prezentace


Reklamy Google