Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

MorČe morfologické značkování češtiny

Podobné prezentace


Prezentace na téma: "MorČe morfologické značkování češtiny"— Transkript prezentace:

1 MorČe morfologické značkování češtiny
Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK

2 Morfologie češtiny homonymie aneb nejednoznačnosti
Šel podle lesa. x Choval se podle. přídavná jména typu jarní

3 Morče studentský projekt jazyk C, platforma Linux

4 Smysl morfologické analýzy
zpracování textů přirozeného jazyka budování korpusů automatické překlady, slovníky…

5 Morfologické značkování – vstupní data

6 Morfologické značkování - požadovaný výsledek
tzv. desambiguace průměrně 3,7 značek na slovo úspěšnost pro češtinu kolem 94 %

7 Algoritmus skrytý Markovův model
→ učící se algoritmus (trénovací a testovací data) průměrovaný perceptron hlavní parametr: sada rysů Rys: částečný popis situace v textu, předpověď aktuální značky na základě kontextu

8 Příklady rysů aktuální značka je AAMP4----1A----
předcházející značka je ClXP a aktuální značka je AAMP4----1A---- aktuální slovo je „hlavní“ a aktuální značka je AAMP4----1A---- aktuální slovo je třetí ve větě a aktuální značka je AAMP4----1A---- aktuální slovo začíná malým písmenem a aktuální značka je AAMP4----1A----

9 HMM převod jedné sekvence dat na jinou omezená historie
váhy pro přechody - trénování

10 Průměrovaný perceptron
váhové koeficienty odpovídající rysům trénovací funkce velmi jednoduchá důsledek: větší rychlost při zachování úspěšnosti

11 Ruční vývoj verzí verze = sada rysů stovky experimentů
důkladný popis verzí a vztahů mezi nimi

12 Vlastnosti průměrovaného perceptronu
nesnáší zahlcení nesnáší komplikované rysy některé rysy si „nezdravě“ konkurují nepotřebuje mnoho iterací

13 Srovnání úspěšností METODA ÚSPĚŠNOST
HMM s přihrádkováním + pravidla[3] 95.38% HMM s přihrádkováním[3] 95.16% MORČE 94.69% Exponential, VTC[2] 93.80% Exponential[2] 92.00% Bigram HMM[2] 81.54% Trigram HMM[2] 81.14% Rule-based (Brill’s) [2] 79.75% Unigram HMM [2] 65.70%

14 Srovnání rychlostí TYP METODY RYCHLOST TRĚNOVÁNÍ RYCHLOST TESTOVÁNÍ
(slova za sekundu) HMM řádově hodiny 500 Exponential měsíc 1500 MORČE 2 hodiny 1222

15 Pokračování…


Stáhnout ppt "MorČe morfologické značkování češtiny"

Podobné prezentace


Reklamy Google