Parsing with a Statistical Dependency Model Daniel Zeman http://ckl.mff.cuni.cz/~zeman/ 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Syntaktická analýza s využitím statistického modelu závislostí Daniel Zeman http://ckl.mff.cuni.cz/~zeman/ 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Cíl disertační práce Vybudovat co nejúspěšnější parser češtiny Statistické jádro (černá skříňka). Omezení (pravidla) usměrňující statistiku (snaha zprůhlednit černou skříňku). Zdokumentovat přínos jednotlivých omezení pro úspěšnost analýzy. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Cíl parseru Pro větu v přirozeném jazyce vyprodukovat závislostní strukturu. „Věta“ = slova + morfologické značky Nepokoušíme se o analytické funkce aj. Jakou strukturu? Konzistentní s treebankem. Předpoklad: treebank konzistentní sám o sobě. Konkrétně PDT, analytická rovina. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Formulace úlohy Píše dopis svému příteli . Píše dopis svému příteli . VB-S---3P-AA-- VeYS------A--- NNIS1-----A--- NNIS4-----A--- P8ZS3---------- NNMS3-----A--- NNMS5-----A--- NNMS6-----A--- Z:------ Píše dopis svému příteli . 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Formulace úlohy Píše dopis svému příteli . 1 4 Píše dopis svému 1 4 Píše dopis svému příteli . 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Úspěšnost Standardní měřítko úspěchu: procento správně přiřazených odkazů na rodiče. Vždy existuje právě jeden správný rodič. Vědomě ignorujeme možnost, že věta může mít více interpretací. Přehnaně robustní: neexistují negramatické věty. Správný rodič = ruční anotace treebanku. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Startovní čára Náhodné závislosti: 10,6 % Deštníkový strom: 11,6 % poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 % Obrácená jednička: 30 % 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Pravděpodobnost závislosti V trénovacích datech projít všechny dvojice řídící – závislý uzel. Pamatovat si počty výskytů slov / lemmat / značek pro každou takovou dvojici uzlů. Jev značíme D(řídící, závislý). Četnost jevu: Č(řídící, závislý). Pravděpodobnost: P(řídící, závislý). 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Pravděpodobnost závislosti příklad Č(republika, česká) = 56 P(republika, česká) = 2,2×10-5 Č(reprezentanti, republik) = 1 P(reprezentanti, republik) = 3,9×10-7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Porovnávání závislostí Lexikalizované – podle tvarů nebo lemmat. Podle morfologických značek: P(země, evropské) = P(myšlenky, zelené) = P(NNFP1-----A----, AAFP1----1A----) Zatím předpokládáme nelexikalizovaný model. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Zdroj morfologických značek Slovník (morfologická analýza bez zjednoznačnění) Ruční anotace Automatický tagger (zatím nejlepší, co umíme) Parser si zjednoznačňuje sám (ideál) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Směr a délka závislosti Zohlednit směr L … zprava doleva (řídící uzel napravo od závislého) P … zleva doprava Zohlednit vzdálenost B … blízko (řídící je soused závislého) D … daleko (nejsou sousedé) , … daleko a navíc je mezi nimi alespoň jedna čárka 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Příklad Č(byl, někomu, P, D) = 36 Č(byl, někomu, P, B) = 19 Č(byl, někomu, L, čárka) = 6 Č(byl, někomu, P, čárka) = 1 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Budování stromu Viterbi apod. minimální zlepšení úspěšnosti zřetelné zpomalení výpočtu. Nakonec nejlepší výsledky s hladovým algoritmem (vždy vzít nejpravděpodobnější závislost z povolených). 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Které závislosti jsou povolené? Výsledek musí být strom (malinko diskutabilní požadavek!) Musí být projektivní (případné neprojektivity se řeší jako zvláštní případy) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Redukce sady značek Data jsou řídká (některé závislosti vůbec neuvidíme) Obrana: zjednodušit vstup o méně významné informace Např.: nebrat ohled na stylistický odstín, sjednotit značky AAMS1----1A---6 a AAMS1----1A----. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Redukce sady značek Model 1: ručně navržená redukční pravidla (styl, zápor, stupeň u A a D atd.) 1279 značek 452 značek Model 2: viz též Collins et al., 1999 (pouze slovní druh a pád, není-li pád, tak poddruh): N1, VB, Z: nová sada má 58 značek 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Lexikalizace Klasicky: interpolace mezi lexikalizovaným a nelexikalizovaným modelem Neexistuje λ, pro kterou by taková lexikalizace byla přínosem! Na PDT lze ukázat, že potenciál není velký. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Selektivní lexikalizace U vybraných kategorií slov přilepit lemma nebo tvar přímo ke značce: Rna, Jže, Z!, Vbyl, Dvíce Opět vzroste počet značek, ale: ne do původní velikosti cíleně tam, kde je to užitečné 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Využití valenčních rámců Seznam požadovaných vazeb (zvýhodnit sloveso v konkurenci jiných sloves při boji o doplnění) Vzájemná slučitelnost dětí jednoho slovesa (rámec jako celek) Pravděpodobnost rámce (něco jiného než pravděpodobnost závislosti) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Přínos valencí pro parser Nakonec malý Jen málo případů, kdy se může uplatnit rozdíl mezi rámci a prostým modelem závislostí Je obtížné efektivně využít Zvýhodňování valenčních závislostí Backtracking, když se zjistí, že není naplněna valence 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Závislost a koordinace Závislost = index rodiče „Skutečná závislost“ = závislost vyjadřující podřízenost Koordinace = vztah mezi sourozenci, simulovaný s použitím závislostí „skutečná“ koordinace apozice 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Zpracování koordinací čeští učitelé studenti a …_Co Atr 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Zpracování koordinací Problémy Rodič koordinace neví nic o typu koordinovaných uzlů Členy koordinace nevědí nic o svých sourozencích Přeskládání koordinací Např. kořenem koordinace je její první člen Nepomohlo 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Zpracování koordinací Pravděpodobnost, koordinace dvou uzlů Např. PCoord(N1, N4) Pravděpodobnost, že určité lemma funguje jako koordinační spojka Např. u „a“ je to přes 90 % výskytů Čárky a vícečetné koordinace Po rozhodnutí o koordinaci doplnit do jejího kořene značku prvního člena 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
74,7 % Úspěšnost (74,9 % na kontrolní sadě) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Úspěšnost podle délky věty Délka Vět Slov Úspěšnost 1 – 10 2363 14334 84,8 75,7 11 – 20 2727 41819 77,0 21 – 40 2125 57970 72,4 41+ 255 12360 66,4 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Větná úspěšnost 21,0 % vět, ve kterých jsou všechny závislosti správné. 32,1 % totéž, váženo délkou věty. Nejdelší věta, která je celá správně, má 32 slov. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Přesnost a úplnost Nenavrhovat závislosti, které nejsou dost dobré. Navrhnout více než 1 závislost, jestliže ta nejlepší není o dost lepší než druhá v pořadí. P = (správně navržených) / (navržených) R = (správně navržených) / (slov v datech) F = 2PR / (P+R) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Přesnost a úplnost Pokus 1: Vynechat závislost viděnou < 10× Pokus 2: Závislosti d1 a d2 mají váhy w1 a w2. Jestliže přidáváme d1 a platí w2 0,9 w1, přidat i d2. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Přesnost a úplnost Přesnost Úplnost F Model 2 74,7 P1: ne všechny 78,3 66,6 72,0 P2: některé navíc 71,6 75,9 73,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Různé druhy chyb Pred, Pred_Pa 77,9 81,8 Sb 81,9 Obj, ObjAtr, Obj_Pa 83,1 Pnom 83,7 Adv, AdvAtr, Adv_Pa 88,1 AuxP 67,2 AuxC 60,1 Atr* 87,1 Atv, AtvV 40,0 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Různé druhy chyb *_Ap 30,0 42,7 *_Co 47,5 Apos, Apos_Pa 30,4 Coord, Coord_Pa 35,6 AuxR, AuxT, AuxV 87,4 74,2 AuxG, AuxO, AuxX, AuxY, AuxY_Pa, AuxZ, AuxZ_Pa 57,4 AuxK, AuxK_Pa 96,8 ExD, ExD_Pa 68,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Úspěšnost v závislosti na velikosti trénovacích dat Tr. vět Tr. slov Událostí MB Úspěšnost 1000 14080 83475 1,7 66,8 10000 151205 581834 13 71,5 25000 411706 1417306 31 73,4 50000 848922 2506040 55 74,3 73088 1255590 3448365 76 74,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Různé parsery pro češtinu Autor Úspěšnost dz Daniel Zeman 74,7 ec Eugene Charniak 84,3 mc Michael Collins 82,5 zž Zdeněk Žabokrtský 75,2 th-pshrt Tomáš Holan 62,8 th-l2r 69,9 th-r2l 71,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Kombinace tří Kdo má pravdu Počet závislostí % ec 5411 4,3 mc 3458 2,7 dz 2722 2,2 všichni 83080 65,9 většina 104815 83,2 aspoň jeden 116406 92,4 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Výsledky kombinace Metoda D-test Část d-testu ec 84,3 85,0 většina nebo ec 85,5 86,2 kontext (m-značky) NA 86,3 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Nevyvážené skládání parserů Brill a Hladká (Hajič et al.) 1998 Do výsledku zahrnout ty závislosti, pro které hlasovala alespoň polovina parserů. Některé uzly nedostanou rodiče. => už nevystačíme s jedinou veličinou (úspěšnost), ale potřebujeme dvě: přesnost a úplnost (en: precision and recall) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext 86,3 nevyváženě bez kontext 89,5 84,0 86,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Kombinace sedmi Kdo má pravdu Počet závislostí ec 1976 zž 1388 mc 1081 thr2l 500 thpshrt 499 dz 466 thl2r 395
Kombinace sedmi Kdo má pravdu Jak často všechny parsery 43,4 % alespoň polovina 77,7 % většina nebo ec 84,7 % většina, ec+2, mc+2, ec 85,3 % alespoň jeden 95,9 % 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext 85,8 nevyváženě bez kontext 90,7 78,6 84,2 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Statistická významnost Rozdíl mezi úspěšností superparseru a ec je statisticky významný na úrovni p=0,001. Wilcoxonův test, 29 vzorků po 250 větách Po celých testovacích datech je rozdíl kladný (= konzistentní zlepšení). Totéž až na tři výjimky platí i pro 146 vzorků po 50 větách. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Závěr Úspěšnost Modelu Dva: 74,7 % (74,9 % e-test data). Vyvážený superparser zlepší Charniaka z 84,3 na 85,5. Na podmnožině z 85,0 na 86,2, s využitím kontextu dále na 86,3. Nevyvážený zlepší F z 85,0 na 86,7. Kombinací 7 parserů lze dosáhnout přesnosti přes 90 %. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/
Směry dalšího výzkumu Pravděpodobné rezervy Modelu Dva: kontext sourozenců, současné sledování podstromu o více než 2 uzlech, DOP-like model koordinace a apozice 13.1.2005 http://ckl.mff.cuni.cz/~zeman/