Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Parsing with a Statistical Dependency Model

Podobné prezentace


Prezentace na téma: "Parsing with a Statistical Dependency Model"— Transkript prezentace:

1 Parsing with a Statistical Dependency Model
Daniel Zeman

2 Syntaktická analýza s využitím statistického modelu závislostí
Daniel Zeman

3 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

4 Cíl disertační práce Vybudovat co nejúspěšnější parser češtiny
Statistické jádro (černá skříňka). Omezení (pravidla) usměrňující statistiku (snaha zprůhlednit černou skříňku). Zdokumentovat přínos jednotlivých omezení pro úspěšnost analýzy.

5 Cíl parseru Pro větu v přirozeném jazyce vyprodukovat závislostní strukturu. „Věta“ = slova + morfologické značky Nepokoušíme se o analytické funkce aj. Jakou strukturu? Konzistentní s treebankem. Předpoklad: treebank konzistentní sám o sobě. Konkrétně PDT, analytická rovina.

6 Formulace úlohy Píše dopis svému příteli . Píše dopis svému příteli .
VB-S---3P-AA-- VeYS------A--- NNIS1-----A--- NNIS4-----A--- P8ZS NNMS3-----A--- NNMS5-----A--- NNMS6-----A--- Z:------ Píše dopis svému příteli .

7 Formulace úlohy Píše dopis svému příteli . 1 4 Píše dopis svému
1 4 Píše dopis svému příteli .

8 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

9 Úspěšnost Standardní měřítko úspěchu: procento správně přiřazených odkazů na rodiče. Vždy existuje právě jeden správný rodič. Vědomě ignorujeme možnost, že věta může mít více interpretací. Přehnaně robustní: neexistují negramatické věty. Správný rodič = ruční anotace treebanku.

10 Startovní čára Náhodné závislosti:  10,6 % Deštníkový strom: 11,6 %
poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 % Obrácená jednička: 30 %

11 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

12 Pravděpodobnost závislosti
V trénovacích datech projít všechny dvojice řídící – závislý uzel. Pamatovat si počty výskytů slov / lemmat / značek pro každou takovou dvojici uzlů. Jev značíme D(řídící, závislý). Četnost jevu: Č(řídící, závislý). Pravděpodobnost: P(řídící, závislý).

13 Pravděpodobnost závislosti příklad
Č(republika, česká) = 56 P(republika, česká) = 2,2×10-5 Č(reprezentanti, republik) = 1 P(reprezentanti, republik) = 3,9×10-7

14 Porovnávání závislostí
Lexikalizované – podle tvarů nebo lemmat. Podle morfologických značek: P(země, evropské) = P(myšlenky, zelené) = P(NNFP1-----A----, AAFP1----1A----) Zatím předpokládáme nelexikalizovaný model.

15 Zdroj morfologických značek
Slovník (morfologická analýza bez zjednoznačnění) Ruční anotace Automatický tagger (zatím nejlepší, co umíme) Parser si zjednoznačňuje sám (ideál)

16 Směr a délka závislosti
Zohlednit směr L … zprava doleva (řídící uzel napravo od závislého) P … zleva doprava Zohlednit vzdálenost B … blízko (řídící je soused závislého) D … daleko (nejsou sousedé) , … daleko a navíc je mezi nimi alespoň jedna čárka

17 Příklad Č(byl, někomu, P, D) = 36 Č(byl, někomu, P, B) = 19
Č(byl, někomu, L, čárka) = 6 Č(byl, někomu, P, čárka) = 1

18 Budování stromu Viterbi apod.
minimální zlepšení úspěšnosti zřetelné zpomalení výpočtu. Nakonec nejlepší výsledky s hladovým algoritmem (vždy vzít nejpravděpodobnější závislost z povolených).

19 Které závislosti jsou povolené?
Výsledek musí být strom (malinko diskutabilní požadavek!) Musí být projektivní (případné neprojektivity se řeší jako zvláštní případy)

20 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

21 Redukce sady značek Data jsou řídká (některé závislosti vůbec neuvidíme) Obrana: zjednodušit vstup o méně významné informace Např.: nebrat ohled na stylistický odstín, sjednotit značky AAMS1----1A---6 a AAMS1----1A----.

22 Redukce sady značek Model 1: ručně navržená redukční pravidla (styl, zápor, stupeň u A a D atd.) 1279 značek  452 značek Model 2: viz též Collins et al., 1999 (pouze slovní druh a pád, není-li pád, tak poddruh): N1, VB, Z: nová sada má 58 značek

23 Lexikalizace Klasicky: interpolace mezi lexikalizovaným a nelexikalizovaným modelem Neexistuje λ, pro kterou by taková lexikalizace byla přínosem! Na PDT lze ukázat, že potenciál není velký.

24 Selektivní lexikalizace
U vybraných kategorií slov přilepit lemma nebo tvar přímo ke značce: Rna, Jže, Z!, Vbyl, Dvíce Opět vzroste počet značek, ale: ne do původní velikosti cíleně tam, kde je to užitečné

25 Využití valenčních rámců
Seznam požadovaných vazeb (zvýhodnit sloveso v konkurenci jiných sloves při boji o doplnění) Vzájemná slučitelnost dětí jednoho slovesa (rámec jako celek) Pravděpodobnost rámce (něco jiného než pravděpodobnost závislosti)

26 Přínos valencí pro parser
Nakonec malý Jen málo případů, kdy se může uplatnit rozdíl mezi rámci a prostým modelem závislostí Je obtížné efektivně využít Zvýhodňování valenčních závislostí Backtracking, když se zjistí, že není naplněna valence

27 Závislost a koordinace
Závislost = index rodiče „Skutečná závislost“ = závislost vyjadřující podřízenost Koordinace = vztah mezi sourozenci, simulovaný s použitím závislostí „skutečná“ koordinace apozice

28 Zpracování koordinací
čeští učitelé studenti a …_Co Atr

29 Zpracování koordinací
Problémy Rodič koordinace neví nic o typu koordinovaných uzlů Členy koordinace nevědí nic o svých sourozencích Přeskládání koordinací Např. kořenem koordinace je její první člen Nepomohlo 

30 Zpracování koordinací
Pravděpodobnost, koordinace dvou uzlů Např. PCoord(N1, N4) Pravděpodobnost, že určité lemma funguje jako koordinační spojka Např. u „a“ je to přes 90 % výskytů Čárky a vícečetné koordinace Po rozhodnutí o koordinaci doplnit do jejího kořene značku prvního člena

31 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

32 74,7 % Úspěšnost (74,9 % na kontrolní sadě) 13.1.2005

33 Úspěšnost podle délky věty
Délka Vět Slov Úspěšnost 1 – 10 2363 14334 84,8 75,7 11 – 20 2727 41819 77,0 21 – 40 2125 57970 72,4 41+ 255 12360 66,4

34 Větná úspěšnost 21,0 % vět, ve kterých jsou všechny závislosti správné. 32,1 % totéž, váženo délkou věty. Nejdelší věta, která je celá správně, má 32 slov.

35 Přesnost a úplnost Nenavrhovat závislosti, které nejsou dost dobré.
Navrhnout více než 1 závislost, jestliže ta nejlepší není o dost lepší než druhá v pořadí. P = (správně navržených) / (navržených) R = (správně navržených) / (slov v datech) F = 2PR / (P+R)

36 Přesnost a úplnost Pokus 1: Vynechat závislost viděnou < 10×
Pokus 2: Závislosti d1 a d2 mají váhy w1 a w2. Jestliže přidáváme d1 a platí w2  0,9 w1, přidat i d2.

37 Přesnost a úplnost Přesnost Úplnost F Model 2 74,7 P1: ne všechny 78,3
66,6 72,0 P2: některé navíc 71,6 75,9 73,7

38 Různé druhy chyb Pred, Pred_Pa 77,9 81,8 Sb 81,9 Obj, ObjAtr, Obj_Pa
83,1 Pnom 83,7 Adv, AdvAtr, Adv_Pa 88,1 AuxP 67,2 AuxC 60,1 Atr* 87,1 Atv, AtvV 40,0

39 Různé druhy chyb *_Ap 30,0 42,7 *_Co 47,5 Apos, Apos_Pa 30,4
Coord, Coord_Pa 35,6 AuxR, AuxT, AuxV 87,4 74,2 AuxG, AuxO, AuxX, AuxY, AuxY_Pa, AuxZ, AuxZ_Pa 57,4 AuxK, AuxK_Pa 96,8 ExD, ExD_Pa 68,7

40 Úspěšnost v závislosti na velikosti trénovacích dat
Tr. vět Tr. slov Událostí MB Úspěšnost 1000 14080 83475 1,7 66,8 10000 151205 581834 13 71,5 25000 411706 31 73,4 50000 848922 55 74,3 73088 76 74,7

41 Osnova Cíle Způsob vyhodnocování, data Statistické jádro
Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů

42 Různé parsery pro češtinu
Autor Úspěšnost dz Daniel Zeman 74,7 ec Eugene Charniak 84,3 mc Michael Collins 82,5 Zdeněk Žabokrtský 75,2 th-pshrt Tomáš Holan 62,8 th-l2r 69,9 th-r2l 71,7

43 Kombinace tří Kdo má pravdu Počet závislostí % ec 5411 4,3 mc 3458 2,7
dz 2722 2,2 všichni 83080 65,9 většina 104815 83,2 aspoň jeden 116406 92,4

44 Výsledky kombinace Metoda D-test Část d-testu ec 84,3 85,0
většina nebo ec 85,5 86,2 kontext (m-značky) NA 86,3

45 Nevyvážené skládání parserů
Brill a Hladká (Hajič et al.) 1998 Do výsledku zahrnout ty závislosti, pro které hlasovala alespoň polovina parserů. Některé uzly nedostanou rodiče. => už nevystačíme s jedinou veličinou (úspěšnost), ale potřebujeme dvě: přesnost a úplnost (en: precision and recall)

46 Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext
86,3 nevyváženě bez kontext 89,5 84,0 86,7

47 Kombinace sedmi Kdo má pravdu Počet závislostí ec 1976 zž 1388 mc 1081
thr2l 500 thpshrt 499 dz 466 thl2r 395

48 Kombinace sedmi Kdo má pravdu Jak často všechny parsery 43,4 %
alespoň polovina 77,7 % většina nebo ec 84,7 % většina, ec+2, mc+2, ec 85,3 % alespoň jeden 95,9 %

49 Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext
85,8 nevyváženě bez kontext 90,7 78,6 84,2

50 Statistická významnost
Rozdíl mezi úspěšností superparseru a ec je statisticky významný na úrovni p=0,001. Wilcoxonův test, 29 vzorků po 250 větách Po celých testovacích datech je rozdíl kladný (= konzistentní zlepšení). Totéž až na tři výjimky platí i pro 146 vzorků po 50 větách.

51 Závěr Úspěšnost Modelu Dva: 74,7 % (74,9 % e-test data).
Vyvážený superparser zlepší Charniaka z 84,3 na 85,5. Na podmnožině z 85,0 na 86,2, s využitím kontextu dále na 86,3. Nevyvážený zlepší F z 85,0 na 86,7. Kombinací 7 parserů lze dosáhnout přesnosti přes 90 %.

52 Směry dalšího výzkumu Pravděpodobné rezervy Modelu Dva:
kontext sourozenců, současné sledování podstromu o více než 2 uzlech, DOP-like model koordinace a apozice


Stáhnout ppt "Parsing with a Statistical Dependency Model"

Podobné prezentace


Reklamy Google