Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
ZveřejnilMikuláš Hruda
1
18.10.2004http://ufal.mff.cuni.cz/~zeman/1 Parsing with a Statistical Dependency Model Daniel Zeman http://ufal.mff.cuni.cz/~zeman/
2
18.10.2004http://ufal.mff.cuni.cz/~zeman/2 Úvod Původně obhajoba disertační práce, upraveno jen lehce Podrobnější pohled do nitra parseru Ukázky z Pražského závislostního korpusu (PDT)
3
18.10.2004http://ufal.mff.cuni.cz/~zeman/3 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
4
18.10.2004http://ufal.mff.cuni.cz/~zeman/4 Cíl parseru Pro větu v přirozeném jazyce vyprodukovat závislostní strukturu. –„Věta“ = slova + morfologické značky –Nepokoušíme se o analytické funkce aj. Jakou strukturu? Konzistentní s treebankem. –Předpoklad: treebank konzistentní sám o sobě. –Konkrétně PDT, analytická rovina.
5
18.10.2004http://ufal.mff.cuni.cz/~zeman/5 Formulace úlohy parse: S 2 N –W … množina všech slov –M … množina všech morfologických značek –S … množina všech posloupností dvojic (w;m), kde w W, m 2 M (morfologicky analyzovaných vět) –N … množina přirozených čísel
6
18.10.2004http://ufal.mff.cuni.cz/~zeman/6 Formulace úlohy Píšedopissvémupříteli. VB-S---3P-AA-- VeYS------A--- NNIS1-----A--- NNIS4-----A--- P8ZS3----------NNMS3-----A--- NNMS5-----A--- NNMS6-----A--- Z:------ Píše dopis svému příteli.
7
18.10.2004http://ufal.mff.cuni.cz/~zeman/7 Formulace úlohy Píšedopissvémupříteli. 01410 Píše dopis svému příteli.
8
18.10.2004http://ufal.mff.cuni.cz/~zeman/8 Závislost a koordinace Závislost = index rodiče –„Skutečná závislost“ = závislost vyjadřující podřízenost –Koordinace = vztah mezi sourozenci, simulovaný s použitím závislostí „skutečná“ koordinace apozice
9
18.10.2004http://ufal.mff.cuni.cz/~zeman/9 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
10
18.10.2004http://ufal.mff.cuni.cz/~zeman/10 Úspěšnost Standardní měřítko úspěchu: procento správně přiřazených odkazů na rodiče. Vždy existuje právě jeden správný rodič. –Vědomě ignorujeme možnost, že věta může mít více interpretací. –Přehnaně robustní: neexistují negramatické věty. Správný rodič = ruční anotace treebanku.
11
18.10.2004http://ufal.mff.cuni.cz/~zeman/11 Pražský závislostní korpus (PDT) 1 255 590 trénovacích slov (tokenů) 73 088 neprázdných trénovacích vět 126 030 testovacích slov (tokenů) 7319 testovacích vět evaluation test data
12
18.10.2004http://ufal.mff.cuni.cz/~zeman/12 Pražský závislostní korpus (PDT) 1 255 590 trénovacích slov (tokenů) 73 088 neprázdných trénovacích vět 126 030 testovacích slov (tokenů) 7319 testovacích vět 74,7 % = 94 112 správných rodičů (každý strom má umělý kořen) evaluation test data
13
18.10.2004http://ufal.mff.cuni.cz/~zeman/13 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
14
18.10.2004http://ufal.mff.cuni.cz/~zeman/14 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly
15
18.10.2004http://ufal.mff.cuni.cz/~zeman/15 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 %
16
18.10.2004http://ufal.mff.cuni.cz/~zeman/16 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 %
17
18.10.2004http://ufal.mff.cuni.cz/~zeman/17 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 %
18
18.10.2004http://ufal.mff.cuni.cz/~zeman/18 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 % Obrácená jednička: 30 %
19
18.10.2004http://ufal.mff.cuni.cz/~zeman/19 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
20
18.10.2004http://ufal.mff.cuni.cz/~zeman/20 Pravděpodobnost závislosti V trénovacích datech projít všechny dvojice řídící – závislý uzel. Pamatovat si počty výskytů slov / lemmat / značek pro každou takovou dvojici uzlů. –Jev značíme D(řídící, závislý). –Četnost jevu: Č(řídící, závislý). –Pravděpodobnost: P(řídící, závislý).
21
18.10.2004http://ufal.mff.cuni.cz/~zeman/21 Pravděpodobnost závislosti příklad Č(republika, česká) = 56 P(republika, česká) = 2,2×10 -5 Č(reprezentanti, republik) = 1 P(reprezentanti, republik) = 3,9×10 -7
22
18.10.2004http://ufal.mff.cuni.cz/~zeman/22 Pravděpodobnost stromu (závislostní struktury) P((2,8,5,3,2,8,9,0,8,9,0) | „Studenti mají o jazyky zájem, fakultě však chybí angličtináři.“) = P(mají, studenti) × P(však, mají) × P(zájem, o) × P(o, jazyky) × P(mají, zájem) × P(však,,) × P(chybí, fakultě) × …
23
18.10.2004http://ufal.mff.cuni.cz/~zeman/23 Podmíněná pravděpodobnost závislosti Nepodmíněná: relativní četnost závislosti mezi všemi závislostmi ve vesmíru –P(republika, česká) Podmíněná: jen mezi závislostmi se stejným závislým uzlem –P(republika, česká | česká) Obojí je zjednodušení skutečnosti Podmíněná dává lepší výsledky
24
18.10.2004http://ufal.mff.cuni.cz/~zeman/24 Deficitní model Značná část pravděpodobnosti připadá na nestromy, stromy pro jiné věty atd. Nevadí to! Takovým strukturám se umíme vyhnout, jde nám jen o hodnocení těch, které zbudou!
25
18.10.2004http://ufal.mff.cuni.cz/~zeman/25 Porovnávání závislostí Lexikalizované – podle tvarů nebo lemmat. Podle morfologických značek: P(země, evropské) = P(myšlenky, zelené) = P( NNFP1-----A----, AAFP1----1A---- )
26
18.10.2004http://ufal.mff.cuni.cz/~zeman/26 Zdroj morfologických značek Slovník (morfologická analýza bez zjednoznačnění) Ruční anotace Automatický tagger (zatím nejlepší, co umíme) Parser si zjednoznačňuje sám (ideál)
27
18.10.2004http://ufal.mff.cuni.cz/~zeman/27 Porovnávání závislostí 2 Zohlednit směr –L … zprava doleva (řídící uzel napravo od závislého) –P … zleva doprava Zohlednit vzdálenost –B … blízko (řídící je soused závislého) –D … daleko (nejsou sousedé) –, … daleko a navíc je mezi nimi alespoň jedna čárka
28
18.10.2004http://ufal.mff.cuni.cz/~zeman/28 Příklad Č(byl, někomu, P, D) = 36 Č(byl, někomu, P, B) = 19 Č(byl, někomu, L, čárka) = 6 Č(byl, někomu, P, čárka) = 1
29
18.10.2004http://ufal.mff.cuni.cz/~zeman/29 Budování stromu Nakonec nejlepší výsledky s hladovým algoritmem (vždy vzít nejpravděpodobnější závislost z povolených). Viterbi (N nejlepších) apod.: minimální zlepšení úspěšnosti, zřetelné zpomalení výpočtu.
30
18.10.2004http://ufal.mff.cuni.cz/~zeman/30 Které závislosti jsou povolené? Výsledek musí být strom (malinko diskutabilní požadavek!) Musí být projektivní (případné neprojektivity se řeší jako zvláštní případy)
31
18.10.2004http://ufal.mff.cuni.cz/~zeman/31 Bohužel Unfortunately ale however jednorázové whole amount at once, takže so velkou large část part spolknou swallow daně taxes. Bohužel Unfortunately ale however jednorázové whole amount at once, takže so velkou large část part spolknou swallow daně taxes.
32
18.10.2004http://ufal.mff.cuni.cz/~zeman/32 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
33
18.10.2004http://ufal.mff.cuni.cz/~zeman/33 Redukce sady značek Data jsou řídká (některé závislosti vůbec neuvidíme) Obrana: zjednodušit vstup o méně významné informace Např.: nebrat ohled na stylistický odstín, sjednotit značky AAMS1----1A---6 a AAMS1----1A----.
34
18.10.2004http://ufal.mff.cuni.cz/~zeman/34 Redukce sady značek Model 1: ručně navržená redukční pravidla (styl, zápor, stupeň u A a D atd.) –1279 značek 452 značek Model 2: viz též Collins et al., 1999 (pouze slovní druh a pád, není-li pád, tak poddruh): N1, VB, Z: –nová sada má 58 značek
35
18.10.2004http://ufal.mff.cuni.cz/~zeman/35 Lexikalizace Klasicky: interpolace mezi lexikalizovaným a nelexikalizovaným modelem Neexistuje λ, pro kterou by taková lexikalizace byla přínosem! Na PDT lze ukázat, že potenciál není velký.
36
18.10.2004http://ufal.mff.cuni.cz/~zeman/36 Selektivní lexikalizace U vybraných kategorií slov přilepit lemma nebo tvar přímo ke značce: Rna, Jže, Z!, Vbyl, Dvíce Opět vzroste počet značek, ale: –ne do původní velikosti –cíleně tam, kde je to užitečné
37
18.10.2004http://ufal.mff.cuni.cz/~zeman/37 Plodnost uzlu Některá slova preferují konkrétní počet dětí. Pravděpodobnost, že daný uzel má více dětí, než už jsme mu přisoudili. Zpočátku pomáhalo, ve finální verzi ne
38
18.10.2004http://ufal.mff.cuni.cz/~zeman/38 Využití valenčních rámců Seznam požadovaných vazeb (zvýhodnit sloveso v konkurenci jiných sloves při boji o doplnění) Vzájemná slučitelnost dětí jednoho slovesa (rámec jako celek) Pravděpodobnost rámce (něco jiného než pravděpodobnost závislosti)
39
18.10.2004http://ufal.mff.cuni.cz/~zeman/39 Přínos valencí pro parser Nakonec malý –Jen málo případů, kdy se může uplatnit rozdíl mezi rámci a prostým modelem závislostí –Je obtížné efektivně využít Zvýhodňování valenčních závislostí Backtracking, když se zjistí, že není naplněna valence
40
18.10.2004http://ufal.mff.cuni.cz/~zeman/40 Délka závislosti podruhé Dosud: rozlišujeme blízké, daleké a s čárkou. Nyní navíc: váhu (pravděpodobnost) závislosti vydělit vzdáleností řídícího uzlu od závislého: P(ř, z) /= abs(ř-z)
41
18.10.2004http://ufal.mff.cuni.cz/~zeman/41 Zpracování koordinací češtíučiteléstudenti a …_Co Atr
42
18.10.2004http://ufal.mff.cuni.cz/~zeman/42 Zpracování koordinací Problémy –Rodič koordinace neví nic o typu koordinovaných uzlů –Členy koordinace nevědí nic o svých sourozencích Přeskládání koordinací –Např. kořenem koordinace je její první člen –Nepomohlo
43
18.10.2004http://ufal.mff.cuni.cz/~zeman/43 Zpracování koordinací Pravděpodobnost, koordinace dvou uzlů –Např. P Coord (N1, N4) Pravděpodobnost, že určité lemma funguje jako koordinační spojka –Např. u „a“ je to přes 90 % výskytů Čárky a vícečetné koordinace Po rozhodnutí o koordinaci doplnit do jejího kořene značku prvního člena
44
18.10.2004http://ufal.mff.cuni.cz/~zeman/44 Krátké věty Brno(jak)–
45
18.10.2004http://ufal.mff.cuni.cz/~zeman/45 Krátké věty
46
18.10.2004http://ufal.mff.cuni.cz/~zeman/46 Krátké věty Věty délky 2 až 8 Morfologické vzory (posloupnosti značek) Pokud více než t % výskytů vzoru mělo stejnou strukturu, a pokud se vzor vyskytl více než N×, přiřadit strukturu větě. Zobecnění: n-tice po sobě jdoucích slov ve větě
47
18.10.2004http://ufal.mff.cuni.cz/~zeman/47 Krátké věty – problémy Vladimír Mišauer,Bratislava a) Vladimír Mišauer, Bratislava b) Vladimír Mišauer, Bratislava c) Vladimír Mišauer,Bratislava d)
48
18.10.2004http://ufal.mff.cuni.cz/~zeman/48 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
49
18.10.2004http://ufal.mff.cuni.cz/~zeman/49 Neprojektivity 1,9 % slov je zavěšeno neprojektivně Polovina z nich kvůli technickým neprojektivitám
50
18.10.2004http://ufal.mff.cuni.cz/~zeman/50 Neprojektivní -li Pohlédnem Look - li if pak then na at celou whole problematiku problem z from tohoto this úhlu angle, je is Figure
51
18.10.2004http://ufal.mff.cuni.cz/~zeman/51 Neprojektivně zavěšené rematizátory u předložek až up k to nečitelnosti illegibility
52
18.10.2004http://ufal.mff.cuni.cz/~zeman/52 Neprojektivity u infinitivů Bude Will to it muset must udělat do hned at once.
53
18.10.2004http://ufal.mff.cuni.cz/~zeman/53 Neprojektivity v uzávorkovaných větách | Kontakt: Ekonomická fakulta v Chebu, Hradební 22, 350 01 Cheb. | –Tečka visí na kořeni (uzlu 0) –Obě svislítka visí na slovesu, nebo – zde – na dvojtečce mezi „kontakt“ a „fakulta“
54
18.10.2004http://ufal.mff.cuni.cz/~zeman/54 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
55
18.10.2004http://ufal.mff.cuni.cz/~zeman/55 Úspěšnost 74,7 %
56
18.10.2004http://ufal.mff.cuni.cz/~zeman/56 Úspěšnost podle délky věty Length# Sentences# WordsAccuracy 1 – 1023631433484.8 75.7 11 – 2027274181977.0 21 – 4021255797072.4 41+2551236066.4
57
18.10.2004http://ufal.mff.cuni.cz/~zeman/57 Větná úspěšnost 21,0 % vět, ve kterých jsou všechny závislosti správné. 32,1 % totéž, váženo délkou věty. Nejdelší věta, která je celá správně, má 32 slov.
58
18.10.2004http://ufal.mff.cuni.cz/~zeman/58 Přesnost a úplnost Nenavrhovat závislosti, které nejsou dost dobré. Navrhnout více než 1 závislost, jestliže ta nejlepší není o dost lepší než druhá v pořadí. P = (správně navržených) / (navržených) R = (správně navržených) / (slov v datech) F = 2PR / (P+R)
59
18.10.2004http://ufal.mff.cuni.cz/~zeman/59 Přesnost a úplnost SettingPrecisionRecallF-measure Model Two74.7 Setting 178.366.672.0 Setting 271.675.973.7
60
18.10.2004http://ufal.mff.cuni.cz/~zeman/60 Různé druhy chyb Pred, Pred_Pa77,9 81,8 Sb81,9 Obj, ObjAtr, Obj_Pa83,1 Pnom83,7 Adv, AdvAtr, Adv_Pa88,1 AuxP67,2 AuxC60,1 Atr*87,1 Atv, AtvV40,0
61
18.10.2004http://ufal.mff.cuni.cz/~zeman/61 Různé druhy chyb *_Ap30,0 42,7 *_Co47,5 Apos, Apos_Pa30,4 Coord, Coord_Pa35,6 AuxR, AuxT, AuxV87,4 74,2 AuxG, AuxO, AuxX, AuxY, AuxY_Pa, AuxZ, AuxZ_Pa 57,4 AuxK, AuxK_Pa 96,8 ExD, ExD_Pa 68,7
62
18.10.2004http://ufal.mff.cuni.cz/~zeman/62 Úspěšnost v závislosti na velikosti trénovacích dat Tr. větTr. slovUdálostíMBÚspěšnost 100014080834751,766,8 100001512055818341371,5 2500041170614173063173,4 5000084892225060405574,3 73088125559034483657674,7
63
18.10.2004http://ufal.mff.cuni.cz/~zeman/63 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
64
18.10.2004http://ufal.mff.cuni.cz/~zeman/64 Různé parsery pro češtinu ParserAutorÚspěšnost dzDaniel Zeman74,7 ecEugene Charniak84,3 mcMichael Collins82,5 zžZdeněk Žabokrtský75,2 th-pshrt Tomáš Holan 62,8 th-l2r69,9 th-r2l71,7
65
18.10.2004http://ufal.mff.cuni.cz/~zeman/65 Kombinace tří Kdo má pravduPočet závislostí ec5411 mc3458 dz2722 všichni83080 (65,9 %) většina104815 (83,2 %) aspoň jeden116406 (92,4 %)
66
18.10.2004http://ufal.mff.cuni.cz/~zeman/66 Výsledky kombinace MetodaD-testČást ec84,385,0 balanced maj. or ec 85,586,2 kontext (m- značky) NA86,3
67
18.10.2004http://ufal.mff.cuni.cz/~zeman/67 Výsledky kombinace 2 MetodaPřesnostÚplnostF ec85,0 balanced, kontext 86,3 unbalanced, bezkontext 89,584,086,7
68
18.10.2004http://ufal.mff.cuni.cz/~zeman/68 Kombinace sedmi Kdo má pravduPočet závislostí ec1976 zž1388 mc1081 thr2l500 thpshrt499 dz466 thl2r395
69
18.10.2004http://ufal.mff.cuni.cz/~zeman/69 Kombinace sedmi Kdo má pravduPočet závislostí všechny parsery43,4 % aspoň polovina77,7 % ec nebo většina84,7 % většina, ec+2, mc+2, ec85,3 % aspoň jeden95,9 %
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.