http://ufal.mff.cuni.cz/~zeman/1 Parsing with a Statistical Dependency Model Daniel Zeman
http://ufal.mff.cuni.cz/~zeman/2 Úvod Původně obhajoba disertační práce, upraveno jen lehce Podrobnější pohled do nitra parseru Ukázky z Pražského závislostního korpusu (PDT)
http://ufal.mff.cuni.cz/~zeman/3 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/4 Cíl parseru Pro větu v přirozeném jazyce vyprodukovat závislostní strukturu. –„Věta“ = slova + morfologické značky –Nepokoušíme se o analytické funkce aj. Jakou strukturu? Konzistentní s treebankem. –Předpoklad: treebank konzistentní sám o sobě. –Konkrétně PDT, analytická rovina.
http://ufal.mff.cuni.cz/~zeman/5 Formulace úlohy parse: S 2 N –W … množina všech slov –M … množina všech morfologických značek –S … množina všech posloupností dvojic (w;m), kde w W, m 2 M (morfologicky analyzovaných vět) –N … množina přirozených čísel
http://ufal.mff.cuni.cz/~zeman/6 Formulace úlohy Píšedopissvémupříteli. VB-S---3P-AA-- VeYS------A--- NNIS1-----A--- NNIS4-----A--- P8ZS NNMS3-----A--- NNMS5-----A--- NNMS6-----A--- Z: Píše dopis svému příteli.
http://ufal.mff.cuni.cz/~zeman/7 Formulace úlohy Píšedopissvémupříteli Píše dopis svému příteli.
http://ufal.mff.cuni.cz/~zeman/8 Závislost a koordinace Závislost = index rodiče –„Skutečná závislost“ = závislost vyjadřující podřízenost –Koordinace = vztah mezi sourozenci, simulovaný s použitím závislostí „skutečná“ koordinace apozice
http://ufal.mff.cuni.cz/~zeman/9 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/10 Úspěšnost Standardní měřítko úspěchu: procento správně přiřazených odkazů na rodiče. Vždy existuje právě jeden správný rodič. –Vědomě ignorujeme možnost, že věta může mít více interpretací. –Přehnaně robustní: neexistují negramatické věty. Správný rodič = ruční anotace treebanku.
http://ufal.mff.cuni.cz/~zeman/11 Pražský závislostní korpus (PDT) trénovacích slov (tokenů) neprázdných trénovacích vět testovacích slov (tokenů) 7319 testovacích vět evaluation test data
http://ufal.mff.cuni.cz/~zeman/12 Pražský závislostní korpus (PDT) trénovacích slov (tokenů) neprázdných trénovacích vět testovacích slov (tokenů) 7319 testovacích vět 74,7 % = správných rodičů (každý strom má umělý kořen) evaluation test data
http://ufal.mff.cuni.cz/~zeman/13 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/14 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly
http://ufal.mff.cuni.cz/~zeman/15 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 %
http://ufal.mff.cuni.cz/~zeman/16 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 %
http://ufal.mff.cuni.cz/~zeman/17 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 %
http://ufal.mff.cuni.cz/~zeman/18 Startovní čára Náhodné závislosti: 10,6 % –poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 % Obrácená jednička: 30 %
http://ufal.mff.cuni.cz/~zeman/19 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/20 Pravděpodobnost závislosti V trénovacích datech projít všechny dvojice řídící – závislý uzel. Pamatovat si počty výskytů slov / lemmat / značek pro každou takovou dvojici uzlů. –Jev značíme D(řídící, závislý). –Četnost jevu: Č(řídící, závislý). –Pravděpodobnost: P(řídící, závislý).
http://ufal.mff.cuni.cz/~zeman/21 Pravděpodobnost závislosti příklad Č(republika, česká) = 56 P(republika, česká) = 2,2×10 -5 Č(reprezentanti, republik) = 1 P(reprezentanti, republik) = 3,9×10 -7
http://ufal.mff.cuni.cz/~zeman/22 Pravděpodobnost stromu (závislostní struktury) P((2,8,5,3,2,8,9,0,8,9,0) | „Studenti mají o jazyky zájem, fakultě však chybí angličtináři.“) = P(mají, studenti) × P(však, mají) × P(zájem, o) × P(o, jazyky) × P(mají, zájem) × P(však,,) × P(chybí, fakultě) × …
http://ufal.mff.cuni.cz/~zeman/23 Podmíněná pravděpodobnost závislosti Nepodmíněná: relativní četnost závislosti mezi všemi závislostmi ve vesmíru –P(republika, česká) Podmíněná: jen mezi závislostmi se stejným závislým uzlem –P(republika, česká | česká) Obojí je zjednodušení skutečnosti Podmíněná dává lepší výsledky
http://ufal.mff.cuni.cz/~zeman/24 Deficitní model Značná část pravděpodobnosti připadá na nestromy, stromy pro jiné věty atd. Nevadí to! Takovým strukturám se umíme vyhnout, jde nám jen o hodnocení těch, které zbudou!
http://ufal.mff.cuni.cz/~zeman/25 Porovnávání závislostí Lexikalizované – podle tvarů nebo lemmat. Podle morfologických značek: P(země, evropské) = P(myšlenky, zelené) = P( NNFP1-----A----, AAFP1----1A---- )
http://ufal.mff.cuni.cz/~zeman/26 Zdroj morfologických značek Slovník (morfologická analýza bez zjednoznačnění) Ruční anotace Automatický tagger (zatím nejlepší, co umíme) Parser si zjednoznačňuje sám (ideál)
http://ufal.mff.cuni.cz/~zeman/27 Porovnávání závislostí 2 Zohlednit směr –L … zprava doleva (řídící uzel napravo od závislého) –P … zleva doprava Zohlednit vzdálenost –B … blízko (řídící je soused závislého) –D … daleko (nejsou sousedé) –, … daleko a navíc je mezi nimi alespoň jedna čárka
http://ufal.mff.cuni.cz/~zeman/28 Příklad Č(byl, někomu, P, D) = 36 Č(byl, někomu, P, B) = 19 Č(byl, někomu, L, čárka) = 6 Č(byl, někomu, P, čárka) = 1
http://ufal.mff.cuni.cz/~zeman/29 Budování stromu Nakonec nejlepší výsledky s hladovým algoritmem (vždy vzít nejpravděpodobnější závislost z povolených). Viterbi (N nejlepších) apod.: minimální zlepšení úspěšnosti, zřetelné zpomalení výpočtu.
http://ufal.mff.cuni.cz/~zeman/30 Které závislosti jsou povolené? Výsledek musí být strom (malinko diskutabilní požadavek!) Musí být projektivní (případné neprojektivity se řeší jako zvláštní případy)
http://ufal.mff.cuni.cz/~zeman/31 Bohužel Unfortunately ale however jednorázové whole amount at once, takže so velkou large část part spolknou swallow daně taxes. Bohužel Unfortunately ale however jednorázové whole amount at once, takže so velkou large část part spolknou swallow daně taxes.
http://ufal.mff.cuni.cz/~zeman/32 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/33 Redukce sady značek Data jsou řídká (některé závislosti vůbec neuvidíme) Obrana: zjednodušit vstup o méně významné informace Např.: nebrat ohled na stylistický odstín, sjednotit značky AAMS1----1A---6 a AAMS1----1A----.
http://ufal.mff.cuni.cz/~zeman/34 Redukce sady značek Model 1: ručně navržená redukční pravidla (styl, zápor, stupeň u A a D atd.) –1279 značek 452 značek Model 2: viz též Collins et al., 1999 (pouze slovní druh a pád, není-li pád, tak poddruh): N1, VB, Z: –nová sada má 58 značek
http://ufal.mff.cuni.cz/~zeman/35 Lexikalizace Klasicky: interpolace mezi lexikalizovaným a nelexikalizovaným modelem Neexistuje λ, pro kterou by taková lexikalizace byla přínosem! Na PDT lze ukázat, že potenciál není velký.
http://ufal.mff.cuni.cz/~zeman/36 Selektivní lexikalizace U vybraných kategorií slov přilepit lemma nebo tvar přímo ke značce: Rna, Jže, Z!, Vbyl, Dvíce Opět vzroste počet značek, ale: –ne do původní velikosti –cíleně tam, kde je to užitečné
http://ufal.mff.cuni.cz/~zeman/37 Plodnost uzlu Některá slova preferují konkrétní počet dětí. Pravděpodobnost, že daný uzel má více dětí, než už jsme mu přisoudili. Zpočátku pomáhalo, ve finální verzi ne
http://ufal.mff.cuni.cz/~zeman/38 Využití valenčních rámců Seznam požadovaných vazeb (zvýhodnit sloveso v konkurenci jiných sloves při boji o doplnění) Vzájemná slučitelnost dětí jednoho slovesa (rámec jako celek) Pravděpodobnost rámce (něco jiného než pravděpodobnost závislosti)
http://ufal.mff.cuni.cz/~zeman/39 Přínos valencí pro parser Nakonec malý –Jen málo případů, kdy se může uplatnit rozdíl mezi rámci a prostým modelem závislostí –Je obtížné efektivně využít Zvýhodňování valenčních závislostí Backtracking, když se zjistí, že není naplněna valence
http://ufal.mff.cuni.cz/~zeman/40 Délka závislosti podruhé Dosud: rozlišujeme blízké, daleké a s čárkou. Nyní navíc: váhu (pravděpodobnost) závislosti vydělit vzdáleností řídícího uzlu od závislého: P(ř, z) /= abs(ř-z)
http://ufal.mff.cuni.cz/~zeman/41 Zpracování koordinací češtíučiteléstudenti a …_Co Atr
http://ufal.mff.cuni.cz/~zeman/42 Zpracování koordinací Problémy –Rodič koordinace neví nic o typu koordinovaných uzlů –Členy koordinace nevědí nic o svých sourozencích Přeskládání koordinací –Např. kořenem koordinace je její první člen –Nepomohlo
http://ufal.mff.cuni.cz/~zeman/43 Zpracování koordinací Pravděpodobnost, koordinace dvou uzlů –Např. P Coord (N1, N4) Pravděpodobnost, že určité lemma funguje jako koordinační spojka –Např. u „a“ je to přes 90 % výskytů Čárky a vícečetné koordinace Po rozhodnutí o koordinaci doplnit do jejího kořene značku prvního člena
http://ufal.mff.cuni.cz/~zeman/44 Krátké věty Brno(jak)–
http://ufal.mff.cuni.cz/~zeman/45 Krátké věty
http://ufal.mff.cuni.cz/~zeman/46 Krátké věty Věty délky 2 až 8 Morfologické vzory (posloupnosti značek) Pokud více než t % výskytů vzoru mělo stejnou strukturu, a pokud se vzor vyskytl více než N×, přiřadit strukturu větě. Zobecnění: n-tice po sobě jdoucích slov ve větě
http://ufal.mff.cuni.cz/~zeman/47 Krátké věty – problémy Vladimír Mišauer,Bratislava a) Vladimír Mišauer, Bratislava b) Vladimír Mišauer, Bratislava c) Vladimír Mišauer,Bratislava d)
http://ufal.mff.cuni.cz/~zeman/48 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/49 Neprojektivity 1,9 % slov je zavěšeno neprojektivně Polovina z nich kvůli technickým neprojektivitám
http://ufal.mff.cuni.cz/~zeman/50 Neprojektivní -li Pohlédnem Look - li if pak then na at celou whole problematiku problem z from tohoto this úhlu angle, je is Figure
http://ufal.mff.cuni.cz/~zeman/51 Neprojektivně zavěšené rematizátory u předložek až up k to nečitelnosti illegibility
http://ufal.mff.cuni.cz/~zeman/52 Neprojektivity u infinitivů Bude Will to it muset must udělat do hned at once.
http://ufal.mff.cuni.cz/~zeman/53 Neprojektivity v uzávorkovaných větách | Kontakt: Ekonomická fakulta v Chebu, Hradební 22, Cheb. | –Tečka visí na kořeni (uzlu 0) –Obě svislítka visí na slovesu, nebo – zde – na dvojtečce mezi „kontakt“ a „fakulta“
http://ufal.mff.cuni.cz/~zeman/54 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/55 Úspěšnost 74,7 %
http://ufal.mff.cuni.cz/~zeman/56 Úspěšnost podle délky věty Length# Sentences# WordsAccuracy 1 – – –
http://ufal.mff.cuni.cz/~zeman/57 Větná úspěšnost 21,0 % vět, ve kterých jsou všechny závislosti správné. 32,1 % totéž, váženo délkou věty. Nejdelší věta, která je celá správně, má 32 slov.
http://ufal.mff.cuni.cz/~zeman/58 Přesnost a úplnost Nenavrhovat závislosti, které nejsou dost dobré. Navrhnout více než 1 závislost, jestliže ta nejlepší není o dost lepší než druhá v pořadí. P = (správně navržených) / (navržených) R = (správně navržených) / (slov v datech) F = 2PR / (P+R)
http://ufal.mff.cuni.cz/~zeman/59 Přesnost a úplnost SettingPrecisionRecallF-measure Model Two74.7 Setting Setting
http://ufal.mff.cuni.cz/~zeman/60 Různé druhy chyb Pred, Pred_Pa77,9 81,8 Sb81,9 Obj, ObjAtr, Obj_Pa83,1 Pnom83,7 Adv, AdvAtr, Adv_Pa88,1 AuxP67,2 AuxC60,1 Atr*87,1 Atv, AtvV40,0
http://ufal.mff.cuni.cz/~zeman/61 Různé druhy chyb *_Ap30,0 42,7 *_Co47,5 Apos, Apos_Pa30,4 Coord, Coord_Pa35,6 AuxR, AuxT, AuxV87,4 74,2 AuxG, AuxO, AuxX, AuxY, AuxY_Pa, AuxZ, AuxZ_Pa 57,4 AuxK, AuxK_Pa 96,8 ExD, ExD_Pa 68,7
http://ufal.mff.cuni.cz/~zeman/62 Úspěšnost v závislosti na velikosti trénovacích dat Tr. větTr. slovUdálostíMBÚspěšnost ,766, , , , ,7
http://ufal.mff.cuni.cz/~zeman/63 Osnova Pozadí, závislosti a koordinace, cíle Způsob vyhodnocování, data, PDT Startovní čára Statistické jádro Přínos jednotlivých vylepšení, modely 1 a 2 Neprojektivity Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů
http://ufal.mff.cuni.cz/~zeman/64 Různé parsery pro češtinu ParserAutorÚspěšnost dzDaniel Zeman74,7 ecEugene Charniak84,3 mcMichael Collins82,5 zžZdeněk Žabokrtský75,2 th-pshrt Tomáš Holan 62,8 th-l2r69,9 th-r2l71,7
http://ufal.mff.cuni.cz/~zeman/65 Kombinace tří Kdo má pravduPočet závislostí ec5411 mc3458 dz2722 všichni83080 (65,9 %) většina (83,2 %) aspoň jeden (92,4 %)
http://ufal.mff.cuni.cz/~zeman/66 Výsledky kombinace MetodaD-testČást ec84,385,0 balanced maj. or ec 85,586,2 kontext (m- značky) NA86,3
http://ufal.mff.cuni.cz/~zeman/67 Výsledky kombinace 2 MetodaPřesnostÚplnostF ec85,0 balanced, kontext 86,3 unbalanced, bezkontext 89,584,086,7
http://ufal.mff.cuni.cz/~zeman/68 Kombinace sedmi Kdo má pravduPočet závislostí ec1976 zž1388 mc1081 thr2l500 thpshrt499 dz466 thl2r395
http://ufal.mff.cuni.cz/~zeman/69 Kombinace sedmi Kdo má pravduPočet závislostí všechny parsery43,4 % aspoň polovina77,7 % ec nebo většina84,7 % většina, ec+2, mc+2, ec85,3 % aspoň jeden95,9 %