Parsing with a Statistical Dependency Model

Slides:



Advertisements
Podobné prezentace
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Advertisements

Základové větné struktury, slovesná valence a její chápání
Testování statistických hypotéz
Aplikace teorie grafů Základní pojmy teorie grafů
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Odhady parametrů základního souboru
Plošná interpolace (aproximace)
P‑value ano, či ne? Roman Biskup
Získávání informací Získání informací o reálném systému
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Autor: Boleslav Staněk H2IGE1.  Omyly  Hrubé chyby  Chyby nevyhnutelné  Chyby náhodné  Chyby systematické Rozdělení chyb.
Seminář – Základy programování
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Základy ekonometrie Cvičení září 2010.
Odhady parametrů základního souboru. A) GNR B) neznámé r. ZS (přesné parametry) : ,   VS (odhady parametrů): x, s x.
Pravděpodobnost a genetická prognóza
Výroková logika.
Dokumentace informačního systému
TEORIE HER.
Lineární regresní model Statistická inference Tomáš Cahlík 4. týden.
Inženýrská geodézie 2009 Ing. Rudolf Urban
Chyby jednoho měření když známe
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Princip maximální entropie
Experimentální fyzika I. 2
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Práce s výsledky statistických studií
ZÁKLADY TEORIE PRAVDĚPODOBNOSTI
Kompresní algoritmus LZW Dokumentografické informační systémy.
Základy zpracování geologických dat
2. Vybrané základní pojmy matematické statistiky
8. Kontingenční tabulky a χ2 test
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Statistická významnost a její problémy
http://ufal.mff.cuni.cz/~zeman/1 Parsing with a Statistical Dependency Model Daniel Zeman
Biostatistika 8. přednáška
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Základy pedagogické metodologie
Zjednoznačnění analýzy Daniel Zeman Počítačové zpracování češtiny.
MorČe morfologické značkování češtiny
Molekulová fyzika 3. přednáška „Statistický přístup jako jediná funkční strategie kinetické teorie“
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Logické funkce dvou proměnných, hradlo
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Měření v sociálních vědách „Měřit všechno, co je měřitelné, a snažit se učitnit měřitelným vše, co dosud měřitelné není“. (Galileo Galilei)
Testování hypotéz Testování hypotéz o rozdílu průměrů  t-test pro nezávislé výběry  t-test pro závislé výběry.
Základní informace o předmětu1. Přednášející: RNDr. Martin Hála, CSc. katedra matematiky, B105, Další informace a soubory ke stažení.
Možnosti biostatistiky RNDr. Karel Hrach, Ph.D. Ústav zdravotnických studií UJEP Biomedicínský výzkum s podporou evropských zdrojů v nemocnicích ( )
Molekulová fyzika 2. Sada pomocných snímků „Teplota“
Ověření modelů a modelování Kateřina Růžičková. Posouzení kvality modelu Ověření (verifikace) ● kvalitativní hodnocení správnosti modelu ● zda model přijatelně.
ODČÍTÁNÍ DESETINNÝCH ČÍSEL  Při písemném odčítání desetinných čísel musí být desetinné čárky pod sebou!  Musíme odčítat jen stejné řády, tj. desetiny.
INDUKTIVNÍ STATISTIKA
Pravděpodobnost a matematická statistika I.
POPIS Mgr. Michal Oblouk.
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
Daniel Zeman Počítačové zpracování češtiny Značkování (tagging) Daniel Zeman
- váhy jednotlivých studií
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Soustava lineárních nerovnic
1 Lineární (vektorová) algebra
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Pravděpodobnost a matematická statistika I.
Sociologický výzkum II.
Neparametrické testy pro porovnání polohy
příklad: hody hrací kostkou
Statistika a výpočetní technika
Plánování přesnosti měření v IG Úvod – základní nástroje TCHAVP
7. Kontingenční tabulky a χ2 test
Základy statistiky.
Transkript prezentace:

Parsing with a Statistical Dependency Model Daniel Zeman http://ckl.mff.cuni.cz/~zeman/ 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Syntaktická analýza s využitím statistického modelu závislostí Daniel Zeman http://ckl.mff.cuni.cz/~zeman/ 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Cíl disertační práce Vybudovat co nejúspěšnější parser češtiny Statistické jádro (černá skříňka). Omezení (pravidla) usměrňující statistiku (snaha zprůhlednit černou skříňku). Zdokumentovat přínos jednotlivých omezení pro úspěšnost analýzy. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Cíl parseru Pro větu v přirozeném jazyce vyprodukovat závislostní strukturu. „Věta“ = slova + morfologické značky Nepokoušíme se o analytické funkce aj. Jakou strukturu? Konzistentní s treebankem. Předpoklad: treebank konzistentní sám o sobě. Konkrétně PDT, analytická rovina. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Formulace úlohy Píše dopis svému příteli . Píše dopis svému příteli . VB-S---3P-AA-- VeYS------A--- NNIS1-----A--- NNIS4-----A--- P8ZS3---------- NNMS3-----A--- NNMS5-----A--- NNMS6-----A--- Z:------ Píše dopis svému příteli . 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Formulace úlohy Píše dopis svému příteli . 1 4 Píše dopis svému 1 4 Píše dopis svému příteli . 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Úspěšnost Standardní měřítko úspěchu: procento správně přiřazených odkazů na rodiče. Vždy existuje právě jeden správný rodič. Vědomě ignorujeme možnost, že věta může mít více interpretací. Přehnaně robustní: neexistují negramatické věty. Správný rodič = ruční anotace treebanku. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Startovní čára Náhodné závislosti:  10,6 % Deštníkový strom: 11,6 % poslední uzel na kořeni, žádné cykly Deštníkový strom: 11,6 % Řetěz zleva doprava: 24 % Řetěz zprava doleva: 28,6 % Obrácená jednička: 30 % 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Pravděpodobnost závislosti V trénovacích datech projít všechny dvojice řídící – závislý uzel. Pamatovat si počty výskytů slov / lemmat / značek pro každou takovou dvojici uzlů. Jev značíme D(řídící, závislý). Četnost jevu: Č(řídící, závislý). Pravděpodobnost: P(řídící, závislý). 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Pravděpodobnost závislosti příklad Č(republika, česká) = 56 P(republika, česká) = 2,2×10-5 Č(reprezentanti, republik) = 1 P(reprezentanti, republik) = 3,9×10-7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Porovnávání závislostí Lexikalizované – podle tvarů nebo lemmat. Podle morfologických značek: P(země, evropské) = P(myšlenky, zelené) = P(NNFP1-----A----, AAFP1----1A----) Zatím předpokládáme nelexikalizovaný model. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Zdroj morfologických značek Slovník (morfologická analýza bez zjednoznačnění) Ruční anotace Automatický tagger (zatím nejlepší, co umíme) Parser si zjednoznačňuje sám (ideál) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Směr a délka závislosti Zohlednit směr L … zprava doleva (řídící uzel napravo od závislého) P … zleva doprava Zohlednit vzdálenost B … blízko (řídící je soused závislého) D … daleko (nejsou sousedé) , … daleko a navíc je mezi nimi alespoň jedna čárka 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Příklad Č(byl, někomu, P, D) = 36 Č(byl, někomu, P, B) = 19 Č(byl, někomu, L, čárka) = 6 Č(byl, někomu, P, čárka) = 1 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Budování stromu Viterbi apod. minimální zlepšení úspěšnosti zřetelné zpomalení výpočtu. Nakonec nejlepší výsledky s hladovým algoritmem (vždy vzít nejpravděpodobnější závislost z povolených). 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Které závislosti jsou povolené? Výsledek musí být strom (malinko diskutabilní požadavek!) Musí být projektivní (případné neprojektivity se řeší jako zvláštní případy) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Redukce sady značek Data jsou řídká (některé závislosti vůbec neuvidíme) Obrana: zjednodušit vstup o méně významné informace Např.: nebrat ohled na stylistický odstín, sjednotit značky AAMS1----1A---6 a AAMS1----1A----. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Redukce sady značek Model 1: ručně navržená redukční pravidla (styl, zápor, stupeň u A a D atd.) 1279 značek  452 značek Model 2: viz též Collins et al., 1999 (pouze slovní druh a pád, není-li pád, tak poddruh): N1, VB, Z: nová sada má 58 značek 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Lexikalizace Klasicky: interpolace mezi lexikalizovaným a nelexikalizovaným modelem Neexistuje λ, pro kterou by taková lexikalizace byla přínosem! Na PDT lze ukázat, že potenciál není velký. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Selektivní lexikalizace U vybraných kategorií slov přilepit lemma nebo tvar přímo ke značce: Rna, Jže, Z!, Vbyl, Dvíce Opět vzroste počet značek, ale: ne do původní velikosti cíleně tam, kde je to užitečné 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Využití valenčních rámců Seznam požadovaných vazeb (zvýhodnit sloveso v konkurenci jiných sloves při boji o doplnění) Vzájemná slučitelnost dětí jednoho slovesa (rámec jako celek) Pravděpodobnost rámce (něco jiného než pravděpodobnost závislosti) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Přínos valencí pro parser Nakonec malý Jen málo případů, kdy se může uplatnit rozdíl mezi rámci a prostým modelem závislostí Je obtížné efektivně využít Zvýhodňování valenčních závislostí Backtracking, když se zjistí, že není naplněna valence 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Závislost a koordinace Závislost = index rodiče „Skutečná závislost“ = závislost vyjadřující podřízenost Koordinace = vztah mezi sourozenci, simulovaný s použitím závislostí „skutečná“ koordinace apozice 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Zpracování koordinací čeští učitelé studenti a …_Co Atr 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Zpracování koordinací Problémy Rodič koordinace neví nic o typu koordinovaných uzlů Členy koordinace nevědí nic o svých sourozencích Přeskládání koordinací Např. kořenem koordinace je její první člen Nepomohlo  13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Zpracování koordinací Pravděpodobnost, koordinace dvou uzlů Např. PCoord(N1, N4) Pravděpodobnost, že určité lemma funguje jako koordinační spojka Např. u „a“ je to přes 90 % výskytů Čárky a vícečetné koordinace Po rozhodnutí o koordinaci doplnit do jejího kořene značku prvního člena 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

74,7 % Úspěšnost (74,9 % na kontrolní sadě) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Úspěšnost podle délky věty Délka Vět Slov Úspěšnost 1 – 10 2363 14334 84,8 75,7 11 – 20 2727 41819 77,0 21 – 40 2125 57970 72,4 41+ 255 12360 66,4 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Větná úspěšnost 21,0 % vět, ve kterých jsou všechny závislosti správné. 32,1 % totéž, váženo délkou věty. Nejdelší věta, která je celá správně, má 32 slov. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Přesnost a úplnost Nenavrhovat závislosti, které nejsou dost dobré. Navrhnout více než 1 závislost, jestliže ta nejlepší není o dost lepší než druhá v pořadí. P = (správně navržených) / (navržených) R = (správně navržených) / (slov v datech) F = 2PR / (P+R) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Přesnost a úplnost Pokus 1: Vynechat závislost viděnou < 10× Pokus 2: Závislosti d1 a d2 mají váhy w1 a w2. Jestliže přidáváme d1 a platí w2  0,9 w1, přidat i d2. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Přesnost a úplnost Přesnost Úplnost F Model 2 74,7 P1: ne všechny 78,3 66,6 72,0 P2: některé navíc 71,6 75,9 73,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Různé druhy chyb Pred, Pred_Pa 77,9 81,8 Sb 81,9 Obj, ObjAtr, Obj_Pa 83,1 Pnom 83,7 Adv, AdvAtr, Adv_Pa 88,1 AuxP 67,2 AuxC 60,1 Atr* 87,1 Atv, AtvV 40,0 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Různé druhy chyb *_Ap 30,0 42,7 *_Co 47,5 Apos, Apos_Pa 30,4 Coord, Coord_Pa 35,6 AuxR, AuxT, AuxV 87,4 74,2 AuxG, AuxO, AuxX, AuxY, AuxY_Pa, AuxZ, AuxZ_Pa 57,4 AuxK, AuxK_Pa 96,8 ExD, ExD_Pa 68,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Úspěšnost v závislosti na velikosti trénovacích dat Tr. vět Tr. slov Událostí MB Úspěšnost 1000 14080 83475 1,7 66,8 10000 151205 581834 13 71,5 25000 411706 1417306 31 73,4 50000 848922 2506040 55 74,3 73088 1255590 3448365 76 74,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Osnova Cíle Způsob vyhodnocování, data Statistické jádro Parametry, omezení, vylepšení Experimenty, hodnocení z různých úhlů Konkurenční parsery, kombinace parserů 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Různé parsery pro češtinu Autor Úspěšnost dz Daniel Zeman 74,7 ec Eugene Charniak 84,3 mc Michael Collins 82,5 zž Zdeněk Žabokrtský 75,2 th-pshrt Tomáš Holan 62,8 th-l2r 69,9 th-r2l 71,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Kombinace tří Kdo má pravdu Počet závislostí % ec 5411 4,3 mc 3458 2,7 dz 2722 2,2 všichni 83080 65,9 většina 104815 83,2 aspoň jeden 116406 92,4 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Výsledky kombinace Metoda D-test Část d-testu ec 84,3 85,0 většina nebo ec 85,5 86,2 kontext (m-značky) NA 86,3 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Nevyvážené skládání parserů Brill a Hladká (Hajič et al.) 1998 Do výsledku zahrnout ty závislosti, pro které hlasovala alespoň polovina parserů. Některé uzly nedostanou rodiče. => už nevystačíme s jedinou veličinou (úspěšnost), ale potřebujeme dvě: přesnost a úplnost (en: precision and recall) 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext 86,3 nevyváženě bez kontext 89,5 84,0 86,7 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Kombinace sedmi Kdo má pravdu Počet závislostí ec 1976 zž 1388 mc 1081 thr2l 500 thpshrt 499 dz 466 thl2r 395

Kombinace sedmi Kdo má pravdu Jak často všechny parsery 43,4 % alespoň polovina 77,7 % většina nebo ec 84,7 % většina, ec+2, mc+2, ec 85,3 % alespoň jeden 95,9 % 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Výsledky kombinace Metoda Přesnost Úplnost F ec 85,0 vyváženě, kontext 85,8 nevyváženě bez kontext 90,7 78,6 84,2 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Statistická významnost Rozdíl mezi úspěšností superparseru a ec je statisticky významný na úrovni p=0,001. Wilcoxonův test, 29 vzorků po 250 větách Po celých testovacích datech je rozdíl kladný (= konzistentní zlepšení). Totéž až na tři výjimky platí i pro 146 vzorků po 50 větách. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Závěr Úspěšnost Modelu Dva: 74,7 % (74,9 % e-test data). Vyvážený superparser zlepší Charniaka z 84,3 na 85,5. Na podmnožině z 85,0 na 86,2, s využitím kontextu dále na 86,3. Nevyvážený zlepší F z 85,0 na 86,7. Kombinací 7 parserů lze dosáhnout přesnosti přes 90 %. 13.1.2005 http://ckl.mff.cuni.cz/~zeman/

Směry dalšího výzkumu Pravděpodobné rezervy Modelu Dva: kontext sourozenců, současné sledování podstromu o více než 2 uzlech, DOP-like model koordinace a apozice 13.1.2005 http://ckl.mff.cuni.cz/~zeman/