Závislostní syntaktická analýza

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Slovní úlohy o společné práci − 2
DOTAZOVACÍ JAZYKY slajdy přednášce DBI006
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
7. Přednáška limita a spojitost funkce
Stavový prostor. • Existují úlohy, pro které není k dispozici univerzální algoritmus řešení • různé hry • problém batohu, problém obchodního cestujícího.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Programovací jazyk Perl
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Základové větné struktury, slovesná valence a její chápání
Trpný rod Matěj Suchánek.
Aplikace teorie grafů Základní pojmy teorie grafů
PA081 Programování numerických výpočtů Přednáška 2.
ALGO – Algoritmizace 1. cvičení
Vzorce se slovesy s obecným významem změny Jiří Řezáč VMS, 8. prosince 2009.
Varianty Turingova stroje Výpočet funkcí pomocí TS
Morfologická analýza Unifikační gramatiky
Principy překladačů Mezikód Jakub Yaghob.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
LOGISTICKÉ SYSTÉMY 8/14.
Regresní analýza a korelační analýza
Základní číselné množiny
Počítačové zpracování přirozeného jazyka
Získávání informací Získání informací o reálném systému
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
KONCEPTUÁLNÍ MODELOVÁNÍ
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Přívlastek (Pk).
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
Formální jazyky a gramatiky
Daniel Zeman Počítačové zpracování češtiny Syntaktická analýza Daniel Zeman
Objektové programování
Sémantická analýza Jakub Yaghob
Gramatiky a jazyky Přednáška z předmětu Řízení v komplexních systémech
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
VĚTA JEDNODUCHÁ, SOUVĚTÍ, sklaDEBNÍ VZTAHY
1. Derivace Derivace je míra rychlosti změny funkce.
Výroková logika.
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
Vztah bezkontextových jazyků a ZA
Regulární výrazy Regulární výrazy představují další možnost popisu regulárních jazyků (právě od nich dostaly své jméno). Definice: Množina všech regulárních.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Dependency Parsing Daniel Zeman
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
http:// Metody morfologické analýzy Seznam slovních tvarů –books: book-1/NNS, book-2/VBZ Zadrátovat do programu –hlavní.
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
http://ufal.mff.cuni.cz/~zeman/1 Parsing with a Statistical Dependency Model Daniel Zeman
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
MorČe morfologické značkování češtiny
Doc. Josef Kolář (ČVUT)Prohledávání grafůGRA, LS 2010/11, Lekce 4 1 / 15Doc. Josef Kolář (ČVUT)NP-úplné problémyGRA, LS 2012/13, Lekce 13 1 / 14 NP-ÚPLNÉ.
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Ryze kvadratická rovnice
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Úvod do databázových systémů
PODMĚT.
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
Induktivní statistika
Překladače 5. Syntaktická analýza
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
PROLOG strategie vyhodnocení dotazu
Klasifikace a rozpoznávání
1 Lineární (vektorová) algebra
Digitální učební materiál
Parsing with a Statistical Dependency Model
ANALÝZA A KLASIFIKACE DAT
Mgr. Lenka Vrzáňová Větná stavba října 2011
Induktivní statistika
Transkript prezentace:

Závislostní syntaktická analýza Počítačové zpracování češtiny Závislostní syntaktická analýza Daniel Zeman http://ufal.mff.cuni.cz/course/popj1/

Závislostní model Shrnutí syntaktických vztahů: Členění věty na fráze (složky). Hlavní stavební kámen frázového (složkového) modelu. Hlava fráze, závislost ostatních členů fráze na hlavě. Hlava = řídící větný člen, ostatní členy fráze jsou závislé. Hlavní stavební kámen závislostních stromů. I ve složkových stromech lze mluvit o závislostech a naopak. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad závislostního stromu [#,0] ([dal,2] ([Pavel,1], [Petrovi,3], [hrušky,5] ([dvě,4])), [.,6]) Pavel dal Petrovi dvě hrušky . # 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Pojmenování závislostí # / AuxS dal / Pred . / AuxK Pavel / Sb Petrovi / Obj hrušky / Obj dvě / Atr 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Frázové vs. závislostní stromy Pavel dal Petrovi dvě hrušky . # Pavel dal Petrovi dvě hrušky . N V C Z NP VP S 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Frázové vs. závislostní stromy Frázové (složkové) stromy. Ukazují členění věty na fráze a pojmenovávají je. Nezdůrazňují, co je hlava, které slovo na kterém závisí. Nemusí obsahovat funkci, druh závislosti. Závislostní stromy. Ukazují závislosti mezi slovy a pojmenovávají je. Nezachycují podobnost tvoření různých částí věty, rekurzi. Nezachycují průběh budování věty, blízkost závislých členů hlavě. Neobsahují neterminály, druhy frází — ty lze leda odhadovat ze značek hlav. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Rozdíly závislostního a frázového modelu Chceme převést frázový strom F na závislostní strom Z nebo obráceně. Frázový strom neříká, co je hlava fráze. Pro převod F  Z potřebujeme výběrovou funkci, která pro každé pravidlo frázové gramatiky řekne, který symbol na pravé straně je hlava. Závislostní strom neukazuje, jak věta vznikla (rekurze), ani nutně nepostihuje celé dělení na fráze. Neříká, co bylo do věty přidáno „dříve“ a co „později“. Více frázových struktur může vést na stejnou závislostní  Převod zpět (Z  F) je nejednoznačný. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad Více frázových stromů vede na tentýž závislostní strom. S(koupil) S(koupil) NP(Pavel) VP(koupil) VP(koupil) V(koupil) NP(kolo) NP(Pavel) V(koupil) NP(kolo) koupil Pavel kolo 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Rozdíly závislostního a frázového modelu V závislostním stromě nevíme, jak se jmenují fráze (protože ani nevíme, co jsou fráze, viz předchozí snímek). Potřebujeme funkci, která podle hlavy fráze určí jméno fráze. Potřebujeme? Pro význam je potřeba znát vztahy a jejich druh, ale ne vědět, co bylo vygenerováno dříve a co později. Ve frázovém stromě neznáme druh vztahu mezi hlavou a ostatními členy — analytické funkce. (Ale srov. funkční značky v Penn Treebanku.) Funkce, která pro každou frázi určí typ závislosti členů na hlavě. (Lze říci pro každou frázi stejně jako lze určit hlavu.) Podstatný rozdíl: frázové stromy jsou pevně spjaty se slovosledem! 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Nespojité fráze Nedají se generovat normální gramatikou! Nedají se reprezentovat závorkováním. (Soubor (se nepodařilo) otevřít). VP(nepodařilo) VR(nepodařilo) VPinf(otevřít) N(soubor) T(se) V(nepodařilo) Vinf(otevřít) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Neprojektivita Závislostní strom včetně slovosledu (vodorovná souřadnice uzlu). Projekce na podstavu: kolmice z uzlu protíná nějakou hranu (neprojektivní hrana). Formálně: Závislost ([ř,xř],[z,xz]). xw je pořadí slova w ve větě. Existuje uzel [u,xu], že xř < xu < xz nebo xz < xu < xř a [u,xu] neleží v podstromu, jehož kořenem je [ř,xř]. Neformálně: řetězec odpovídající podstromu řídícího uzlu není souvislý, jsou v něm díry. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Neprojektivita: závislostní strom ji umí! nepodařilo / Pred se / AuxT otevřít / Obj soubor / Obj 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Problém: ne všechno je závislost Koordinace a apozice. Společné rozvití celé koordinace × členy koordinace. Pomocné uzly (interpunkce apod.). a / Coord koupil Pred_Co , AuxX opravil Pred_Co prodal Pred_Co auto Obj předevčírem Adv včera Adv dnes Adv 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Předložkové fráze, vnořené klauze spojkové budu Pred od AuxP ptáte Pred se AuxT zda AuxC na AuxP na AuxP rozdíl AuxP Pavla Adv , AuxX vidím Obj zápraží Adv vás Obj 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Vnořené klauze vztažné muž ??? představil Atr , AuxX kterého Obj jsem AuxV vám Obj 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Fráze, závislosti a jiné modely Frázový (složkový, bezprostředně-složkový). Nejrozšířenější ve světě, vhodný pro angličtinu. Frázové (bezkontextové) gramatiky. Závislostní. Oblíbený v některých zemích, např. u nás. Zvláště vhodný pro jazyky s volným slovosledem. Závislostní gramatiky, gramatiky závislostních stromů. Kategoriální gramatiky. Tree-adjoining grammars (TAGs). A řada dalších… 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Závislostní gramatika Na rozdíl od frázového modelu je spojení s gramatikou umělé („závislostní strom neodráží způsob svého vzniku“). Pro češtinu asi neexistuje implementace. Bezkontextová gramatika + výběrová funkce (pouze projektivní konstrukce). Gramatika, přepisující neterminál na celý podstrom (gramatika závislostních stromů). Souvislost s link grammars, tree-adjoining grammars, kategoriálními gramatikami. HPSG, unifikace. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Závislostní analýza s pomocí statistického modelu Korpus ručně anotovaných textů p(hrana([ve], [dveřích])) = p1 p(hrana([v], [dveřích])) = p2 p(hrana([ve], [dveře])) = p3 p(hrana([ve], [dveřím])) = p4 kde asi: p1 > p2 > p3 a p4  0 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Základní metoda: hledáme nejpravděpodobnější strom Hledáme strom M, který je s největší pravděpodobností zápisem dané věty S. Formálně: Podle Bayesova vzorce můžeme vyjádřit: p(S|M) je pravděpodobnost, že věta, jejímž zápisem je strom M, je právě S. p(M) je pravděpodobnost výskytu (existence) stromu M. p(S) je pravděpodobnost výskytu věty S. Z hlediska hledání nejpravděpodobnějšího stromu je ovšem pouhou konstantou, která výsledek neovlivní: 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Základní metoda: hledáme nejpravděpodobnější strom p(S) je pravděpodobnost výskytu věty S. Z hlediska hledání nejpravděpodobnějšího stromu je ovšem pouhou konstantou, která výsledek neovlivní: Úkolem je tedy odhadnout pravděpodobnosti p(S|M) a p(M). p(S|M) maximalizujeme tak, že strom M konstruujeme přímo ze slov věty S. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Pravděpodobnost stromu Opět předpoklad: hrany jsou na sobě nezávislé (silné a chybné — lepší model by byl opatrnější). Součin pravděpodobností hran. Jak najít nejpravděpodobnější strom? Podobně jako u značkování: Viterbiho algoritmem! (Střední cesta mezi hladovým algoritmem a backtrackingem.) Jak velká by musela být tabulka, ve které četnosti evidujeme? Pro konkrétní větu o n slovech existuje (n+1)n–1 stromů; např. pro větu o 6 slovech je to 16807 stromů. Pro libovolnou větu navíc vynásobit počtem možných n-tic slov. Přestože by šlo o velmi řídkou tabulku, nelze na její budování ani pomyslet. Jaké zjednodušení přesně provádíme, když používáme n-gramový model? Předpokládáme, že p(hi|h1…hi–1) = p(hi), resp. p(hi|hi–1). 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

MST Parser McDonald et al., HLT-EMNLP 2005 http://sourceforge.net/projects/mstparser/ MST = maximum spanning tree = nejlépe ohodnocená kostra (orientovaného) grafu Začne se úplným grafem. Tj. předpokládáme možnou závislost mezi libovolnými dvěma slovy ve větě. Postupně odstraňovat špatně hodnocené závislosti. Hodnocení závislostí zajistí statistický algoritmus. Ten se učí na rysech hrany. Rys je např. lemma, slovní druh, pád… řídícího / závislého uzlu. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

MST Parser Říct, na které rysy se má parser zaměřit, lze úpravou zdrojáku (Java). Není snadné zahrnout tzv. rysy 2. řádu Tj. ohodnocení závislosti podmínit např. i morfologickou značkou prarodiče. Parser lze pustit v neprojektivním režimu. Trénování na celém PDT údajně trvá asi 30 hodin. Je nutné procházet kombinace rysů a hledat, které z nich jsou nejužitečnější. Vlastní parsing je ve srovnání s tím rychlý. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Malt Parser Nivre et al., Natural Language Engineering, 2007 http://maltparser.org/ Založeno na přechodech (transitions) z jedné konfigurace do druhé. Konfigurace: Vstupní buffer (slova ve větě zleva doprava) Zásobník Výstupní strom (slova, závislosti a značky závislostí) Přechody: Shift: přesune slovo z bufferu na zásobník Larc: levá závislost mezi horními dvěma slovy v zásobníku Rarc: pravá závislost mezi horními dvěma slovy v zásobníku 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Malt Parser Parser řídí tzv. orákulum, které na základě aktuální konfigurace vybere přechodovou operaci. Trénování: strom z trénovacích dat rozložit na posloupnost konfigurací a přechodů Někdy existuje více možností Různé trénovací algoritmy: např. hladově co nejdřív tvořit závislosti. Orákulum se učí na základě rysů konfigurace. Např. slovo, lemma, slovní druh, rod, pád… n-tého slova od vrcholu zásobníku k-tého slova zbývajícího v bufferu konkrétního uzlu v již vytvořené části výstupního stromu 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Malt Parser Na trénování je opět použit statistický algoritmus, v tomto případě tzv. Support Vector Machines (SVM). Klasifikátor. Na vstupu vektory: hodnoty všech rysů aktuální konfigurace. Při trénování k tomu navíc výstupní hodnota, tj. název operace (Shift / Larc / Rarc). Při ostrém běhu výstupní hodnotu řekne natrénované orákulum (SVM). Trénování nad celým PDT může trvat celé týdny. Složitost je O(n2), kde n je počet trénovacích příkladů. Z PDT lze vytáhnout přes 3 milióny trénovacích příkladů. Vlastní parsing už je rychlejší (řádově věta za vteřinu). 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # buffer = Pavel dal Petrovi dvě hrušky . tree = SHIFT stack = # Pavel buffer = dal Petrovi dvě hrušky . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # Pavel buffer = dal Petrovi dvě hrušky . tree = SHIFT stack = # Pavel dal buffer = Petrovi dvě hrušky . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # Pavel dal buffer = Petrovi dvě hrušky . tree = LARC stack = # dal tree = dal(Pavel) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal buffer = Petrovi dvě hrušky . tree = dal(Pavel) SHIFT stack = # dal Petrovi buffer = dvě hrušky . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal Petrovi buffer = dvě hrušky . tree = dal(Pavel) RARC stack = # dal tree = dal(Pavel,Petrovi) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal buffer = dvě hrušky . tree = dal(Pavel,Petrovi) SHIFT stack = # dal dvě buffer = hrušky . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal dvě buffer = hrušky . tree = dal(Pavel,Petrovi) SHIFT stack = # dal dvě hrušky buffer = . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal dvě hrušky buffer = . tree = dal(Pavel,Petrovi) LARC stack = # dal hrušky tree = dal(Pavel,Petrovi),hrušky(dvě) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal hrušky buffer = . tree = dal(Pavel,Petrovi),hrušky(dvě) RARC stack = # dal tree = dal(Pavel,Petrovi,hrušky(dvě)) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # dal buffer = . tree = dal(Pavel,Petrovi,hrušky(dvě)) RARC stack = # tree = #(dal(Pavel,Petrovi,hrušky(dvě))) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # buffer = . tree = #(dal(Pavel,Petrovi,hrušky(dvě))) SHIFT stack = # . buffer = 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad analýzy Malt Parserem stack = # . buffer = tree = #(dal(Pavel,Petrovi,hrušky(dvě))) RARC stack = # tree = #(dal(Pavel,Petrovi,hrušky(dvě)),.) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Neprojektivní režim Maltu Lze dokázat, že uvedený přechodový systém je korektní výsledkem je vždy strom, tj. souvislý graf bez cyklů úplný pro množinu projektivních stromů každý projektivní strom lze vyjádřit jako posloupnost přechodů Jak přidat neprojektivní závislosti? Nová přechodová operace SWAP: Vyjmout druhé slovo od povrchu zásobníku a vrátit ho do bufferu. Tím se prohodí pořadí slov na vstupu. Tuto operaci dovolit jen u slov, která ještě nebyla prohozena (jejich pořadí na zásobníku odpovídá jejich původnímu pořadí ve větě). 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # buffer = Soubor se nepodařilo otevřít . tree = SHIFT stack = # Soubor buffer = se nepodařilo otevřít . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor buffer = se nepodařilo otevřít . tree = SHIFT stack = # Soubor se buffer = nepodařilo otevřít . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor se buffer = nepodařilo otevřít . tree = SHIFT stack = # Soubor se nepodařilo buffer = otevřít . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor se nepodařilo buffer = otevřít . tree = LARC stack = # Soubor nepodařilo tree = nepodařilo(se) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor nepodařilo buffer = otevřít . tree = nepodařilo(se) SHIFT stack = # Soubor nepodařilo otevřít buffer = . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor nepodařilo otevřít buffer = . tree = nepodařilo(se) SWAP stack = # Soubor otevřít buffer = nepodařilo . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # Soubor otevřít buffer = nepodařilo . tree = nepodařilo(se) LARC stack = # otevřít tree = nepodařilo(se),otevřít(Soubor) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # otevřít buffer = nepodařilo . tree = nepodařilo(se),otevřít(Soubor) SHIFT stack = # otevřít nepodařilo buffer = . 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # otevřít nepodařilo buffer = . tree = nepodařilo(se),otevřít(Soubor) LARC stack = # nepodařilo tree = nepodařilo(se,otevřít(Soubor)) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # nepodařilo buffer = . tree = nepodařilo(se,otevřít(Soubor)) RARC stack = # tree = #(nepodařilo(se,otevřít(Soubor))) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # buffer = . tree = #(nepodařilo(se,otevřít(Soubor))) SHIFT stack = # . buffer = 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad neprojektivní analýzy stack = # . buffer = tree = #(nepodařilo(se,otevřít(Soubor))) RARC stack = # tree = #(nepodařilo(se,otevřít(Soubor)),.) 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Úspěšnost Maltu a MST Na češtině (PDT): MST Parser přes 85 % Malt Parser 86 % (ale časově náročné) Úspěšnost na větách asi 35 %, to je hodně! Daly by se také zkombinovat, protože pracují dost odlišně. Na dalších jazycích (soutěž CoNLL) Většinou je MST o něco lepší. Absolutní čísla nejsou srovnatelná napříč jazyky, hodně závisí na konkrétním korpusu. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Rysy jsou základ úspěchu Společný rys MST a Maltu: Jsou schopny vzít v úvahu velké množství rysů (features) vstupního textu. Netriviální algoritmus strojového učení zařídí, že z těchto rysů dokážeme vybrat ty důležité. Algoritmy strojového učení jsou obecné klasifikátory. Většinou už existuje nějaká knihovna, která se stáhne a použije. Konkrétní problém (zde budování stromu) je potřeba převést na posloupnost klasifikačních rozhodnutí, tj. vektorů (hodnoty rysů + odpověď). 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Valence Sloveso je centrum věty. Větné členy závislé na slovesu jsou jeho doplnění. Dva druhy doplnění: vnitřní = aktanty = participanty vnější = volná 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Druhy slovesných doplnění: vnitřní × volné a) Nejvýše jedno doplnění daného typu může rozvíjet tentýž slovesný výskyt … vnitřní doplnění. b) Doplnění téhož typu může jeden slovesný výskyt rozvíjet vícekrát … volné doplnění. a´) Toto doplnění může stát pouze u jisté skupiny sloves … vnitřní doplnění kromě konatele. b´) Toto doplnění může stát téměř u každého slovesa volné doplnění nebo konatel. Ovšem i o konateli lze říct, že se nemůže vyskytovat u všech sloves: jsou slovesa bez aktantů, jako „pršet“ či „sněžit“. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Druhy slovesných doplnění: (sémanticky) povinné × volitelné I povinné doplnění může ve větě chybět, pak ale je skryto nebo známo z kontextu. Pokud doplnění chybí, ale autor věty ho nemůže neznat, jde o povinné doplnění. Příklad 1: Moji přátelé přijeli. Kam? *Nevím. Odkud? Nevím. Příklad 2: Moji přátelé odjeli. Odkud? *Nevím. Kam? Nevím. Skrytý podmět: „Jdeme.“ Podmět známý z kontextu: „Už jde.“ 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Druhy slovesných doplnění: argument × adjunct Jde v podstatě o opozici povinné × volitelné, ale posuzuje se povrchově, ne sémanticky. „Odjeli odněkud.“ „Odněkud“ sémanticky povinné, ale povrchově (spíše) volitelné. „Položil to na stůl.“ „Na stůl“ je asi povinné i povrchově, ale méně než v angličtině. Nadále budeme termínem povinné × volitelné rozumět povrchovou povinnost a volitelnost, tj. argument × adjunct. Argument = parametr, argument, účastník. Adjunct = dodatek, rozvíjející člen. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Druhy vnitřních doplnění Konatel (agens, actor, bearer, původce) Trpitel (paciens, zasažený předmět) Adresát (addressee, nepřímý předmět) Původ (origo, origin) Výsledek (efekt, effect) Do hloubkového rámce patří všechna vnitřní doplnění a sémanticky povinná volná doplnění. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Příklad věty se všemi vnitřními doplněními Doplnění v závorkách jsou volitelná, ostatní povinná. (Téměř) všechna jsou však vnitřní (viz poznámku dole)! MatkaAct předělala (dětemAdr) loutkuPat (z kašpárkaOrig) (na čertaEf). Poznámka: Tento prastarý příklad se opisuje z místa na místo, ale není přesný. „dětem“ je spíš benefaktor než adresát, tj. volné, nikoli vnitřní doplnění. Takovýhle dativ jde totiž přidat skoro všude. Skutečný adresát by to byl např. v „Matka dala dětem loutku.“ 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Základní třídy rámců Slovesa bez aktantů (prší) Nepřechodná slovesa (Pavel padá) Přechodná slovesa (Pavel bije Petra) Dvojpřechodná slovesa (Pavel dává Petrovi knihu) A řada dalších: při povrchovém členění asi 180 tříd? 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Rámce lze automaticky odfiltrovat z korpusu Jan viděl Marii. vs. Jan viděl Marii včera kolem páté na nádraží. 9.12.2009 http://ufal.mff.cuni.cz/course/popj1

Typy povinných doplnění — příklady Jmenné fráze: N4, N3, N2, N7, N1(Pnom) Předložkové fráze: R2(bez), R3(k), R4(na), R6(na), R7(s)… Zvratná zájmena „se“, „si“: PR4, PR3. Vedlejší věty: S, JS(že), JS(zda)… Infinitivy (VINF), příčestí trpná (VPAS), příslovce (DB)… 9.12.2009 http://ufal.mff.cuni.cz/course/popj1