Valence a Pražský závislostní korpus (PDT) Jarmila Panevová, ÚFAL MFF UK Markéta Lopatková, CKL MFF UK panevova@ufal.mff.cuni.cz lopatkova@ckl.mff.cuni.cz SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 1
Osnova východisko – teorie valence ve FGD třídění slovesných doplnění závaznost doplnění jazyková strukturace – posouvání uplatnění navržené valenční teorie na další slovní druhy adjektiva substantiva otázky a problémy sémantická obligatornost a povrchová vypustitelnost kvazivalence vztah lexikálního významu a valence výstavba valenčních slovníků PDT-VALLEX VALLEX SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 2
1. Teorie valence v teoretickém plánu (ve FGP – funkčním generativním popisu) – pro slovesa: 1.1 Třídění slovesných doplnění (srov. Přílohu, seznam „funktorů“) podle způsobů jejich spojování se slovesy: (i) jednou x víckrát u jednoho slovesa (ii) omezený seznam sloves x každé sloveso Levá strana (i) a (ii) – aktanty (partcipanty) Pravá strana (i) a (ii) – volná doplnění Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek (EFFektum) Volná doplnění: lokální, směrová, temporální, způsobová, kauzální,… (viz Přílohu) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 3
1.2 Závaznost spojení slovesa s valenčním členem: Aktanty: obligatorní – fakultativní (ale v obou případech jsou součástí valenčního rámce slovesa v lexikonu) Volná doplnění: obligatorní – fakultativní (jen obligatorní jsou součástí valenčního rámce slovesa v lexikonu) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 4
1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: „Dialogový test“ – (ne)přijatelnost odpovědi „Nevím“ při otázce po valenčním členu. (b) Přístupy k vymezení počtu aktantů: (ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor, …, Stimul, Destruktiv, Beneficient,… (bb) 1. aktant, 2. aktant, 3. aktant Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 5
Jazyková strukturace (posouvání) Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno) (1) Jan běží. (2) Jan otevřel (dveře). (3) Jan spí. (4) Slunce/kniha vychází. (5) Komín kouří. (6) Klíč/vítr otevřel (dveře). (7) Jan upustil/rozbil (vázu). SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 6
Jazyková strukturace (posouvání) Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním aktantem je ve valenčním rámci vždy přítomno) (8) Jan otevřel dveře. (9) Jan potkal listonoše. (10) Náhle ho oslovil neznámý člověk. (11) Chlapec vyrostl/vyspěl v muže. (12) Hrobník vykopal hrob. Slovesa se 3 a více aktanty – sémantické hodnocení (fakultativní aktanty jsou v závorce) (13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky). (14) Švadlena přešila (zákaznici) šaty (na župan). (15) Matka předělala (dětem) loutku z Kašpárka na čerta. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 7
2. Uplatnění navržené valenční teorie na další slovní druhy (i) vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo potřebujeme další jednotky? (ii) uplatňuje se tu princip „posouvání“ jako u sloves? SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 8
B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy 2.1 Adjektiva A. Deverbativní: odvozená z tvarů činných – „pohlcení“ pozice ACT, odvozená z tvarů trpných – „pohlcení“ pozice PAT, popř. ADDR, (EFF?) (16) digestoř pohlcující kuchyňské pachy … = digestoř, která pohlcuje … (17) Odevzdal náramek nalezený na ulici … = náramek, který nalezl/byl nalezen na ulici (18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které (ADDR) informovali/kteří byli informováni o formách … B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy plný – čeho (obligatorní „partitiv“ – MAT(eriál)) hrdý – na koho/co (PAT – fakultativní nebo obligatorní?, odpověď spojena s řešením lexikálních vlastností, polysémie adjektiva) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 9
2.2 Substantiva A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v „povrchové vypustitelnosti“ – vše je vypustitelné) B. Primární: specifická doplnění substantiv (vedle doplnění slovesných) MAT(eriál) – partitiv – aktant oblig. nebo fakult. (?) – část národa, skupina dětí, košík hub, talíř polévky,… APP(urtenanance) – přináležitost – volné doplnění, u některých substantiv (zejm. relačních) obligatorní – bratr Josefa Čapka, povrch zeměkoule,… ID(entity) – „nominativ jmenovací“ – (fakultativní) aktant – hrad Trosky, parník Hradčany,… Odpovědi na otázky: (i) viz výše (ii) zatím otevřeno, ale srov. poradce prezidenta.ADDR, asistent primáře.ADDR (ACT u konatelských jmen „pohlcen/zabudován“, PAT je všeobecný?) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 10
3. Otázky a problémy 3.1 Sémantická obligatornost a povrchová vypustitelnost A. Přijít – kam, odejít – odkud, vrátit se – kam – sémanticky obligatorní na povrchu nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem, kde je mluvčí nebo posluchač (telefonický dialog) B. Zevšeobecnění aktantu (volného doplnění?) – Gen(eral) – fungování dialogového testu (19) Moje vnučka už čte. Gen.PAT *Co čte? (20) Otec sedí u stolu a čte. Co čte? – To, co má v ruce, přesně nevím. (21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR *Co prodává? *Komu prodává? SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 11
(22) Student mluví na chodbě s učitelem (ADDR). O čem? Nevím – PAT je fakultativní (23) Syn vzrušeně mluvil o maturitní zkoušce Gen.ADDR. ?S kým? S přítomným(i) posluchačem(i)/s kýmkoli – ADDR je obligatorní (24) Jan (už to) auto prodal Gen.ADDR. Komu? Někomu určitě, přesně nevím. (25) Dcera dostala k narozeninám krásné dárky Gen ORIG. Od koho? Od dárců, přesně nevím od kterých. (26) Věra si koupila nové boty. Od koho? Nevím – fakultativní ORIG (27) Jan pojede do Šlapanic na konferenci. Čím? Nevím – volný MEANS (prostředek) Dialogový test – pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky, možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: Gen „cokoliv, co je vhodné pro tu činnost“ / „něco konkrétního, co není přesně specifikováno, ale v situaci je přítomno“. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 12
3.2 Vydělení další skupiny – kvazivalenční doplnění 3.2.1 Překážka – OBST(acle) (nově zavedený funktor) (28) Matka se píchla nůžkami vs. o nůžky. (29) Růženka se píchla o trn. (30) Jan zakopl (nohou) o stůl. (31) Jan zavadil o roh stolu (nohou). oblig. OBST 3.2.2 Mediátor – MEDIAT (nově zavedený funktor) (32) Otec přitáhl kluka (levou rukou) za ucho. (33) Když jsem odcházel, zatahal mě soused za rukáv. (34) Jan přivedl psa za obojek. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 13
3.2.3 Rozdíl – DIFF(erence) (modifikovaný funktor, dříve volné určení) (35) Inflace se zvýšila proti roku 2000 o několik procent. (36) Náš tým zvítězil o dvě branky. (37) Jan zvítězil v závodě o prsa. (38) Postupte o dva schody výš. Shody OBST, MEDIAT a DIFF s aktanty: (i) vyskytují se s omezenou třídou řídících slov (ii) jsou vazebné (rekce) (iii) nemohou se opakovat (u jednoho řídícího slova) Shoda s volnými doplněními: (iv) jsou sémanticky vyhraněné (přestože jsou vazebné) Na „kvazivalenčnost“ aspirují i další doplnění, např. Záměr (INTT – intence) šel nakupovat, odešel z domova hledat práci. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 14
4. Vztah lexikálního významu (polysémie slovesa) a valence Jedna (lexikální) jednotka má vice valenčních rámců – je to (minimálně) tolik lexií, kolik je valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě - shoda ve valenčním rámci, ale nesporný rozdíl v lexii) (39) hrát1 karty PAT [4;obl] (= provozovat nějakou hru) hrát2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje) (40) bát se1 matky/čerta PAT [2;obl] (= mít strach z …) bát se2 o matku PAT [o+4,vv;obl] (= obávat se o…/že…) (41) odpovídat1 komu na co PAT [na+4,vv;obl] ADDR [3;obl] odpovídat2 čemu PAT [3;obl] odpovídat3 za co PAT [za+4;obl] (42) poslat1 dopis příteli (do Brna), poslat1 žádost městskému úřadu PAT [4;obl] ADDR [3;obl] (= adresovat) poslat2 žádost na úřad, poslat2 studentku do podatelny PAT [4;obl] DIR3 [;obl] (= odeslat, vypravit) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 15
5. Výstavba valenčních slovníků pro účely PDT jádro anotace na tektogramatické rovině problém udržení konzistence valenční slovník slovesa – dvě větve seznamy valenčních rámců využívaných anotátory PDT (PDT-VALLEX) komplexní valenční slovník (VALLEX) substantiva zpracovávání teoretických aspektů a metodologie (Panevová, Kolářová-Řezníčková) seznamy substantiv a jejich doplnění (PDT-VALLEX) adjektiva seznamy adjektiv a jejich doplnění SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 16
Valenční slovník sloves – PDT-VALLEX seznamy valenčních rámců vytvářených a využívaných anotátory PDT valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace); lexém jako celek není zpracováván valenční rámec – soubor slovesných doplnění charakterizován příkladem/příklady pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní možné povrchové vyjádření dát ... ACT(1;obl) ADDR(3;obl) PAT(4;obl) dát někomu knihu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 17
Valenční slovník sloves – VALLEX komplexní informace o celém slovesném lexému (Lopatková et al., 2002) valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami a příklady užití valenční rámec – soubor valenčních doplnění pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní / typické možné povrchové vyjádření doplňující syntaktické informace mluvit ... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt) mluvila s ním o dětech SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 18
Valenční slovník sloves – VALLEX valenční rámec typická doplnění „obvykle“ užívaná fakultativní volná doplnění obvykle rozvíjejí celou skupinu sloves s „podobným“ významem „slovesa pohybu“ jít do kina / přes les / jít z domova - směrová „slovesa výměny“ dát / dostat / získat / brát něco.PAT za něco.RCMP obligatorní fakultativní aktanty kvazivalenční volná typická SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 19
Valenční slovník sloves – VALLEX doplňující syntaktické informace pro jednotlivé valenční rámce vid a odkaz na odpovídající vidový protějšek kontrola syntacticko-sémantická třída (pracovní rozdělení) idiomy rozpracováno: reciprocita reflexivita možné diateze, způsoby pasivizace odkazy na odpovídající synsety české větve WordNetu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 20
Proč dvě větve valenčního slovníku? PDT-VALLEX ~ „extenzivní“ přístup cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso) nutné pro anotaci, 100% pokrytí na PDT VALLEX ~ „intenzivní“ přístup 1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso) slovesa podle frekvence v ČNK, PDT pokrytí cca 85% na „běžícím textu“ v PDT (se slovesem být a modálními slovesy – zatím nezpracováno) PDT-VALLEX a VALLEX budou sloučeny dokončení anotace TR PDT, kontroly SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 21
Využití valenčního slovníku dosažení konzistence při anotování valenční struktury na TR PDT (PDT-VALLEX) automatická syntactická analýza („shallow parsing“) (Žabokrtský) (VALLEX) automatický „tektogramatický“ parser automatický systém pro budování podkladové reprezentace českých vět (Honetschlager) (PDT-VALLEX, VALLEX) data pro (poloautomatické) vytváření valenčního slovníku českých substantiv (Kolářová-Řezníčková) (VALLEX) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 22
Jazykové zdroje teoretické články o valenci (Panevová) Manuál pro tektogramatické značkování (Hajičová et al., 2001) seznamy valenčních rámců využívaných anotátory PDT electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997) tištění slovníky: Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) Český národní korpus (ČNK) EuroWordNet, česká větev WordNetu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 23
Literatura Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština – univerzália a specifika 2, MU, Brno, pp. 173-180. Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3, MU, Brno, pp. 139-146. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15. Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79-80. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 24