Valence a Pražský závislostní korpus (PDT)

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

PKML.
Stodůlky 1977 a 2007 foto Václav Vančura, 1977 foto Jan Vančura, 2007.
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Kolja 5. Kdo je tady? Kdo má domácí úkol? RL8 nová slova.
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Základové větné struktury, slovesná valence a její chápání
Základové větné struktury, slovesná valence a její chápání
Lingvistika dvacátého století Magda Ševčíková Přednáška
Magnetohydrodynamický (MHD) generátor
Personální managament
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
Dynamické rozvozní úlohy
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
Elektrický obvod a jeho části
Zápis čísla v desítkové soustavě
Výzkumy volebních preferencí za ČR a kraje od
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
Kolja 5 (první část). Kdo je tady? Kdo má domácí úkol?
Správné pády I In the following sentences, put the nouns between slash marks into the correct case. Vzor: Přes naše rozdíly zůstanu /tvůj přítel/. Přes.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Výukový matriál byl zpracován v rámci projektu OPVK 1
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Očísluj dopisy násobky čísla 2
Zábavná matematika.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Vlastnosti sčítání a odčítání
Letokruhy Projekt žáků Střední lesnické školy a střední odborné školy sociální ve Šluknově.
Stav studie „Seroprevalence VHC u injekčních uživatelů drog“ k Národní monitorovací středisko pro drogy a drogové závislosti Úřad vlády ČR tel.
Jazyk vývojových diagramů

Nejmenší společný násobek
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Posloupnosti, řady Posloupnost je každá funkce daná nějakým předpisem, jejímž definičním oborem je množina všech přirozených čísel n=1,2,3,… Zapisujeme.
52_INOVACE_ZBO2_1364HO Výukový materiál v rámci projektu OPVK 1.5 Peníze středním školám Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Rozvoj vzdělanosti.
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Dělení se zbytkem 8 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
DĚLENÍ ČÍSLEM 7 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
MS PowerPoint Příloha - šablony.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
Název materiálu: OPAKOVÁNÍ 1.POLOLETÍ - OTÁZKY
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Technické kreslení.
E-knihovna pro knihovníky Seminář E-knihy III, NTK,
Úkoly nejen pro holky.
Přednost početních operací
DĚLENÍ ČÍSLEM 5 HLAVOLAM DOPLŇOVAČKA PROCVIČOVÁNÍ Zpracovala: Mgr. Jana Francová, výukový materiál EU-OP VK-III/2 ICT DUM 50.
Slovní úlohy řešené soustavou rovnic
Rekurze Predikát predek(X,Y). predek(X,Y) :- rodic(X,Y). predek(X,Y) :- rodic(Z,Y),predek(X,Z).
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
KONTROLNÍ PRÁCE.
Autor: Ondřej Šimeček Verze: 1.1.3
Valenční slovník českých sloves Zdeněk Žabokrtský ÚFAL,
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
Explicitní popis jazyka a anotovaná data se zřetelem na češtinu GA ČR P406/10/0875 Explicitní popis jazyka a anotovaná data se zřetelem na češtinu Workshop.
Transkript prezentace:

Valence a Pražský závislostní korpus (PDT) Jarmila Panevová, ÚFAL MFF UK Markéta Lopatková, CKL MFF UK panevova@ufal.mff.cuni.cz lopatkova@ckl.mff.cuni.cz SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 1

Osnova východisko – teorie valence ve FGD třídění slovesných doplnění závaznost doplnění jazyková strukturace – posouvání uplatnění navržené valenční teorie na další slovní druhy adjektiva substantiva otázky a problémy sémantická obligatornost a povrchová vypustitelnost kvazivalence vztah lexikálního významu a valence výstavba valenčních slovníků PDT-VALLEX VALLEX SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 2

1. Teorie valence v teoretickém plánu (ve FGP – funkčním generativním popisu) – pro slovesa: 1.1 Třídění slovesných doplnění (srov. Přílohu, seznam „funktorů“) podle způsobů jejich spojování se slovesy: (i) jednou x víckrát u jednoho slovesa (ii) omezený seznam sloves x každé sloveso   Levá strana (i) a (ii) – aktanty (partcipanty) Pravá strana (i) a (ii) – volná doplnění Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek (EFFektum) Volná doplnění: lokální, směrová, temporální, způsobová, kauzální,… (viz Přílohu) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 3

1.2 Závaznost spojení slovesa s valenčním členem: Aktanty: obligatorní – fakultativní (ale v obou případech jsou součástí valenčního rámce slovesa v lexikonu) Volná doplnění: obligatorní – fakultativní (jen obligatorní jsou součástí valenčního rámce slovesa v lexikonu) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 4

1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: „Dialogový test“ – (ne)přijatelnost odpovědi „Nevím“ při otázce po valenčním členu.   (b) Přístupy k vymezení počtu aktantů: (ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor, …, Stimul, Destruktiv, Beneficient,… (bb) 1. aktant, 2. aktant, 3. aktant Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 5

Jazyková strukturace (posouvání) Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno) (1) Jan běží. (2) Jan otevřel (dveře). (3) Jan spí. (4) Slunce/kniha vychází. (5) Komín kouří. (6) Klíč/vítr otevřel (dveře). (7) Jan upustil/rozbil (vázu). SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 6

Jazyková strukturace (posouvání) Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním aktantem je ve valenčním rámci vždy přítomno) (8) Jan otevřel dveře. (9) Jan potkal listonoše. (10) Náhle ho oslovil neznámý člověk. (11) Chlapec vyrostl/vyspěl v muže. (12) Hrobník vykopal hrob. Slovesa se 3 a více aktanty – sémantické hodnocení (fakultativní aktanty jsou v závorce) (13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky). (14) Švadlena přešila (zákaznici) šaty (na župan). (15) Matka předělala (dětem) loutku z Kašpárka na čerta. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 7

2. Uplatnění navržené valenční teorie na další slovní druhy (i) vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo potřebujeme další jednotky?   (ii) uplatňuje se tu princip „posouvání“ jako u sloves? SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 8

B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy 2.1 Adjektiva A. Deverbativní: odvozená z tvarů činných – „pohlcení“ pozice ACT, odvozená z tvarů trpných – „pohlcení“ pozice PAT, popř. ADDR, (EFF?)   (16) digestoř pohlcující kuchyňské pachy … = digestoř, která pohlcuje … (17) Odevzdal náramek nalezený na ulici … = náramek, který nalezl/byl nalezen na ulici (18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které (ADDR) informovali/kteří byli informováni o formách … B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy plný – čeho (obligatorní „partitiv“ – MAT(eriál)) hrdý – na koho/co (PAT – fakultativní nebo obligatorní?, odpověď spojena s řešením lexikálních vlastností, polysémie adjektiva) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 9

2.2 Substantiva   A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v „povrchové vypustitelnosti“ – vše je vypustitelné) B. Primární: specifická doplnění substantiv (vedle doplnění slovesných) MAT(eriál) – partitiv – aktant oblig. nebo fakult. (?) – část národa, skupina dětí, košík hub, talíř polévky,… APP(urtenanance) – přináležitost – volné doplnění, u některých substantiv (zejm. relačních) obligatorní – bratr Josefa Čapka, povrch zeměkoule,… ID(entity) – „nominativ jmenovací“ – (fakultativní) aktant – hrad Trosky, parník Hradčany,… Odpovědi na otázky: (i) viz výše (ii) zatím otevřeno, ale srov. poradce prezidenta.ADDR, asistent primáře.ADDR (ACT u konatelských jmen „pohlcen/zabudován“, PAT je všeobecný?) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 10

3. Otázky a problémy 3.1 Sémantická obligatornost a povrchová vypustitelnost A. Přijít – kam, odejít – odkud, vrátit se – kam – sémanticky obligatorní na povrchu nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem, kde je mluvčí nebo posluchač (telefonický dialog)   B. Zevšeobecnění aktantu (volného doplnění?) – Gen(eral) – fungování dialogového testu (19) Moje vnučka už čte. Gen.PAT *Co čte? (20) Otec sedí u stolu a čte. Co čte? – To, co má v ruce, přesně nevím. (21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR *Co prodává? *Komu prodává? SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 11

(22) Student mluví na chodbě s učitelem (ADDR). O čem? Nevím – PAT je fakultativní (23) Syn vzrušeně mluvil o maturitní zkoušce Gen.ADDR. ?S kým? S přítomným(i) posluchačem(i)/s kýmkoli – ADDR je obligatorní (24) Jan (už to) auto prodal Gen.ADDR. Komu? Někomu určitě, přesně nevím. (25) Dcera dostala k narozeninám krásné dárky Gen ORIG. Od koho? Od dárců, přesně nevím od kterých. (26) Věra si koupila nové boty. Od koho? Nevím – fakultativní ORIG (27) Jan pojede do Šlapanic na konferenci. Čím? Nevím – volný MEANS (prostředek)   Dialogový test – pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky, možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: Gen „cokoliv, co je vhodné pro tu činnost“ / „něco konkrétního, co není přesně specifikováno, ale v situaci je přítomno“. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 12

3.2 Vydělení další skupiny – kvazivalenční doplnění 3.2.1 Překážka – OBST(acle) (nově zavedený funktor) (28) Matka se píchla nůžkami vs. o nůžky. (29) Růženka se píchla o trn. (30) Jan zakopl (nohou) o stůl. (31) Jan zavadil o roh stolu (nohou). oblig. OBST   3.2.2 Mediátor – MEDIAT (nově zavedený funktor) (32) Otec přitáhl kluka (levou rukou) za ucho. (33) Když jsem odcházel, zatahal mě soused za rukáv. (34) Jan přivedl psa za obojek. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 13

3.2.3 Rozdíl – DIFF(erence) (modifikovaný funktor, dříve volné určení)   (35) Inflace se zvýšila proti roku 2000 o několik procent. (36) Náš tým zvítězil o dvě branky. (37) Jan zvítězil v závodě o prsa. (38) Postupte o dva schody výš. Shody OBST, MEDIAT a DIFF s aktanty: (i) vyskytují se s omezenou třídou řídících slov (ii) jsou vazebné (rekce)      (iii) nemohou se opakovat (u jednoho řídícího slova) Shoda s volnými doplněními: (iv) jsou sémanticky vyhraněné (přestože jsou vazebné) Na „kvazivalenčnost“ aspirují i další doplnění, např. Záměr (INTT – intence) šel nakupovat, odešel z domova hledat práci. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 14

4. Vztah lexikálního významu (polysémie slovesa) a valence Jedna (lexikální) jednotka má vice valenčních rámců – je to (minimálně) tolik lexií, kolik je valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě - shoda ve valenčním rámci, ale nesporný rozdíl v lexii) (39) hrát1 karty PAT [4;obl] (= provozovat nějakou hru) hrát2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje) (40) bát se1 matky/čerta PAT [2;obl] (= mít strach z …) bát se2 o matku PAT [o+4,vv;obl] (= obávat se o…/že…) (41) odpovídat1 komu na co PAT [na+4,vv;obl] ADDR [3;obl] odpovídat2 čemu PAT [3;obl] odpovídat3 za co PAT [za+4;obl] (42) poslat1 dopis příteli (do Brna), poslat1 žádost městskému úřadu PAT [4;obl] ADDR [3;obl] (= adresovat) poslat2 žádost na úřad, poslat2 studentku do podatelny PAT [4;obl] DIR3 [;obl] (= odeslat, vypravit) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 15

5. Výstavba valenčních slovníků pro účely PDT jádro anotace na tektogramatické rovině problém udržení konzistence  valenční slovník slovesa – dvě větve seznamy valenčních rámců využívaných anotátory PDT (PDT-VALLEX) komplexní valenční slovník (VALLEX) substantiva zpracovávání teoretických aspektů a metodologie (Panevová, Kolářová-Řezníčková) seznamy substantiv a jejich doplnění (PDT-VALLEX) adjektiva seznamy adjektiv a jejich doplnění SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 16

Valenční slovník sloves – PDT-VALLEX seznamy valenčních rámců vytvářených a využívaných anotátory PDT valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace); lexém jako celek není zpracováván valenční rámec – soubor slovesných doplnění charakterizován příkladem/příklady pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní možné povrchové vyjádření dát ... ACT(1;obl) ADDR(3;obl) PAT(4;obl) dát někomu knihu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 17

Valenční slovník sloves – VALLEX komplexní informace o celém slovesném lexému (Lopatková et al., 2002) valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami a příklady užití valenční rámec – soubor valenčních doplnění pro jednotlivá slovesné doplnění specifikován: „funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním typ doplnění – obligatorní / fakultativní / typické možné povrchové vyjádření doplňující syntaktické informace mluvit ... ACT(1;obl) ADDR(s+7;obl) PAT(o+6;opt) mluvila s ním o dětech SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 18

Valenční slovník sloves – VALLEX valenční rámec typická doplnění „obvykle“ užívaná fakultativní volná doplnění obvykle rozvíjejí celou skupinu sloves s „podobným“ významem „slovesa pohybu“ jít do kina / přes les / jít z domova - směrová „slovesa výměny“ dát / dostat / získat / brát něco.PAT za něco.RCMP obligatorní fakultativní aktanty kvazivalenční volná typická SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 19

Valenční slovník sloves – VALLEX doplňující syntaktické informace pro jednotlivé valenční rámce vid a odkaz na odpovídající vidový protějšek kontrola syntacticko-sémantická třída (pracovní rozdělení) idiomy rozpracováno: reciprocita reflexivita možné diateze, způsoby pasivizace odkazy na odpovídající synsety české větve WordNetu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 20

Proč dvě větve valenčního slovníku? PDT-VALLEX ~ „extenzivní“ přístup cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso) nutné pro anotaci, 100% pokrytí na PDT VALLEX ~ „intenzivní“ přístup 1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso) slovesa podle frekvence v ČNK, PDT pokrytí cca 85% na „běžícím textu“ v PDT (se slovesem být a modálními slovesy – zatím nezpracováno) PDT-VALLEX a VALLEX budou sloučeny dokončení anotace TR PDT, kontroly SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 21

Využití valenčního slovníku dosažení konzistence při anotování valenční struktury na TR PDT (PDT-VALLEX) automatická syntactická analýza („shallow parsing“) (Žabokrtský) (VALLEX) automatický „tektogramatický“ parser automatický systém pro budování podkladové reprezentace českých vět (Honetschlager) (PDT-VALLEX, VALLEX) data pro (poloautomatické) vytváření valenčního slovníku českých substantiv (Kolářová-Řezníčková) (VALLEX) SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 22

Jazykové zdroje teoretické články o valenci (Panevová) Manuál pro tektogramatické značkování (Hajičová et al., 2001) seznamy valenčních rámců využívaných anotátory PDT electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997) tištění slovníky: Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves Slovník spisovného jazyka českého (SSJČ, 1964) Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978) Slovník českých synonym (SČS, 1994) Slovník české frazeologie a idiomatiky (SČFI, 1983) Český národní korpus (ČNK) EuroWordNet, česká větev WordNetu SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 23

Literatura Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel, Prague: Academia Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of Structural and Functional Linguistics, John Benjamins, pp. 223-243. Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14. Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština – univerzália a specifika 2, MU, Brno, pp. 173-180. Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3, MU, Brno, pp. 139-146. Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003, Paris. (in press) Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15. Lopatková, M. (2003) Valency in the Prague Dependency Treebank: Building the Valency Lexicon. PBML 79-80. (in press) Pala, K., Ševeček, P. (1997) Valence českých sloves. In: Sborník prací FFUB, Brno. SNK, JÚ ĽŠ SAV, Bratislava, 6. 10. 2003 24