Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 / 36 Komplexně anotovaný elektronický valenční slovník českých sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský říjen 2001.

Podobné prezentace


Prezentace na téma: "1 / 36 Komplexně anotovaný elektronický valenční slovník českých sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský říjen 2001."— Transkript prezentace:

1 1 / 36 Komplexně anotovaný elektronický valenční slovník českých sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský říjen 2001

2 2 / 36 Osnova 1) úvod, motivace 2) rozšířený pohled na valenci 3) rámec vs. význam, souvislost s EuroWordNetem 4) jak slovník vznikal a vzniká 5) vybrané kvantitativní charakteristiky slovníku 6) možnosti využití slovníku 7) otevřené otázky kolem slovníku 8) VALANTINE 0.5 - valence sloves napříč jazyky

3 3 / 36 Valence ? “Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Slovesa pro praxi, Academia 1997) “The range of syntactic elements either required or specifically permitted by a verb or other lexical unit...“ ( The Concise Oxford Dictionary of Linguistics, © Oxford University Press 1997 )

4 4 / 36 Pozorování A) j, a ty dobře víš, zač zdejší život, když ho p B) jí, ať to stojí, co to. Domníval se, že mám n C) a nohou krátké holínky a opřen o veřeje. Domluví D) l ), jehož budova dosud poblíž Nollendorfského n E) áme vidět, proč vlastně za to žít. Myslíme si, F) adu naděje v reinkarnaci před jasnými hranicemi. G) Americe, kde proti němu největší skupina nevěříc H) em ročním. Za pozornost pokles likvidity akcií I I) hodin ráno a pan Brodský v županu v otevřených dv J) sti festivalového paláce na dva týdny pět tisíc š K) adní hlas. Také učitelé za ředitelkou : petici n významy: J A,E... C,I G - ve větách s daným slovesem se často vyskytují podobnosti, vzory, a to jak z významové, tak z hlediska „stavby“ věty hledáme zobecnění (průchod svazem): A,B,C,D,E,.... {A,E},{C,I},G,.... {A,E,C,I,....}

5 5 / 36 Výchozí model každé sloveso má konečnou (zpravidla velmi malou) množinu valenčních rámců na množině rámců se nedefinuje další struktura každý rámec obsahuje konečný (velmi malý) počet prvků Příklad: –odpovídat někomu na něco (kolegovi na otázku) –odpovídat někomu za něco (rodičům za děti) –odpovídat něčemu (očekáváním, normě)

6 6 / 36 Kde hledat informace o valenci Slovník českých synonym, NLN, Praha, 1994. Slovník spisovné češtiny, Academia, Prague, 1994. Slovník spisovného jazyka českého, Academia, Prague, 1989. Slovesa pro praxi, Academia 1997 Slovník české frazeologie a idiomatiky, Academia 1994 spousta příkladů v teoretických článcích pracovní poznámky anotátorů Pražského závislostního korpusu (PDT) „brněnský elektronický valenční slovník“ („brief“, 15000 sloves) valenční slovník H.Skoumalové

7 7 / 36 Proč potřebujeme „další“ valenční slovník ? Současný stav: –pro češtinu nemáme žádný dostatečně rozsháhlý elektronický valenční slovník, který by všechny zachycované jevy řešil systematicky Prvotní cíl: –vytvořit malý, ale bohatě anotovaný slovník –důraz na konzistenci a úplnost –zmapovat existující elektronické zdroje, které by bylo možné využít –ujasnit pracovní postup a vyrobit „technologii“ pro jeho rozšíření

8 8 / 36 Rozšířený pohled na valenci slovesa oproti „klasickému pražskému pohledu“ (v rámci jsou pouze aktanty a obligatorní volná doplnění) bude slovník rozšířen ve dvou dimenzích: (A) chceme rozšířit skupinu doplnění zachycovaných v rámci (B) očekáváme nutné zvýšení počtu rámců na sloveso

9 9 / 36 (A) Proč potřebujeme rozšířené valenční rámce ? proti: –F&F: „volná doplnění se spojují se všemi slovesy, pokud to obsahové vztahy připouštějí“ pro: –„obsahové vztahy“ - z hledisk NLP příliš vágní pojem, obecná pravidla nejsou k dispozici, takže nezbývá než rozdíly mezi slovesy zachytit ve slovníku (ať už tomu budeme říkat valenční slovník, nebo ne) –pro NLP bude užitečná i informace o jakýchkoli (tj. i „nevalenčních“) doplněních; navíc to máme ve vstupních datech, tak proč to zahazovat

10 10 / 36 Navržená klasifikace prvků valenčního rámce valenční doplnění (obl. & opt.) –Meaning...,Formy a funkce –aktanty a obligatorní volná doplnění kvazivalenční doplnění –„obvyklá“ doplnění predikovaná významem slovesa –mohou specifikovat význam typická volná doplnění –„volná doplnění“ predikovaná významem slovesa –nespecifikují význam

11 11 / 36 (B) Proč potřebujeme více rámců ? proti –často je „ekonomičtější“ slít dva rámce do jednoho: je-li první rámec podmnožinou druhého (ale docházet ACT (benzín), docházet ACT DIR3 (do školy) ), nebo liší-li se jen povrchovou realizací téže funkce (čekat Acc, čekat na+Acc), pro –(teor.) snaha o minimalizaci počtu rámců může vést k zastření vztahu mezi rámcem a významem slovesa –(prakt.) rozlišování i jemných nuancí mezi rámci zvýší užitnou hodnotu valenčního slovníku pro NLP (word sense disambiguation, strojový překlad)

12 12 / 36 Význam slovesa vs. (povrchová) valence neostrá hranice mezi jednotlivými významy, ale přesto: změna povrchové realizace argumentů (změna použitého rámce) slovesa indikuje změnu významu slovesa: –nechat něčeho, nechat někomu něco, něchat někoho něco dělat... intuice: většinou to bude 1:1 lze ale pozorovat: –1:N dodat někomu odvahu / dodat někomu odvahy –N:1 přijít na myšlenku / přijít na koncert různé významy téhož slovesa lze použít jako vodítko pro rozhodnutí, kdy jde o dva odlišné rámce a kdy jde jen o alternativní povrchovou realizaci uvnitř jediného rámce pomůcka na odlišení různých významů: EuroWordNet

13 13 / 36 EuroWordNet (1) multilinguální lexikální databáze (8 jazyků: Dutch, Italian, Spanish, German, French, Czech and Estonian) hlavní stavební jednotka je synset - skupina literálů téhož slovního druhu, které jsou v určitém kontextu vzájemně zaměnitelné („set of synonyms“) mezi synsety - sémantické relace (zejména hyponymie a hyperonymie) synsety jednotlivých jazyků jsou provázané pomocí Inter Lingual Index Princeton WordNet 1.5EuroWordNet note, observe, make a remark, remark prohodit, poznamenat, připomenout anmerken, bemerken...

14 14 / 36 EuroWordNet (2) v současnosti: cca 3000 českých sloves K čemu EWN používáme: aproximace pro odlišování různých významů slovesa inspirace (hledání dalších významů a rámců slovesa) brána k dalším jazykům český synset anglický synset anglická glosa

15 15 / 36 Jak vznikla současná verze slovníku brněnský valenční slovník H.Skoumalová: sloučení rámců a předvyplnění funktorů ruční anotace (editor v MS Access) převod do XML import dat z dalších zdrojů předvyplnění funktorů ruční anotace XML verze slovníku XSL transformace HTML verze slovníku EuroWordNet valenční rámce od Z.Urešové seznam reflexivních sloves verba dicendi... další dávky po 100 slovesech prvních 178 sloves

16 16 / 36 Co ve slovníku zachycujeme? pro každé z vybraných lemmat –výčet rámců slovesa pro každý rámec –výčet prvků rámce v bezpříznakovém pořadí (zjednodušená verze systémového uspořádání) –odkaz na odpovídající synset(y) –příklad použití, poznámka –typ užití (primární, přenesené,pomocné,frazeologické) –reciprocita pro každý prvek rámce: –funktor –povrchová forma (pád, předložka, infinitiv, klauze, libovolná) –„typ vazby“ podle uvedené klasifikace (oblig.,opt.,kvazival.,...)

17 17 / 36 Ukázka dat

18 18 / 36 Statistické vyhodnocení (1): základní údaje Počet všech sloves (lemmat) ve slovníku: 351 Počet všech rámců: 1027 (2.9 rámce na sloveso) Počet všech prvků v rámcích: 3072 (3.0 prvků na rámec) Počet sloves nalezených v EWN: 181 (51.6 % ze zprac. sloves) Součet počtu synsetů u nalezených sloves: 642 (3.5 synsetů na sloveso)

19 19 / 36 Statistické vyhodnocení (2) Rozložení počtu rámců na sloveso Rozložení počtu prvků na rámec [%] ze všech sloves [%] ze všech rámců počet rámců počet sloves

20 20 / 36 Statistické vyhodnocení (3): pokrytí sloves v PDT lexicon.xml 26,1% vallex-01.xml 7,9% vallex-04.xml 2,9% vallex-05.xml 2,7% vallex-06.xml 2,1% vallex-07.xml 1,8% vallex-08.xml 1,6% vallex-09.xml 1,5% vallex-10.xml 1,3% být a modální 28,5% zbytek 15,2% vallex-03.xml 3,4% vallex-02.xml 5,1% první pokusná dávka (162 sloves) další dávky po 100 slovesech dokončeno před 15,10,2001

21 21 / 36 Plánované rozšíření slovníku zachycování dalších jevů –kontrola –reflexivita –pasivizace –vztahy mezi slovesy (vidové dvojice, odvozené tvary, synonyma...) zpracování dalších sloves –dávky po 100 slovesech –kritérium výběru: četnost v PDT využití dalších elektronických zdrojů

22 22 / 36 Elektronické zdroje,... {ckl,ufal}.mff.cuni.cz fi.muni.czujc.cas.czucnk.ff.cuni.czutkl.fi.cuni.cz...které používáme... –„Brněnský elektronický valenční slovník“ –EuroWordNet –valenční slovník H.Skoumalové –valenční rámce od Z.Urešové –seznam verba dicendi prof.Panevové –seznam reflexivních sloves od E.Buráňové... a které chceme v blízké budoucnosti používat –Český národní korpus –Pražský závislostní treebank –Slovník spisovného jazyka českého –Slovník české frazeologie a idiomatiky

23 23 / 36 Hledání v Českém národním korpusu příklad: chodit na+4 dotaz: (lemma="chodit" {0,6} word="na" {0,3} tag="N...4.*") within s nalezeno 2097 výskytů

24 24 / 36 Hledání v analytických stromech PDT Netgraph - nástroj pro vyhledávání ve stromech PDT dotaz je možné zadat jako strom hledáme chodit na+4

25 25 / 36 Hledání v analytických stromech PDT chodit na+4 - nalezeno 12 výskytů

26 26 / 36 Slovník české frazeologie a idiomatiky 113 položek pro „chodit“ chodit (jen tak) nazdařbůh chodit (jen) na lehko chodit (pořád) dokola chodit (pořád) dokolečka chodit (už zase) po dvou chodit domů jen spát chodit dům od domu chodit jen tak nalehko chodit ještě na houbách chodit ještě po houbách chodit k někomu do školy chodit kolem horké kaše chodit kolem někoho po špičkách chodit ležet chodit mezi kapkami chodit mezi lidi chodit mezi vejci chodit na (něčí) hrob chodit na něco chodit na někoho s flintou chodit na někoho s něčím chodit na někoho chodit na vrabce s bubnem chodit na zálety chodit na štrych chodit naboso chodit nalehko chodit někomu do zelí chodit někudy křížem krážem chodit o holi chodit o žebrácké holi chodit od Annáše ke Kaifášovi chodit od Pontia k Pilátovi chodit od domu k domu chodit od ničeho k ničemu chodit od čísla k číslu chodit po (všech) čertech ďáblech chodit po doktorech...

27 27 / 36 Možnosti využití valenčního slovníku krátkodobá perspektiva: –tektogramatická anotace PDT –zpětná vazba na kvalitu EuroWordNetu střednědobá p. –word sense disambiguation –parsing –testovací data pro metody automatické extrakce rámců dlouhodobá p. –strojový překlad

28 28 / 36 Přiřazovaní valenčních rámců slovesům při TG anotaci cíl: usnadnit ruční anotaci, zvýšit „shodu“ mezi anotátory vstupní data: 351 sloves 2.9 rámce na sloveso 3.0 prvku na rámec editor stromů TrEd cca 1300 sloves, 1.1 rámce na sloveso, 2.4 prvku na rámec valenční slovník Z.Urešové náš valenční slovník

29 29 / 36

30 30 / 36

31 31 / 36 Zpětná vazba pro autory EWN „podezřelé“ mapování rámců na synsety může indikovat chybu v EWN (nebo chybu ve slovníku) Rámce : synsety –1:1 - ideální případ –1:0 - pro rámec „odpovídat za něco“ chybí synset, ačkoli pro „odpovídat něčemu“ a „odpovídat někomu“ tam synsety jsou –0:1 - sloveso „jít“ nepatří do následujícího synsetu: CZ: jít-11 EN: become-2 turn into-1 turn to-1 turn-1 Gloss: "The water turned into ice" –1:N –N:1

32 32 / 36 Otevřené otázky ostrá kritéria pro hledání hranic mezi rámci (brát léky/brát stopaře) ujasnění klasifikace prvků rámce (kvazivalence, typičnost) jak je to s povrchovou vypustitelností argumentů slovesa? jaké existují vztahy mezi prvky rámce? Nemate nás aktuální členění, např. koupit auto za sto tisíc/za sto tisíc koupit auto? vztahy mezi slovesy (vidové dvojice, odvozeniny, synonyma) jak je to s frazémy? - co s „rámci“, které vyžadují nejen formu, ale i specifické lexikální obsazení? jak co nejlépe využít ČNK a PDT pro usnadnění tvorby slovníku sémantické třídy sloves

33 33 / 36 Valence sloves napříč jazyky tři úrovně „propojení“ mezi jazyky: odpovídat odpovídat na něco odpovídat něčemu odpovídat za něco někdo (Nom) ACT odpovídá někomu (Dat) ADDR na něco (na+Acc) PAT answer, agree, beresponsible... answer s. agree with st. be responsible for st. somebody ACT answers something PAT to somebody ADDR antworten, entsprechen, verantwortlich sein antworten auf etw. entsprechen etw. verantwortlich sein fur etw. jemand ACT antwortet jemandem ADDR auf etwas PAT 1) 2) 3)

34 34 / 36 VALANTINE 0.5 Valency Accross LANguages - Tiny Interlingual NEtwork 0.5 cíl: shromáždit materiál pro pozorování vztahu mezi formou a funkcí v různých jazycích překlady 75 českých vět obsahujících různé valenční rámce 14 českých sloves češtinašpanělština ruština francouzština maďarština arabština italština makedonština angličtina A.Bémová A.Kalous J.Havelka I.Kruijff-Korbayová A.M.Moreaux K.Ribarov O.Smrž M.Ribarova Camuglia http://ckl.mff.cuni.cz/zabokrtsky/valantine

35 35 / 36 VALANTINE 0.5 Ukázka dat Petr dostal od Pavla peníze za práci. Péter Páltól a pénzet munkáért kapta. Peter received from Paul the money for the work. Pierre a touché de l’argent de Paul pour son travail. Petr ha preso da Pavel i soldi per il lavoro Pedro recibió de Pablo dinero por el trabajo. Petar dobi za rabotata pari od Pavel..ha.sala `umaru `alY nuqUdiN liqA'a al-`amali min ^sarIfiN.

36 36 / 36 Rozdíly z pohledu tektogramatické roviny význam slovesa v cílovém jazyce už jakoby obsahuje jeden z argumentů slovesa ve zdrojovém jazyce (v TGTS bude o uzel méně): –Petr dělal svou práci dobře.  (arab.) 'a.hsana `umaru `amalahu. ('a.hsana znamená dělat dobře) –Petr si vzal vsechno na starost.  (špan.) Pedro se encargó de todo. nějaký autosém. uzel vypadne, protože je vyjádřen formou jiného uzlu –Petr nechal opravit nábytek.  (maďar.) Péter a bútort javíttatta. (”javít” = ”opravit”, ”javíttat” = ”nechat opravit”) argument slovesa musí být „zdvojen“ –P. dělal dětem loutku z...  (mak.) Petar im pravese na decata kukla od hartija. větu nelze přeložit slovesem v činném rodě (ACT  PAT, PAT  ACT) –Petr dostal od Pavla chřipku.  (fr.) Paul a passé sa grippe a Pierre. sloveso v cíl. jazyce nemá v rámci nějaký prvek, překlad je pak nepřesný –Petr dal Pavlovi knihu na stůl.  (ital.) Petr ha messo il libro sul tavolo a Pavel. (dává knihu, která je na stole) –  (fr.) Pierre a mis le livre sur la table de Paul. (na Pavlův stůl) –Petr mluvil Pavlovi do všeho.  (ruš.) v cíl. jazyce chybí např. kauzativa, překlad je pak nepřesný –Petr nechal Pavla zabít.  (mak.) Petar go naraca ubistvoto na Pavel. –  (ruš.)

37 37 / 36 Valenční slovník - shrnutí snaha o zachycení komplexní informace o jednotlivých slovesech –velká časová náročnost –potřeba řešení dílčích problémů –velká náročnost na udržení konzistence možnost využití slovníku ostatními uživateli


Stáhnout ppt "1 / 36 Komplexně anotovaný elektronický valenční slovník českých sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský říjen 2001."

Podobné prezentace


Reklamy Google