Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková.

Podobné prezentace


Prezentace na téma: "1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková."— Transkript prezentace:

1 1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský květen 2001

2 2 / 28 Osnova 1) laický pohled na valenci sloves 2) existující zdroje informací o valenci českých sloves, motivace pro vytvoření dalšího slovníku 3) podrobnější model - porušení ekonomičnosti ? 4) souvislost s EuroWordNetem 5) stávající podoba slovníku (178 sloves), vybrané kvantitativní charakteristiky

3 3 / 28 Valence ? “Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Slovesa pro praxi, Academia 1997) “The range of syntactic elements either required or specifically permitted by a verb or other lexical unit...“ ( The Concise Oxford Dictionary of Linguistics, © Oxford University Press 1997 )

4 4 / 28 Teorií nedotčené pozorování některá slovesa mají dva nebo více různých významů (ať stanovíme hranici pro rozlišování různých významů jakkoliv) vztah slovesa a prvku, který se na určité sloveso ve větě váže, je do jisté míry určen „způsobem navázání“, tj. pádem, případně předložkou a pádem (případně podřadící spojkou) prvky v určitém pádu nebo s určitou předložkou se u daného slovesa v daném významu téměř vysloveně očekávají, některé se mohou vyskytnou téměř u jakéhokoli slovesa, některé naopak u daného slovesa působí nepřirozeně nebo naprosto nevhodně skupiny pádů a přeložek, které se na dané sloveso mohou vázat, se pro jednotlivé významy slovesa mohou (ale nemusí) lišit pro každý pád/předložku, dané sloveso a jeho význam lze vytvořit v určitém kontextu správnou českou větu, ve které tento pád/předložka je vypuštěn. Lze je vypustit i všechny najednou, nelze ale vypouštět všechny jejich kombinace.

5 5 / 28 Pozorování (2) A) j, a ty dobře víš, zač zdejší život, když ho p B) jí, ať to stojí, co to. Domníval se, že mám n C) a nohou krátké holínky a opřen o veřeje. Domluví D) l ), jehož budova dosud poblíž Nollendorfského n E) áme vidět, proč vlastně za to žít. Myslíme si, F) adu naděje v reinkarnaci před jasnými hranicemi. G) Americe, kde proti němu největší skupina nevěříc H) em ročním. Za pozornost pokles likvidity akcií I I) hodin ráno a pan Brodský v županu v otevřených dv J) sti festivalového paláce na dva týdny pět tisíc š K) adní hlas. Také učitelé za ředitelkou : petici n významy: J A,E... C,I G - ve větách s daným slovesem se často vyskytují podobnosti, vzory, a to jak z významové, tak z hlediska „stavby“ věty hledáme zobecnění (průchod svazem): (A,B,C,D,E,....) (A  E,C  I,G,....) (A  E  C  I ....)

6 6 / 28 Teorií „zatížený“ pohled každé sloveso má konečnou (zpravidla velmi malou) množinu valenčních rámců mezi jednotlivými rámci je zřetelná hranice na této množině rámců daného slovesa se už nedefinuje žádná struktura každý rámec obsahuje konečný (velmi malý) počet prvků

7 7 / 28 Kde hledat informace o valenci Slovník českých synonym, NLN, Praha, Slovník spisovné češtiny, Academia, Prague, Slovník spisovného jazyka českého, Academia, Prague, Slovesa pro praxi, Academia 1997 spousta příkladů v teoretických článcích pracovní seznamy anotátorů PDT „Palův elektronický valenční slovník“ (15000 sloves) CNK, PDT

8 8 / 28 Proč potřebujeme „další“ valenční slovník ? Současný stav: –neexistuje dostatečně rozsáhlý valenční slovník, který by obsahoval funktory (pro ruční i automatickou anotaci PDT) –pro češtinu nemáme žádný elektronický slovník, který by všechny zachycované jevy řešil systematicky (např. problémy se „se“) –neexistují ani pravidla pro vytvoření takového slovníku (např. nedostačující notace) Prvotní cíl: –vytvořit malý, ale bohatě anotovaný slovník –důraz na konzistenci a úplnost –ujasnit pracovní postup a vyrobit „technologii“ pro jeho rozšíření (s maximálním využitím existujících zdrojů)

9 9 / 28 Co ve slovníku zachycujeme? pro každé z vybraných 178 sloves (lemmat) –výčet rámců slovesa –výčet „významů“ slovesa (synsety z EuroWordNetu) –četnost v PDT (v budoucnu příklady z PDT) –rámce z „Palova elektronického valenčního slovníku“ –vidová dvojice pro každý rámec –výčet prvků rámce v bezpříznakovém pořadí (zjednodušená verze systémového uspořádání) –odkaz na odpovídající synset(y) –příklad použití, poznámka –v budoucnu: reflexivita, reciprocita pro každý prvek rámce: –funktor –povrchová forma (pád, předložka, infinitiv, klauze, libovolná) –„typ vazby“ podle uvedené klasifikace (oblig.,opt.,kvazival.,...) –informace o vzájemné výlučnosti s jiným prvkem (velmi zřídka)

10 10 / 28 Porušení „principu ekonomičnosti“ oproti „klasickému pražskému pohledu“ (tj. v rámci pouze aktanty a obligatorní volná doplnění) bude slovník rozšířen ve dvou dimenzích: (A) očekáváme nutné zvýšení počtu rámců na sloveso a (B) chceme rozšířit skupinu doplnění zachycovaných v rámci sloveso1 –rámec1 xxx xx xxxx x xx... –rámec2 xx xx x xx... sloveso2 –rámec1 xxx xx xxxx x xx –rámec2 xxx xx xxx x x –rámec1 xx xxxx xxxx xx xxx...

11 11 / 28 (A) Proč potřebujeme rozšířené valenční rámce ? proti: –F&F: „[volná doplnění] se spojují se všemi slovesy, pokud to obsahové vztahy připouštějí“ pro: –„obsahové vztahy“ - příliš vágní pojem, obecná pravidla nejsou k dispozici, takže nezbývá než rozdíly mezi slovesy zachytit ve slovníku (ať už tomu budeme říkat valenční slovník, nebo ne) –pro NLP bude užitečná i informace o jakýchkoli (tj. i „nevalenčních“) doplněních; navíc to máme ve vstupních datech, tak proč to zahazovat

12 12 / 28 Navržená klasifikace prvků valenčního rámce valenční doplnění (obl. & opt.) –Meaning...,Formy a funkce –aktanty a obligatorní volná doplnění kvazivalenční doplnění –„obvyklá“ doplnění predikovaná významem slovesa –mohou specifikovat význam typická volná doplnění –„volná doplnění“ predikovaná významem slovesa –nespecifikují význam zcela volná doplnění –ve slovníku nezachycujeme

13 13 / 28 (B) Proč potřebujeme více rámců ? proti –často je „ekonomičtější“ slít dva rámce do jednoho: je-li první rámec podmnožinou druhého (docházet ACT (benzín), docházet ACT DIR3 (do školy) ), nebo liší-li se jen povrchovou realizací téže funkce (čekat Acc, čekat na+Acc), pro –(teor.) snaha o minimalizaci počtu rámců může vést k zastření vztahu mezi rámcem a významem slovesa –(prakt.) rozlišování i jemných nuancí mezi rámci zvýší užitnou hodnotu valenčního slovníku pro NLP (word sense disambiguation, strojový překlad)

14 14 / 28 Význam slovesa vs. (povrchová) valence neostrá hranice mezi jednotlivými významy, ale přesto: změna povrchové realizace argumentů (změna použitého rámce) slovesa indikuje změnu významu slovesa: –nechat něčeho, nechat někomu něco, něchat někoho něco dělat... intuice: většinou to bude 1:1 lze ale pozorovat: –1:N dodat někomu odvahu / dodat někomu odvahy –N:1 přijít na myšlenku / přijít na koncert různé významy téhož slovesa lze použít jako vodítko pro rozhodnutí, kdy jde o dva odlišné rámce a kdy jde jen o alternativní povrchovou realizaci uvnitř jediného rámce pomůcka na odlišení různých významů: EuroWordNet

15 15 / 28 EuroWordNet (1) multilinguální lexikální databáze (8 jazyků: Dutch, Italian, Spanish, German, French, Czech and Estonian) hlavní stavební jednotka je synset - skupina literálů téhož slovního druhu, které jsou v určitém kontextu vzájemně zaměnitelné („set of synonyms“) mezi synsety - sémantické relace (zejména hyponymie a hyperonymie) synsety jednotlivých jazyků jsou provázané pomocí Inter Lingual Index Princeton WordNet 1.5EuroWordNet note, observe, make a remark, remark prohodit, poznamenat, připomenout anmerken, bemerken...

16 16 / 28 EuroWordNet (2) v současnosti: cca 3000 českých sloves K čemu EWN používáme: aproximace pro odlišování různých významů slovesa inspirace (hledání dalších významů a rámců slovesa) brána k dalším jazykům český synset anglický synset anglická glosa

17 17 / 28 Jak vznikla současná XML verze našeho slovníku SSČ SSJČ SČS „Palův elektronický valenční slovník“ 178 „nejčastějších“ sloves anotační prosředí Fu 1.0 (MS Access) XML EWN PDT ??? H. Skoumalová: automatické slučování rámců a doplňování funktorů Markéta: ruční anotace

18 18 / 28 Anotační prostředí Fu 1.0

19 19 / 28 Ukázka XML dat... pokračovat-2 build up-1 work up-1 build-1 form steadily-1 progress - 2 "Resistance to the manager's plan built up quickly"... postupovat pokračovat v práci (rychle) (tam, kde skončil) dodaná forma... hTc6r{v} hTc6r{na} hTc7 hPTc3r{ke} hTc2r{do} hTc4r{na}

20 20 / 28...a jedna z možných HTML podob

21 21 / 28 Statistické vyhodnocení: základní údaje Počet všech sloves (lemmat) ve slovníku: 178 Počet všech rámců: 443 (2.5 rámce na sloveso) Počet všech prvků v rámcích: 1361 (3.1 prvků na rámec) Počet sloves nalezených v EWN: 85 (47.8% ze zprac. sloves) Součet počtu synsetů u nalezených sloves: 330 (3.9 synsetů na sloveso) Pozn: průměr v českém EWN bez ohledu na POS je 1.6

22 22 / 28 Rozložení počtu prvků v rámci

23 23 / 28 Nejčastější funktory (počet výskytů)

24 24 / 28 Rozložení prvků podle navržené klasifikace

25 25 / 28 Rozložení rozdílu počtu synsetů a rámců u stejného lemmatu

26 26 / 28 Asymetrie v nejednoznačnosti mapování rámců na synsety mapování rámců na synsety mapování synsetů na rámce (např. * : třikrát se stalo, že jednomu rámci odpovídalo pět synsetů) Závěr: je mnohem jednodušší podle významu určit rámec než podle rámce význam

27 27 / 28 Shrnutí potenciální přínos navrženého valenčního slovníku: –konzistentní zdroj informací pro anotátory PDT –slovník je sice malý, ale zato obsahuje minimální „šum“ a všechny zachycované jevy jsou řešené soustavně -> slovník lze použít jako testovací data –první strojově čitelný slovník pro češtinu, který spojuje valenční rámce a významy sloves, navíc s možností vazby na další jazyky –z toho vyplývá možnost použití v NLP word sense disambiguation, information retrieval machine translation ( ! ) parsing hlavní problém: obrovská pracnost –práci anotátora není možné při současné úrovní poznání zautomatizovat

28 28 / 28 To nejlepší na konec: Formy a funkce napříč jazyky ! dokážeme zachytit tři úrovně mezijazykového propojení: odpovídat odpovídat na něco odpovídat něčemu odpovídat za něco někdo (Nom) ACT odpovídá někomu (Dat) ADDR na něco (na+Acc) PAT answer, agree, beresponsible... answer s. agree with st. be responsible for st. somebody ACT answers something PAT to somebody ADDR antworten, entsprechen, verantwortlich sein antworten auf etw. entsprechen etw. verantwortlich sein fur etw. jemand ACT antwortet jemandem ADDR auf etwas PAT


Stáhnout ppt "1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková."

Podobné prezentace


Reklamy Google