1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Vůdcovská zkouška – Gemini 2010 •Změna •Aktivnější zaměření programů, praxe •Potřeby Castorů –rozdílné znalosti (úroveň ČK) –různorodé oddíly –možné zaměření.
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
TEORIE ROZHODOVÁNÍ A TEORIE HER
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Practice with Numbers Answer the following questions in Czech. Remember to use the correct case of nouns after numbers. Vzor: Kolik minut má hodina?
1 Projektová dynamika II RNDr. Jiří Weinberger, TIMING Praha 28. Března 2008.
Anglický slovosled (oznamovací věty)
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Printforum 2011 Přednáška Technologická přeměna – a důsledky pro tiskárny Prof. Dr. Thomas Helbig Poradce podniků v polygrafickém průmyslu
Když jde jedna husa za druhou (o reciprocitě a konstrukci jeden-druhý) Martina Otradovcová Ždárek listopad 2009.
Kvantitativní metody výzkumu v praxi
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:
PROBLÉMY A JEJICH ŘEŠENÍ ECTS a IS/STAG na UP. Úplnost dat v IS STAG Na základě předběžné kontroly úplnosti dat v IS STAG a analýzy jejích výsledků jsme.
Co je to logika? KFI/FIL1 Lukáš Košík Logika: systémový rámec rozvoje oboru v ČR a koncepce logických propedeutik pro mezioborová studia (reg. č. CZ.1.07/2.2.00/ ,
PROGRAM PRO VÝUKU T ČLÁNKU
Ten, ta, to II Fill in the blanks with the appropriate forms of ten. Vzor: Proč potřebuješ ___ knihy? Proč potřebuješ ty knihy? *Taken from Review Lesson.
Základy informatiky přednášky Kódování.
Teorie zpracování dat Ukázková písemka. Kapitola 4 Je dána tabulka Zam (login, jmeno, plat, funkce), implementovaná je v SŘBD používajícím indexové soubory.
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
CENOVÁ KONVERGENCE K EU: Poznatky z mezinárodního srovnání Seminář MF ČR Smilovice, 2. prosince 2003 Martin Čihák (MMF) Tomáš Holub (ČNB)
Teorie firmy II - Optimum výrobce - Mezní produkt, zákon klesajícího mezního produktu - Izokvanty produkční funkce - Další modely výrobce
Konstrukce, princip funkce a základní charakteristiky hydromotorů
AZ kvíz Lomené výrazy Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Šárka Macháňová. Dostupné z Metodického portálu
Správné pády I In the following sentences, put the nouns between slash marks into the correct case. Vzor: Přes naše rozdíly zůstanu /tvůj přítel/. Přes.
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Josef Keder Hana Škáchová
LOGISTICKÉ SYSTÉMY 7/14.
Základní číselné množiny
VÍCEKRITERIÁLNÍ ROZHODOVÁNÍ I.
Získávání informací Získání informací o reálném systému
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Мetafora a metonymie v české mluvnici
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Vytváření prezentace v PowerPointu
Jazyk vývojových diagramů
„EU peníze středním školám“

Marie Trantinová ÚZEI - pracoviště Opava Ústí nad Labem
Fakulta životního prostředí Katedra informatiky a geoinformatiky
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Metodická podpora úprav RVP ZV
PYRAMIDA Práce a energie
Test D-1 je sociometrická diagnostická metoda diagnostikující třídní kolektiv. Je zadávána prostřednictvím dotazníku, který je předložen všem jednotlivým.
Cvičná hodnotící prezentace Hodnocení vybraného projektu 1.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Valence a Pražský závislostní korpus (PDT)
1 / 36 Komplexně anotovaný elektronický valenční slovník českých sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský říjen 2001.
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
Konference SI Praha Ladislav Přívozník is:energy czech a.s.
25/1 Příčina globální krize? Smilovice ‘09 M. Vlček.
Fyzika 2 – ZS_3 OPTIKA.
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Jazyk vývojových diagramů
Vlastní hodnocení školy a školní vzdělávací program
Změny v SOILINu ve SCIA Engineer oproti Nexis32
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Autor: Ondřej Šimeček Verze: 1.1.3
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
FÁZE NÁCVIKU SLOHOVÉHO PROJEVU
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUMVY_32_INOVACE_09/C1 AutorIng. Liběna Krchňáková Období vytvořeníSrpen.
Úvod do logiky (presentace 2) Naivní teorie množin, relace a funkce
Projektový cyklus, analýza SWOT
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Transkript prezentace:

1 / 28 Všechno, co jste chtěli vědět o valenci, ale... Předběžná zpráva o přípravě komplexně anotovaného valenčního slovníku sloves Markéta Straňáková-Lopatková Zdeněk Žabokrtský květen 2001

2 / 28 Osnova 1) laický pohled na valenci sloves 2) existující zdroje informací o valenci českých sloves, motivace pro vytvoření dalšího slovníku 3) podrobnější model - porušení ekonomičnosti ? 4) souvislost s EuroWordNetem 5) stávající podoba slovníku (178 sloves), vybrané kvantitativní charakteristiky

3 / 28 Valence ? “Valencí rozumíme v lingvistice schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury“ (Slovesa pro praxi, Academia 1997) “The range of syntactic elements either required or specifically permitted by a verb or other lexical unit...“ ( The Concise Oxford Dictionary of Linguistics, © Oxford University Press 1997 )

4 / 28 Teorií nedotčené pozorování některá slovesa mají dva nebo více různých významů (ať stanovíme hranici pro rozlišování různých významů jakkoliv) vztah slovesa a prvku, který se na určité sloveso ve větě váže, je do jisté míry určen „způsobem navázání“, tj. pádem, případně předložkou a pádem (případně podřadící spojkou) prvky v určitém pádu nebo s určitou předložkou se u daného slovesa v daném významu téměř vysloveně očekávají, některé se mohou vyskytnou téměř u jakéhokoli slovesa, některé naopak u daného slovesa působí nepřirozeně nebo naprosto nevhodně skupiny pádů a přeložek, které se na dané sloveso mohou vázat, se pro jednotlivé významy slovesa mohou (ale nemusí) lišit pro každý pád/předložku, dané sloveso a jeho význam lze vytvořit v určitém kontextu správnou českou větu, ve které tento pád/předložka je vypuštěn. Lze je vypustit i všechny najednou, nelze ale vypouštět všechny jejich kombinace.

5 / 28 Pozorování (2) A) j, a ty dobře víš, zač zdejší život, když ho p B) jí, ať to stojí, co to. Domníval se, že mám n C) a nohou krátké holínky a opřen o veřeje. Domluví D) l ), jehož budova dosud poblíž Nollendorfského n E) áme vidět, proč vlastně za to žít. Myslíme si, F) adu naděje v reinkarnaci před jasnými hranicemi. G) Americe, kde proti němu největší skupina nevěříc H) em ročním. Za pozornost pokles likvidity akcií I I) hodin ráno a pan Brodský v županu v otevřených dv J) sti festivalového paláce na dva týdny pět tisíc š K) adní hlas. Také učitelé za ředitelkou : petici n významy: J A,E... C,I G - ve větách s daným slovesem se často vyskytují podobnosti, vzory, a to jak z významové, tak z hlediska „stavby“ věty hledáme zobecnění (průchod svazem): (A,B,C,D,E,....) (A  E,C  I,G,....) (A  E  C  I ....)

6 / 28 Teorií „zatížený“ pohled každé sloveso má konečnou (zpravidla velmi malou) množinu valenčních rámců mezi jednotlivými rámci je zřetelná hranice na této množině rámců daného slovesa se už nedefinuje žádná struktura každý rámec obsahuje konečný (velmi malý) počet prvků

7 / 28 Kde hledat informace o valenci Slovník českých synonym, NLN, Praha, Slovník spisovné češtiny, Academia, Prague, Slovník spisovného jazyka českého, Academia, Prague, Slovesa pro praxi, Academia 1997 spousta příkladů v teoretických článcích pracovní seznamy anotátorů PDT „Palův elektronický valenční slovník“ (15000 sloves) CNK, PDT

8 / 28 Proč potřebujeme „další“ valenční slovník ? Současný stav: –neexistuje dostatečně rozsáhlý valenční slovník, který by obsahoval funktory (pro ruční i automatickou anotaci PDT) –pro češtinu nemáme žádný elektronický slovník, který by všechny zachycované jevy řešil systematicky (např. problémy se „se“) –neexistují ani pravidla pro vytvoření takového slovníku (např. nedostačující notace) Prvotní cíl: –vytvořit malý, ale bohatě anotovaný slovník –důraz na konzistenci a úplnost –ujasnit pracovní postup a vyrobit „technologii“ pro jeho rozšíření (s maximálním využitím existujících zdrojů)

9 / 28 Co ve slovníku zachycujeme? pro každé z vybraných 178 sloves (lemmat) –výčet rámců slovesa –výčet „významů“ slovesa (synsety z EuroWordNetu) –četnost v PDT (v budoucnu příklady z PDT) –rámce z „Palova elektronického valenčního slovníku“ –vidová dvojice pro každý rámec –výčet prvků rámce v bezpříznakovém pořadí (zjednodušená verze systémového uspořádání) –odkaz na odpovídající synset(y) –příklad použití, poznámka –v budoucnu: reflexivita, reciprocita pro každý prvek rámce: –funktor –povrchová forma (pád, předložka, infinitiv, klauze, libovolná) –„typ vazby“ podle uvedené klasifikace (oblig.,opt.,kvazival.,...) –informace o vzájemné výlučnosti s jiným prvkem (velmi zřídka)

10 / 28 Porušení „principu ekonomičnosti“ oproti „klasickému pražskému pohledu“ (tj. v rámci pouze aktanty a obligatorní volná doplnění) bude slovník rozšířen ve dvou dimenzích: (A) očekáváme nutné zvýšení počtu rámců na sloveso a (B) chceme rozšířit skupinu doplnění zachycovaných v rámci sloveso1 –rámec1 xxx xx xxxx x xx... –rámec2 xx xx x xx... sloveso2 –rámec1 xxx xx xxxx x xx –rámec2 xxx xx xxx x x –rámec1 xx xxxx xxxx xx xxx...

11 / 28 (A) Proč potřebujeme rozšířené valenční rámce ? proti: –F&F: „[volná doplnění] se spojují se všemi slovesy, pokud to obsahové vztahy připouštějí“ pro: –„obsahové vztahy“ - příliš vágní pojem, obecná pravidla nejsou k dispozici, takže nezbývá než rozdíly mezi slovesy zachytit ve slovníku (ať už tomu budeme říkat valenční slovník, nebo ne) –pro NLP bude užitečná i informace o jakýchkoli (tj. i „nevalenčních“) doplněních; navíc to máme ve vstupních datech, tak proč to zahazovat

12 / 28 Navržená klasifikace prvků valenčního rámce valenční doplnění (obl. & opt.) –Meaning...,Formy a funkce –aktanty a obligatorní volná doplnění kvazivalenční doplnění –„obvyklá“ doplnění predikovaná významem slovesa –mohou specifikovat význam typická volná doplnění –„volná doplnění“ predikovaná významem slovesa –nespecifikují význam zcela volná doplnění –ve slovníku nezachycujeme

13 / 28 (B) Proč potřebujeme více rámců ? proti –často je „ekonomičtější“ slít dva rámce do jednoho: je-li první rámec podmnožinou druhého (docházet ACT (benzín), docházet ACT DIR3 (do školy) ), nebo liší-li se jen povrchovou realizací téže funkce (čekat Acc, čekat na+Acc), pro –(teor.) snaha o minimalizaci počtu rámců může vést k zastření vztahu mezi rámcem a významem slovesa –(prakt.) rozlišování i jemných nuancí mezi rámci zvýší užitnou hodnotu valenčního slovníku pro NLP (word sense disambiguation, strojový překlad)

14 / 28 Význam slovesa vs. (povrchová) valence neostrá hranice mezi jednotlivými významy, ale přesto: změna povrchové realizace argumentů (změna použitého rámce) slovesa indikuje změnu významu slovesa: –nechat něčeho, nechat někomu něco, něchat někoho něco dělat... intuice: většinou to bude 1:1 lze ale pozorovat: –1:N dodat někomu odvahu / dodat někomu odvahy –N:1 přijít na myšlenku / přijít na koncert různé významy téhož slovesa lze použít jako vodítko pro rozhodnutí, kdy jde o dva odlišné rámce a kdy jde jen o alternativní povrchovou realizaci uvnitř jediného rámce pomůcka na odlišení různých významů: EuroWordNet

15 / 28 EuroWordNet (1) multilinguální lexikální databáze (8 jazyků: Dutch, Italian, Spanish, German, French, Czech and Estonian) hlavní stavební jednotka je synset - skupina literálů téhož slovního druhu, které jsou v určitém kontextu vzájemně zaměnitelné („set of synonyms“) mezi synsety - sémantické relace (zejména hyponymie a hyperonymie) synsety jednotlivých jazyků jsou provázané pomocí Inter Lingual Index Princeton WordNet 1.5EuroWordNet note, observe, make a remark, remark prohodit, poznamenat, připomenout anmerken, bemerken...

16 / 28 EuroWordNet (2) v současnosti: cca 3000 českých sloves K čemu EWN používáme: aproximace pro odlišování různých významů slovesa inspirace (hledání dalších významů a rámců slovesa) brána k dalším jazykům český synset anglický synset anglická glosa

17 / 28 Jak vznikla současná XML verze našeho slovníku SSČ SSJČ SČS „Palův elektronický valenční slovník“ 178 „nejčastějších“ sloves anotační prosředí Fu 1.0 (MS Access) XML EWN PDT ??? H. Skoumalová: automatické slučování rámců a doplňování funktorů Markéta: ruční anotace

18 / 28 Anotační prostředí Fu 1.0

19 / 28 Ukázka XML dat... pokračovat-2 build up-1 work up-1 build-1 form steadily-1 progress - 2 "Resistance to the manager's plan built up quickly"... postupovat pokračovat v práci (rychle) (tam, kde skončil) dodaná forma... hTc6r{v} hTc6r{na} hTc7 hPTc3r{ke} hTc2r{do} hTc4r{na}

20 / 28...a jedna z možných HTML podob

21 / 28 Statistické vyhodnocení: základní údaje Počet všech sloves (lemmat) ve slovníku: 178 Počet všech rámců: 443 (2.5 rámce na sloveso) Počet všech prvků v rámcích: 1361 (3.1 prvků na rámec) Počet sloves nalezených v EWN: 85 (47.8% ze zprac. sloves) Součet počtu synsetů u nalezených sloves: 330 (3.9 synsetů na sloveso) Pozn: průměr v českém EWN bez ohledu na POS je 1.6

22 / 28 Rozložení počtu prvků v rámci

23 / 28 Nejčastější funktory (počet výskytů)

24 / 28 Rozložení prvků podle navržené klasifikace

25 / 28 Rozložení rozdílu počtu synsetů a rámců u stejného lemmatu

26 / 28 Asymetrie v nejednoznačnosti mapování rámců na synsety mapování rámců na synsety mapování synsetů na rámce (např. * : třikrát se stalo, že jednomu rámci odpovídalo pět synsetů) Závěr: je mnohem jednodušší podle významu určit rámec než podle rámce význam

27 / 28 Shrnutí potenciální přínos navrženého valenčního slovníku: –konzistentní zdroj informací pro anotátory PDT –slovník je sice malý, ale zato obsahuje minimální „šum“ a všechny zachycované jevy jsou řešené soustavně -> slovník lze použít jako testovací data –první strojově čitelný slovník pro češtinu, který spojuje valenční rámce a významy sloves, navíc s možností vazby na další jazyky –z toho vyplývá možnost použití v NLP word sense disambiguation, information retrieval machine translation ( ! ) parsing hlavní problém: obrovská pracnost –práci anotátora není možné při současné úrovní poznání zautomatizovat

28 / 28 To nejlepší na konec: Formy a funkce napříč jazyky ! dokážeme zachytit tři úrovně mezijazykového propojení: odpovídat odpovídat na něco odpovídat něčemu odpovídat za něco někdo (Nom) ACT odpovídá někomu (Dat) ADDR na něco (na+Acc) PAT answer, agree, beresponsible... answer s. agree with st. be responsible for st. somebody ACT answers something PAT to somebody ADDR antworten, entsprechen, verantwortlich sein antworten auf etw. entsprechen etw. verantwortlich sein fur etw. jemand ACT antwortet jemandem ADDR auf etwas PAT