Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Tvorba valenčního slovníku arabských sloves

Podobné prezentace


Prezentace na téma: "Tvorba valenčního slovníku arabských sloves"— Transkript prezentace:

1 Tvorba valenčního slovníku arabských sloves
PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)

2 Osnova Úvod Obdobné projekty pro arabštinu Funkční generativní popis
Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

3 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

4 Úvod Valenční slovník nejfrekventovanějších sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009) Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“  Použití běžný uživatel jazyka NLP systémy a aplikace Pro arabštinu dosud chybí takto komplexní lexikografický zdroj

5 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

6 Semantic Valence of Arabic Verbs (al-Qahtani, 1988; 2004)
200 rámců pro nejfrekventovanější arabská slovesa W. A. Cook – Case Grammar Matrix Model (1979) propoziční pády („essential to the proposition“ → vynucené sémantickou valencí slovesa): Agent (A), Experiencer (E), Benefactive (B), Object (O), Locative (L) modální pády („optional adjuncts of virtually any predication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa): Time, Manner, Instrument, Cause, Result, Purpose, outer Locative, outer Benefactive

7 W. A. Cook – Case Grammar Matrix
pádový rámec (case frame): 1-3 propoziční pády O obligatorní pro všechna slovesa (prší – prázdný hloubkový pád O) E - B - L se vzájemně vylučují O více než 1x v jenom rámci pořadí pádu v rámci – na prvním místě povrchový Sub později rozšíření o propoziční pád času (Essential Time case (T))

8 Cookův revidovaný maticový model
Verb Types Basic Experiential Benefactive Locative 1. State Os be tall Os, Os be + N E, Os like Os, E be boring B, Os have Os, B belong to Os, L be in L, Os contain 2. Process O die O, O become E, O enjoy O, E amuse B, O acquire O, B O, L move (intrans.) L, O leak 3. Action A, O kill A, O, O elect A, E, O say A, O, E A, B, O give A, O, B blame A, O, L put A, L, O fill * Os – pád Objektu u stativních sloves Basic verbs – pouze A, O Experiential verbs – E, A, O Benefactive verbs – B, A, O Locative verbs – L, A, O

9 Skryté role (Covert roles)
skryté role hloubkového pádu na povrchové rovině (covert case roles): částečně skryté (patrially covert) vypustitelné (deletable) → fakultativní v FGD waṣafa Zaydun al-manẓara Zayd described the scene pádový rámec: waṣaf AEO/E-del (Experiencer je vypuštěn) valenční rámec (FGP): ACT ADDR PAT

10 Skryté role (Covert roles)
zcela skryté (totally covert) koreferenční – kumulace dvou rolí (FGD Ø) darasa Zaydun al-kitāba Zayd studie the book pádový rámec: darasa AEO/A=E (Agent je totožný s Experiencer) valenční rámec (FGP): ACT PAT lexikalizované – některá role (Obj) inkorporována v sémantice slovesa camila Zaydun Zayd worked = Zayd did some work pádový rámec: camila AO/O-lex (Objekt je lexikalizován) valenční rámec: ACT

11 Pilot Arabic Propbank (Palmer et al., 2008)
anotace sémantické informace do arabského korpusu (Penn Arabic Treebank) dvě fáze anotace vytvoření framesetů (rámců) pro jednotlivé lexikální jednotky (jednotlivé významy slovesa) → uchovány zvlášť podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa typy slovesných doplnění sémanticky vynucená doplnění ARG0 až ARG4 – proměnné → ve framesetech jsou jim přiděleny sémantické role (experiencer, organizer, event, agent, theme…) 19 volných doplnění (adjunctive arguments)

12 Arabic Propbank – famesety slovesa `aqām
význam 1 význam 3 význam 2

13 Syntactic lexicon of Arabic verbs (Loukil et al., 2008)
pouze povrchová syntax → není sémantika struktura slovníku podle formátu Lexical Markup Framework (ISO 24613) slovník by měl obsahovat: charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku) morfematická realizace doplnění (akuzativ; předložka – pouze fī, can, li-, calā, bi-, `ilā, min) syntaktická funkce doplnění (podmět, předmět) příklad ve větě význam redundance rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO)

14 sloveso taḥarraka („pohnout se, pohybovat se“)
frame x frame y

15 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

16 Funkční generativní popis (FGP)
valence – schopnost autosémantického slova vázat se s dalšími slovy FGP – závislostně orientovaný formalismus – člení popis jazyka do více rovin valence souvisí s hloubkovou tektogramatickou rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů typy slovesných doplnění aktanty (vnitřní doplnění) – Aktor (ACT), Patient (PAT), Adresát (ADDR), Origo (ORIG), Efekt (EFF) volná doplnění – místo, čas, směr, nástroj, příčina, způsob… fakultativinost/obligatornost doplnění hlavní inspirací metodologie VALLEXu a PDT-Vallexu

17 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

18 Nástroje a zdroje Korpusové zdroje Tištěné slovníky
Prague Arabic Dependency Treebank (PADT) anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná verze 2.0; Smrž et al., 2008) tři roviny anotace – funkční morfologie, analytická rovina syntaxe, tektogramatická rovina zdroj frekvence sloves Arabic Gigaword (Graff, 2007) novinové texty – plain text Corpus Linguae Arabicae (CLARA) (Zemánek, 2001) cca 50 mil. slov – plain text texty různého druhu Tištěné slovníky dvojjazyčné arabské výkladové

19 PADT

20 Arabic Gigaword

21 CLARA

22 Nástroje a zdroje ElixirFM (Smrž, 2007) TrEd
implementace funkční arabské morfologie základem elektronická lexikální databáze z Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002) opravená a rozšířená verze ElixirFM (Smrž and Bielický, 2009) propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou TrEd anotační prostředí pro ElixirFM tvorba valenčních rámců/závislostních stromů

23 ElixirFM Online Interface (http://quest. ms. mff. cuni
Resolve tokenizace a morfologická analýza Inflect deklinace a konjugace Derive derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné Lookup vyhledávání derivátů stejného slovního kořene/kmene vyhledávání podle angličtiny

24 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

25 Charakteristika arabského slovesa
konsonantní kořen diskontinuitní morfém nesoucí význam morfém vokalizace afix – prefix, sufix, infix kořen + vokalizace (+ afix) → kmen arabské sloveso trojkonsonantní/čtyřkonsonantní kořen jednoduchý slovesný kmen → kořen + vokalizace rozšířený slovesný kmen → kořen + vokalizace + afix/dloužení vokálu

26 morfosémantické vzory a jejich korelace
I jednoduchý slovesný kmen činnostní – KaTaB psát (často tranzitivní) přechodný stav – FaRiḤ radovat se (někdy tranzitivní) trvalý stav – ḤaSuN být hezký (intranzitivní) rozšířený slovesný kmen II ḤaSSaN zlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní, denom. III QāTaL bojovat (tranz.) – objektový, konfrontační, denominativní IV `aNTaĞ vyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový aspekt, denom. V taḤaSSaN zlepšit se (intranz.) – reflexivní, pasivní, denominativní VI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání stavu VII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII iḪtaBaR prověřit si (tranz./intranz.) – reflexivní, dativní, pasivní, denominativní IX iSWaDD zčernat, být černý (intranz.) – od adjektiv – stav/změna stavu X istaḪBaR informovat se (tranz.) – deziderativní, reflexivní, estimativní, denominativní

27 Charakteristika arabského slovesa
není infinitiv vid – rozlišen formou konjugace nebo složeným tvarem → jinak spíše aktionsart konjugace sufigovaná (perfektum – ukončený děj) prefigovaná (imperfektum – průběh, opakování) mody – indikativ, subjunktiv, jusiv, energikus, imperativ verbonominální deriváty participium aktivní a pasivní, verbální substantivum tzv. introflektivní pasivum (velmi produktivní) – pravidelnou změnou vokalizace KaTaB napsal → KuTiB byl napsán funkce: pasivum impersonální konstrukce

28 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

29 Reprezentace valence v ElixirFM
závislostní strom trojkonzonantní/čtyřkonzonantní slovesný lexém lemma (3.os. sg. perf.) lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce valenční rámec funktory (FGP) omezení na morfematické vyjádření slovesného doplnění obligatornost/fakultativnost doplnění

30 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF

31 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF

32 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF

33 Morfematické vyjádření slovesného doplnění
explicitně zachycené formy pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ) determinace/indeterminace: -I/-D konstrukce s adjektivy: A- forma předložky: bi-, li-, fī, can, calā, `ilā, min, maca, ḥattā, munḏu, bayna, dūna, ḥawla, taḥta… vedlejší věty obsahové: `inna, `anna, `an, mā `iḏā část frazému podstatné jméno slovesné (maṣdar) slovesné imperfektum - není jasné, o jaký typ doplnění se jedná → EFF vs. COMPL

34 závislá část frazému انشرح له صدري inšaraḥa la-hu ṣadrī
potěšila-se z-toho.CAUS hruď-moje.DPHR Potěšilo mě to DPHR (ḫāṭir|qalb|ṣadr) CAUS (li-)

35 Morfematické vyjádření slovesného doplnění
implicitně zachycené formy, např.: LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa… DIR1 (směr od) – min, min calā, min taḥti, min warā’i, min fawqi… CAUS (příčina) – li-, bi-sababi, bi-faḍli, min `ağli, natīğatan li-, bi-ḥukmi, li-`anna…)

36 implicitně zachycená forma LOC
بدء الحرب وضعه أمام أمر واقع bad`u `l-ḥarbi waḍaca-hu `amāma `amrin wāqicin začátek války.ACT položil-jeho.PAT před věc reálnou.LOC Začátek války ho postavil před hotovou věc ACT PAT (4-) LOC LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…

37 Slovesa typu „prší“ v arabštině
تمطر { السماء } tumṭiru [`s-samā`u] vyvolávají-déšť nebesa.ACT Prší pršet – valenční rámec: Ø arabština – vždy ACT, i když je vypuštěný

38 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

39 Stav projektu – první fáze
vytvořeno valenčních rámců 2.000 vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi 1.500 vytvořeno manuálně hlavně základní významy sloves další kontrola a zjemňování rámců studium literatury → upřesňování a dotváření teoretických východisek

40 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly

41 Další úkoly anotace méně častých významů sloves a frazeologie
dořešení statutu některých problematických skupin sloves (modální, pomocná, impersonální) zavedení informace o pasivizaci, reciprocitě, frekvenci výskytu (PADT) a sémantické třídě doplnění/propojení s korpusovými příklady korelace mezi valenčními rámci primárních a odvozených sloves (?) dopracování a zjemnění českých glos možnost promítnutí valenčního rámce slovesa do participií a verbálního substantiva konzultace problematických otázek s rodilým mluvčím budoucnost – napojit ElixirFM na Arabic Wordnet

42 Odkazy AL-QAHTANI, Duleim Masoud. Semantic Valence of Arabic Verbs. Beirut : Libraire du Liban Publishers, BIELICKÝ, Viktor, SMRŽ, Otakar. Building the Valency Lexicon of Arabic Verbs. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, BIELICKÝ, Viktor, SMRŽ, Otakar. Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In Proceedings of the Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, BUCKWALTER, Tim. Buckwalter Arabic Morphological Analyzer Version 1.0. LDC2002L49, , COOK, Walter A. Case Grammar : Developement of the Matrix Model ( ). Washington, D.C. : Georgetown University Press, GRAFF, David. Arabic Gigaword Third Edition. LDC2007T40, , LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon of Arabic Verbs. In HLT & NPL within the Arabic World : Arabic Language & Local Languages Processing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aous and ZAGHOUANI, Wajdi. A Pilot Arabic Propbank. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, SMRŽ, Otakar. Functional Arabic Morphology : Formal System and Implementation. PhD thesis, Charles University in Prague, SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-level Implementation of Functional Arabic Morphology SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. Prague Dependency Arabic Treebank : A Word on the Million Words. In Proceedings of the 6th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : An Overview. In ACL Workshop Proceedings on Arabic Language Procesing : Status and Prospects. Toulouse, France, 2001, p


Stáhnout ppt "Tvorba valenčního slovníku arabských sloves"

Podobné prezentace


Reklamy Google