Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační.

Podobné prezentace


Prezentace na téma: "Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační."— Transkript prezentace:

1 Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)

2 Osnova Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 2

3 Úvod Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 3

4 Úvod Valenční slovník nejfrekventovanějších sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009) Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“ Použití ◦ běžný uživatel jazyka ◦ NLP systémy a aplikace Pro arabštinu dosud chybí takto komplexní lexikografický zdroj 4

5 Úvod Obdobné projekty pro arabštinu Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 5

6 Semantic Valence of Arabic Verbs (al-Qahtani, 1988; 2004) 200 rámců pro nejfrekventovanější arabská slovesa W. A. Cook – Case Grammar Matrix Model (1979) ◦ propoziční pády („essential to the proposition“ → vynucené sémantickou valencí slovesa):  Agent (A), Experiencer (E), Benefactive (B), Object (O), Locative (L) ◦ modální pády („optional adjuncts of virtually any predication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa):  Time, Manner, Instrument, Cause, Result, Purpose, outer Locative, outer Benefactive 6

7 W. A. Cook – Case Grammar Matrix pádový rámec (case frame): ◦ 1-3 propoziční pády ◦ O obligatorní pro všechna slovesa (prší – prázdný hloubkový pád O) ◦ E - B - L se vzájemně vylučují ◦ O více než 1x v jenom rámci ◦ pořadí pádu v rámci – na prvním místě povrchový Sub ◦ později rozšíření o propoziční pád času (Essential Time case (T)) 7

8 Cookův revidovaný maticový model Verb TypesBasicExperientialBenefactiveLocative 1. StateOs be tall Os, Os be + N E, Os like Os, E be boring B, Os have Os, B belong to Os, L be in L, Os contain 2. ProcessO die O, O become E, O enjoy O, E amuse B, O acquire O, B … O, L move (intrans.) L, O leak 3. ActionA, O kill A, O, O elect A, E, O say A, O, E amuse A, B, O give A, O, B blame A, O, L put A, L, O fill 8 * Os – pád Objektu u stativních sloves Basic verbs – pouze A, O Experiential verbs – E, A, O Benefactive verbs – B, A, O Locative verbs – L, A, O

9 Skryté role (Covert roles) skryté role hloubkového pádu na povrchové rovině (covert case roles): ◦ částečně skryté (patrially covert)  vypustitelné (deletable) → fakultativní v FGD wa ṣ afa Zaydun al-man ẓ ara Zayd described the scene pádový rámec: wa ṣ af AEO/E-del (Experiencer je vypuštěn) valenční rámec (FGP): ACT ADDR PAT 9

10 Skryté role (Covert roles) ◦ zcela skryté (totally covert)  koreferenční – kumulace dvou rolí (FGD Ø) darasa Zaydun al-kitāba Zayd studie the book pádový rámec: darasa AEO/A=E (Agent je totožný s Experiencer) valenční rámec (FGP): ACT PAT  lexikalizované – některá role (Obj) inkorporována v sémantice slovesa c amila Zaydun Zayd worked = Zayd did some work pádový rámec: c amila AO/O-lex (Objekt je lexikalizován) valenční rámec: ACT 10

11 Pilot Arabic Propbank (Palmer et al., 2008) anotace sémantické informace do arabského korpusu (Penn Arabic Treebank) dvě fáze anotace ◦ vytvoření framesetů (rámců) pro jednotlivé lexikální jednotky (jednotlivé významy slovesa) → uchovány zvlášť ◦ podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa typy slovesných doplnění ◦ sémanticky vynucená doplnění ARG0 až ARG4 – proměnné → ve framesetech jsou jim přiděleny sémantické role (experiencer, organizer, event, agent, theme…) ◦ 19 volných doplnění (adjunctive arguments) 11

12 Arabic Propbank – famesety slovesa `aqām 12 význam 1 význam 2 význam 3

13 Syntactic lexicon of Arabic verbs (Loukil et al., 2008) pouze povrchová syntax → není sémantika struktura slovníku podle formátu Lexical Markup Framework (ISO 24613) slovník by měl obsahovat: ◦ charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku) ◦ morfematická realizace doplnění (akuzativ; předložka – pouze fī, c an, li-, c alā, bi-, `ilā, min ) ◦ syntaktická funkce doplnění (podmět, předmět) ◦ příklad ve větě ◦ význam redundance ◦ rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO) 13

14 sloveso ta ḥ arraka („pohnout se, pohybovat se“) 14 frame x frame y

15 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 15

16 Funkční generativní popis (FGP) valence – schopnost autosémantického slova vázat se s dalšími slovy FGP – závislostně orientovaný formalismus – člení popis jazyka do více rovin valence souvisí s hloubkovou tektogramatickou rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů typy slovesných doplnění ◦ aktanty (vnitřní doplnění) – Aktor (ACT), Patient (PAT), Adresát (ADDR), Origo (ORIG), Efekt (EFF) ◦ volná doplnění – místo, čas, směr, nástroj, příčina, způsob… fakultativinost/obligatornost doplnění hlavní inspirací metodologie VALLEXu a PDT-Vallexu 16

17 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 17

18 Nástroje a zdroje Korpusové zdroje ◦ Prague Arabic Dependency Treebank (PADT)  anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná verze 2.0; Smrž et al., 2008)  tři roviny anotace – funkční morfologie, analytická rovina syntaxe, tektogramatická rovina  zdroj frekvence sloves ◦ Arabic Gigaword (Graff, 2007)  novinové texty – plain text ◦ Corpus Linguae Arabicae (CLARA) (Zemánek, 2001)  cca 50 mil. slov – plain text  texty různého druhu Tištěné slovníky ◦ dvojjazyčné ◦ arabské výkladové 18

19 PADT 19

20 Arabic Gigaword 20

21 CLARA 21

22 Nástroje a zdroje ElixirFM (Smrž, 2007) ◦ implementace funkční arabské morfologie ◦ základem elektronická lexikální databáze z Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002) ◦ opravená a rozšířená verze ElixirFM (Smrž and Bielický, 2009) ◦ propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou TrEd ◦ anotační prostředí pro ElixirFM ◦ tvorba valenčních rámců/závislostních stromů 22

23 ElixirFM Online Interface ElixirFM Online Interface (http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi) Resolve ◦ tokenizace a morfologická analýza Inflect ◦ deklinace a konjugace Derive ◦ derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné Lookup ◦ vyhledávání derivátů stejného slovního kořene/kmene ◦ vyhledávání podle angličtiny 23

24 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly 24

25 Charakteristika arabského slovesa konsonantní kořen ◦ diskontinuitní morfém nesoucí význam morfém vokalizace afix – prefix, sufix, infix kořen + vokalizace (+ afix) → kmen arabské sloveso ◦ trojkonsonantní/čtyřkonsonantní kořen ◦ jednoduchý slovesný kmen → kořen + vokalizace ◦ rozšířený slovesný kmen → kořen + vokalizace + afix/dloužení vokálu 25

26 morfosémantické vzory a jejich korelace I jednoduchý slovesný kmen činnostní – KaTaB psát (často tranzitivní) přechodný stav – FaRi Ḥ radovat se (někdy tranzitivní) trvalý stav – Ḥ aSuN být hezký (intranzitivní) rozšířený slovesný kmen II Ḥ aSSaN zlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní, denom. III QāTaL bojovat (tranz.) – objektový, konfrontační, denominativní IV `aNTaĞ vyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový aspekt, denom. V ta Ḥ aSSaN zlepšit se (intranz.) – reflexivní, pasivní, denominativní VI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání stavu VII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII i Ḫ taBaR prověřit si (tranz./intranz.) – reflexivní, dativní, pasivní, denominativní IX iSWaDD zčernat, být černý (intranz.) – od adjektiv – stav/změna stavu X ista Ḫ BaR informovat se (tranz.) – deziderativní, reflexivní, estimativní, denominativní 26

27 Charakteristika arabského slovesa není infinitiv vid – rozlišen formou konjugace nebo složeným tvarem → jinak spíše aktionsart konjugace ◦ sufigovaná (perfektum – ukončený děj) ◦ prefigovaná (imperfektum – průběh, opakování)  mody – indikativ, subjunktiv, jusiv, energikus, imperativ verbonominální deriváty ◦ participium aktivní a pasivní, verbální substantivum tzv. introflektivní pasivum (velmi produktivní) – pravidelnou změnou vokalizace ◦ KaTaB napsal → KuTiB byl napsán ◦ funkce:  pasivum  impersonální konstrukce 27

28 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Reprezentace valence v ElixirFM Stav projektu Další úkoly 28

29 Reprezentace valence v ElixirFM závislostní strom trojkonzonantní/čtyřkonzonantní slovesný lexém ◦ lemma (3.os. sg. perf.)  lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce valenční rámec ◦ funktory (FGP) ◦ omezení na morfematické vyjádření slovesného doplnění ◦ obligatornost/fakultativnost doplnění 29

30 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF 30

31 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF 31

32 tarğam („přeložit, tlumočit“) ACT PAT ORIG EFF 32

33 Morfematické vyjádření slovesného doplnění explicitně zachycené formy ◦ pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ) ◦ determinace/indeterminace: -I/-D ◦ konstrukce s adjektivy: A- ◦ forma předložky: bi-, li-, fī, c an, c alā, `ilā, min, ma c a, ḥ attā, mun ḏ u, bayna, dūna, ḥ awla, ta ḥ ta… ◦ vedlejší věty obsahové: `inna, `anna, `an, mā `i ḏ ā ◦ část frazému ◦ podstatné jméno slovesné ( ma ṣ dar ) ◦ slovesné imperfektum ◦ slovesné imperfektum - není jasné, o jaký typ doplnění se jedná → EFF vs. COMPL 33

34 závislá část frazému 34 انشرح له صدري inšara ḥ a la-hu ṣ adrī potěšila-se z-toho.CAUS hruď- moje.DPHR Potěšilo mě to DPHR ( ḫ ā ṭ ir|qalb| ṣ adr ) CAUS ( li-)

35 Morfematické vyjádření slovesného doplnění implicitně zachycené formy, např.: ◦ LOC (místo) – fī, bi-, ḥ awla, bayna, c alā, ta ḥ ta, fawqa, `amāma, warā`a, ḫ alfa, dā ḫ ila, ḫ āriğa… ◦ DIR1 (směr od) – min, min c alā, min ta ḥ ti, min warā’i, min fawqi… ◦ CAUS (příčina) – li-, bi-sababi, bi-fa ḍ li, min `ağli, natīğatan li-, bi- ḥ ukmi, li-`anna…) 35

36 implicitně zachycená forma LOC 36 LOC (místo) – fī, bi-, ḥ awla, bayna, c alā, ta ḥ ta, fawqa, `amāma, warā`a, ḫ alfa, dā ḫ ila, ḫ āriğa… بدء الحرب وضعه أمام أمر واقع bad`u `l- ḥ arbi wa ḍ a c a-hu `amāma `amrin wāqi c in začátek války.ACT položil-jeho.PAT před věc reálnou.LOC Začátek války ho postavil před hotovou věc ACT PAT (4-) LOC

37 Slovesa typu „prší“ v arabštině 37 pršet – valenční rámec: Ø arabština – vždy ACT, i když je vypuštěný تمطر { السماء } tum ṭ iru [`s-samā`u] vyvolávají-déšť nebesa.ACT Prší

38 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Stav projektu Další úkoly 38

39 Stav projektu – první fáze vytvořeno valenčních rámců ◦ vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi ◦ vytvořeno manuálně  hlavně základní významy sloves další kontrola a zjemňování rámců studium literatury → upřesňování a dotváření teoretických východisek 39

40 Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje Charakteristika arabského slovesa Reprezentace valence v ElixirFM Stav projektu Další úkoly Další úkoly 40

41 Další úkoly anotace méně častých významů sloves a frazeologie dořešení statutu některých problematických skupin sloves (modální, pomocná, impersonální) zavedení informace o pasivizaci, reciprocitě, frekvenci výskytu (PADT) a sémantické třídě doplnění/propojení s korpusovými příklady korelace mezi valenčními rámci primárních a odvozených sloves (?) dopracování a zjemnění českých glos možnost promítnutí valenčního rámce slovesa do participií a verbálního substantiva konzultace problematických otázek s rodilým mluvčím budoucnost – napojit ElixirFM na Arabic Wordnet 41

42 Odkazy AL-QAHTANI, Duleim Masoud. Semantic Valence of Arabic Verbs. Beirut : Libraire du Liban Publishers, BIELICKÝ, Viktor, SMRŽ, Otakar. Building the Valency Lexicon of Arabic Verbs. In Proceedings of the 6 th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, BIELICKÝ, Viktor, SMRŽ, Otakar. Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In Proceedings of the Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, BUCKWALTER, Tim. Buckwalter Arabic Morphological Analyzer Version 1.0. LDC2002L49, , COOK, Walter A. Case Grammar : Developement of the Matrix Model ( ). Washington, D.C. : Georgetown University Press, GRAFF, David. Arabic Gigaword Third Edition. LDC2007T40, , LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon of Arabic Verbs. In HLT & NPL within the Arabic World : Arabic Language & Local Languages Processing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aous and ZAGHOUANI, Wajdi. A Pilot Arabic Propbank. In Proceedings of the 6 th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, SMRŽ, Otakar. Functional Arabic Morphology : Formal System and Implementation. PhD thesis, Charles University in Prague, SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-level Implementation of Functional Arabic Morphology SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. Prague Dependency Arabic Treebank : A Word on the Million Words. In Proceedings of the 6 th Conference on Language Resources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : An Overview. In ACL Workshop Proceedings on Arabic Language Procesing : Status and Prospects. Toulouse, France, 2001, p


Stáhnout ppt "Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační."

Podobné prezentace


Reklamy Google