PDT 1 Zdeněk Žabokrtský Czech Technical University, Department of Computer Science the following presentation can be downloaded.

Slides:



Advertisements
Podobné prezentace
The choice of verbs in Czech as a foreign language textbooks Pavlína Vališová Masaryk University, Brno.
Advertisements

Association for Computing Machinery - Založena v r Zaměření informační technologie - Podporující publikace počítačové literatury (portál ACM) -
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Cumulative tests Tenses Phrases. Put the verbs into the correct form I need a rest. I _______ (run) all morning! John isn´t here. He _______ (go) to the.
Gymnázium, Broumov, Hradební 218 Vzdělávací oblast: Anglický jazyk – gramatika, slovní zásoba Číslo materiálu: EU Název: Vocabulary Microprocessors.
Evaluation of Performance Based on Information in Documents‘ Databases Hana Pessrová Tomáš Cahlík.
O metodě konečných prvků Lect_6.ppt M. Okrouhlík Ústav termomechaniky, AV ČR, Praha Liberec, 2010 Pár slov o Matlabu a o zobrazení čísla na počítači.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_178 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Mgr. Eleonora Klasová Předmět.
Dependency Parsing Daniel Zeman
Jméno autora:Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_02_AJ_ACH Ročník: 1. – 4. ročník Vzdělávací oblast: Jazyk a jazyková.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_08_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Kdo je tady? Kdo má domácí úkol?. Diktát: napíšeme na tabuli.
Tutorial: Physics Topic: Cooling engine system Prepared by : RNDr. Ondřej Jeřábek Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je spolufinancován.
Tutorial: Economic Lyceum Topic: State Economic Policy Prepared by: Ing. Lenka Gabrielová Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o. Osvoboditelů 380, Louny Číslo projektu CZ.1.07/1.5.00/ Číslo sady 05Číslo.
1⇨ nominativ of singular Jeden tisíc (m.) Jeden milion (m.) Jedna miliarda (f.) 2, 3, 4 ⇨ nominativ of plural Dva, tři, čtyři tisíce Dva, tři, čtyři miliony.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o. Osvoboditelů 380, Louny Číslo projektu CZ.1.07/1.5.00/ Číslo sady 03 Číslo.
Pracovní list - pro tisk Vloženo z stress.pptx Začátek.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_12_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Online piracy Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí.
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
Tutorial: Physics Topic: Catalyst Prepared by : RNDr. Ondřej Jeřábek Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je spolufinancován.
Tutorial: Obchodní akademie Topic: Creating Formulas Prepared by : Mgr. Zdeněk Hrdina Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Tutorial: Obchodní akademie Topic: Logical Functions Prepared by: Mgr. Zdeněk Hrdina Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je.
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
Computer visualization of relational database in www environment Radek Horáček Supervisor: ing. J. Blažej,Phd. Bachelor Thesis, Department of Physical.
WILL/WON'T, PROMISES, OFFERS, DECISIONS, WORD STRESS Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In.
The United Kingdom of Great Britain and Northern Ireland 7. ročník Základní škola Jakuba Jana Ryby Rožmitál pod Třemšínem Efektivní výuka pro rozvoj potenciálu.
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
y.cz Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Roman Chovanec Název šablonyIII/2.
Tercie 2014 Výukový materiál GE Tvůrce: Mgr. Šárka Vopěnková Tvůrce anglické verze: ThMgr. Ing. Jiří Foller Projekt: S anglickým jazykem do dalších.
FUTURE - GOING TO, FUTURE - USING PRESENT CONTINUOUS, FUTURE PLANS Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology.
CZECH STATISTICAL OFFICE Na padesátém 81, CZ Praha 10, Czech Republic Blind Friendly Website Helena Koláčková Czech Statistical Office.
Center for Machine Perception Department of Cybernetics, Faculty of Electrical Engineering Czech Technical University in Prague Solving Minimal Problems.
Scanservice a.s. | Náchodská 2397/23 | Praha 9 | Česká republika | D O C U M E N T I M A G I N G
TERCIE 2014 MENDEL´S LAWS Výukový materiál GE Tvůrce: Mgr. Šárka Vopěnková Tvůrce anglické verze: ThMgr. Ing. Jiří Foller Projekt: S anglickým.
Číslo projektu CZ.1.07/1.5.00/ Název školy Gymnázium Česká a Olympijských nadějí, České Budějovice, Česká 64 Název materiálu VY_32_INOVACE_AJ_4_RAD_06_.
Accelerating Your Success TM IBM Tivoli NEWS Petr Klabeneš
Střední škola a Vyšší odborná škola cestovního ruchu, Senovážné náměstí 12, České Budějovice Č ÍSLO PROJEKTU CZ / / Č ÍSLO.
Dotkněte se inovací CZ.1.07/1.3.00/ Indirect Speech Statements.
Tutorial:Business Academy Topic: Stock in trade Prepared by:Ing. Marcela Zlatníková Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je.
WIRKKO MAGAZINE The churches of UNESCO World Heritage used in 21 century COM-BP
1 H2020 Smart, green and integrated transport Zoltan Horvath Intelligent Transport System Department, Space activities and R&D Evropská podpora výzkumu.
Word order Střední škola pedagogická, hotelnictví a služeb, Litoměřice, příspěvková organizace Litoměřice, Komenského 3 Autor: Pavel Vágai.
Department of Economics and Management in Civil Engineering, CTU in Prague, Václav BERAN, Petr DLASK, Dana ČÁPOVÁ, Jaroslava.
Angličtina: Queen Victoria
BAT centrum Brno - průřez činností v letech 2015–2016
Výukový materiál VY_22_INOVACE_10_ Warming up – langage game
Čeština: 10. lekce Czech language: 10th lesson
Interesting places - word formation, use of English
Výukový materiál VY_22_INOVACE_36_ Numbers. Part 2
Shopping 2. ledna 2014 VY_32_INOVACE_150119
Název školy: ZŠ Varnsdorf, Edisonova 2821, okres Děčín, příspěvková organizace Jazyk a jazyková komunikace, Anglický jazyk, Minulý čas prostý pravidelných.
Introduction to MS Dynamics NAV XVIII. (Reminders)
I haven´t seen your ID card.
Název školy Gymnázium, střední odborná škola, střední odborné učiliště a vyšší odborná škola, Hořice Číslo projektu CZ.1.07/1.5.00/ Název materiálu.
Živá fáze.
Výukový materiál VY_22_INOVACE_22_ Phrasal verbs. Part 2
Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Daniel Zeman Constituent Parsing Daniel Zeman
PAST CONTINUOUS MINULÝ ČAS PRŮBĚHOVÝ
Introduction to MS Dynamics NAV (Expected Costs)
DIGITÁLNÍ UČEBNÍ MATERIÁL
Statistical Business architectures and metadata management
Quantum Chemistry / Quantum Mechanics
Transkript prezentace:

PDT 1 Zdeněk Žabokrtský Czech Technical University, Department of Computer Science the following presentation can be downloaded from

PDT 2 The Prague Dependency Treebank (PDT) long-term project aimed at a complex annotation of a part of the Czech National Corpus with rich annotation scheme Institute of Formal and Applied Linguistics –established in 1990 at the Faculty of Mathematics and Physics, Charles University, Prague –Jan Hajič, Eva Hajičová, Jarmila Panevová, Petr Sgall, … –

PDT 3 The Prague Dependency Treebank inspiration: –the Penn Treebank (the most widely used syntactically annotated corpus of English) motivation: – the treebank can obviously be used for further linguistic research –more accurate results can be obtained when using annotated corpora than when using texts in their raw form (unsupervised training)

PDT 4 Source of the text data provided by Institute of the Czech National Corpus (ICNC) text sample for PDT – tokens (words and punctuations) in sentences, divided into 576 files, 50 sentences per file 40 % - general newspaper articles (Lidové noviny, Mladá Fronta) 20 % - economic new and analysis (Českomoravský profit) 20 % - popular science magazine (Vesmír) 20 % - information technology texts –divided into a training set ( sentences) a development test set (3 697) a cross-evaluation test data set (3 787)

PDT 5 Institute of the Czech National Corpus founded 1994 at the Faculty of Philosophy, Charles University, head of the institute: prof. František Čermák 100 million words freely accessible: –querry language CQP (corpus query processor, developed at the university in Stuttgart) –regular expressions –examples of querries: disku[s|z]e.+nést

PDT 6 CNC: querry example querry:.+nosit response: tačí se trochu vybavit, kupu listí a sena - já ho ie Každý mistr by se měl nějakým rekordem či jedin anční tísni by měly dítě. Bezvýhradná povinnost p í hladovění bude schopna plod. Mimochodem i u sou evítané těhotenství tzv. a dítěte se vzdát ve pros mž sedíme, nepostavil. tuny kamení na zádech, t byl v nebezpečí a naděje dítě žádná. Jeden večer 6 - Živit mateř. mlékem 57 - Ukončit létání 58 - odstatně větší a může se řadou úctyhodných přívlas vy, v pokoji nekouřit, domů alkohol. Dodržovat ve městě, které se mělo jen svým " dělnickým hnut...

PDT 7 Layered structure of PDT morphological level –full morphological tagging (word forms, lemmas, mor. tags) analytical level –surface syntax –syntactic annotation using depencency syntax (captures analytical functions such as Subject, Object,...) tectogrammatical level –level of linguistic meaning (tectogrammatical functions such as Actor, Patient,...) raw text morphologically tagged text analytic tree structures (ATS) tectogrammatical tree structures (TGTS)

PDT 8 The Morphological Level a tag and a lemma are assigned to each word form from the input text 3030 tags (Czech is an inflectionally rich language) 6 tag variables –number - degrees of comparison –case - person –gender- negation example: – VPS3A - verb (indicative, present tense, sing., 3rd person, affirmative)

PDT 9 Morphological Analysis an automatic process: –input: word form –output: a set of possible lemmas, each lemma accompanied by a set of possible tags currently covers Czech lemmas, based on stems can recognize 20 million word forms output ambiguity: – there may be 5 different lemmas for a given word form –27 different tags for a given lemma –example: učení - NNS1A, NNS2A, NNS3A,...,NNP5A

PDT 10 The whole process of morphological tagging automatic morphological analysis manual disambiguation –2 annotators –in the full text context –special software tool automatic comparison manual correction raw text unambiguously tagged text

PDT 11 Data Format Standard Generalized Markup Language (SGML) a sample of DTD (Document Type Definition) related to the morphological level: <!ELEMENT MMl - O (#PCDATA & R? & E? & e? & T* & MMt*) -- lemma (base form), description see the l tag; machine assigned (by a morphological analysis program), NOT disambiguated --> <!ELEMENT MDl - O (#PCDATA & R? & E? & e? & T* & MDt*) -- lemma (base form), description see the l tag; machine assigned (by a tagger), disambiguated if more than 1: n-best -->... <!ELEMENT MMt - O (#PCDATA) -- morphological tag(s) as assigned by morphology, NOT disambiguated --> <!ELEMENT MDt - O (#PCDATA) -- morphological tag(s) as assigned by machine, disambiguated, possibly also with weight/prob; if more than 1: n-best -->

PDT 12 Example of tagged sentence Ty mají pak někdy takovou publicitu, že to dotyčnou kancelář zlikviduje. Ty ty PP2S1 PP2S5 ten PDFP1 PDFP4 PDIP1 PDIP4 PDMP4 Sb 1 2 mají mít VPP3A Pred 2 0 pak pak DB Adv 3 2 někdy někdy DB Adv 4 2 takovou takový AFS41A AFS71A Atr 5 6 publicitu publicita NFS4A Obj 6 2,, ZIP AuxX 7 8 že že JS AuxC 8 6 to ten PDNS1 PDNS4 Sb 9 13 dotyčnou dotyčný AFS41A AFS71A Atr kancelář kancelář NFS1A NFS4A Obj prakticky prakticky_^(*1ý) DG1A Adv zlikviduje zlikvidovat_:W VPS3A Obj ZIP AuxK 14 0

PDT 13 The Analytical Level the dependency structure was chosen to represent the syntactic relations within the sentence. output of the analytical level: analytical tree structure (ATS) –oriented, acyclic graph with one entry node –every word form and punctuation mark is represented as a node –the nodes are annotated by attribute-value pairs new attribute: analytical function –determines the relation between the dependent node and its governing nodes –values: Sb, Obj, Adv, Atr,....

PDT 14 Example of ATS V návrzích na případné změny vycházejí ze svých většinou několikaletých podnikatelských zkušeností.

PDT 15 Selected attributes of ATS’s nodes

PDT 16 Selected values of the analytical function

PDT 17 Example of tagged sentence...ve sledovaném období žádný okres nezlepšil svoji pozici... ve v RV4 RV6 AuxP 4 9 sledovaném sledovaný_^(*2t) AIS61A AMS61A A NS61A Atr 5 6 období období NNP1A NNP2A NNP4A N NP5A NNS1A NNS2A NNS3A NNS4A N NS5A NNS6A Adv 6 4 žádný ľádný PNFIS4 PNFYS1 PNFYS5 Atr 7 8 okres okres NIS1A NIS4A Sb 8 9 nezlepšil zlepąit_:W VRYSN Pred_Co 9 11 pozici pozice NFS3A NFS4A NFS6A Obj 1 0 9

PDT 18 The Tectogrammatical Level based on the framework of the Functional Generative Description as developed by Petr Sgall in comparison to the ATSs, the tectogrammatical tree structures (TGTSs) have the following characteristics: –only autosemantic words have an own node, function words (conjunctions, prepositions) are attached as indices to the autosemantic words to which they belong –nodes are added in case of clearly specified deletions on the surface level –analytical functions are substituted by tectogrammatical functions (functors), such as Actor, Patient, Addressee,...

PDT 19 Example of TGTS Podle předběžných odhadů se totiž počítá, že do soukromého vlastnictví bude prodáno minimálne bytů

PDT 20 Selected attributes of a TGTS‘s node

PDT 21 Functors tectogrammatical counterparts of analytical functions about 40 functors in 2 groups: –actants Actor, Patient, Adressee, Origin, Effect –free modifiers LOC, DIR1, RSTR, TWHEN, TTIL,... provide more detailed information about the relation to the governing node than the analytical function

PDT 22 Example of ATS... Kdo chce investovat dvě stě tisíc korun do nového automobilu, nelekne se, že benzín byl změnou zákona trochu zdražen.

PDT and the corresponding TGTS

PDT 24 Tectogrammatical tagging 2 parallel streams ATS treebank smaller set of fully tagged TGTSs larger set of partially tagged TGTSs (only changes of tree structure, functor and TFA assignment)

PDT 25 Problems of automatic functor assignment za roh - DIR3 za hodinu - TWHEN za svobodu - OBJ po otci –TWHEN (Přišel po otci.) –NORM (Jmenuje se po otci.) –HER (Zdědil dům po otci.) –...

PDT 26 Summary the current state of art: –there are several manually annotated files of TGTSs –methods for automatic transformation from ATS into TGTS form are in development Czech National Corpus morphologically tagged corpus ATS treebank TGTS treebank September, 1994 November, 1996 March, 2000