Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)

Slides:



Advertisements
Podobné prezentace
Diofantos z Alexandrie
Advertisements

Život Ferdy Mravence.
Úvod do studia jazyka – 4. Gramatika Morfologie.
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Centering, aneb co by na to asi řekl František Daneš?
Povrchový slovosled kontextově nezapojených participantů na základě dat PDT Kateřina Rysová ÚFAL MFF UK GA ČR P406/12/0658 Koreference, diskurz a aktuální.
Red-Black Stromy Binární Vyhledávací Stromy, u kterých je časová složitost operací v nejhorším případě rovná O(log n)
1 Ověřování lingvistické teorie nad počítačovým korpusem Eva Hajičová ÚFAL MFF UK v Praze
Workshop 3 grantů – PDT 3.0 – představy, realita, budoucnost Jarmila Panevová.
Reality show, ktorá našla brata Výsledky sledovanosti
Vzájemná poloha dvou rovin- různoběžné
Volby VY_32_INOVACE_29-12 volební systémy.
Setkání členů SPIS 13. června 2007 Sahara Café.
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem ČR INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ZŠ, Týn nad Vltavou, Malá Strana Nové.
Základy státní správy Veřejná správa. Stát  Musí mít politickou autoritu, prostřednictvím kterých realizuje státní moc  Státní moc je nezávislá, uskutečňovaná.
MEZINÁRODNÍ ORGANIZACE
O. s. Fórum 50 % Usiluje o společnost s vyrovnaným zastoupením mužů a žen ve veřejném životě.
V OLBY Tato prezentace byla vytvořena v rámci projektu CZ.1.07/1.1.04/
Franklin Delano Roosevelt
Ryšová Magda Holienčin David Kusynová Katka.  Hlavní politicko-ekonomické a historické daty Japonska  Fenomén japonské ekonomiky  Japonská ekonomika.
MS PowerPoint Prezentační manažer Kapitola 3.1 (Práce se snímky)
Prezidentské volby v USA (v porovnání s ČR)
Veřejná správa Mgr. Terezie Pemová
Teorie státu - pokračování
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Evropská Integrace Aneb jak to vše začalo
Dělba moci.
MOC ZÁKONODÁRNÁ Právní řád – není neměnný, lze jej měnit
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Šablona: III/2 č. materiálu: VY_32_INOVACE_409.
PUBLICISTICKÝ STYL = NOVINÁŘSKÝ.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Autor: Mgr. Lenka Šedová
CJBB84 1 GAK – CJBB84 st
Renata Moučková Gabriela Sedláková Markéta Černá
INFORMATIKA 9 MS Excel I. III2 – I ANOTACE Materiál obsahuje prezentaci ve formátu Microsoft PowerPoint (.ppt) pro učivo v předmětu Informatika,
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
EKONOMICKÁ GEOGRAFIE seminář č. 3 Zadání seminárních prací - překlady.
ÚSTAVNÍ PRÁVO Prezident republiky JUDr. Petr Čechák, Ph.D.
Významy morfologických kategorií v PDT 2.0 Magda Razímová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze.
Český jazyk 3. ročník ZŠ „Slovesa“
Sparse Data Issue in MT Evaluation Ondřej Bojar, Kamil Kos, David Mareček;
[Výrazy funkce a funkční v Mathesiově definici věty a foném(at)u] Martin Beneš – ÚJČ AV ČR; ÚČJTK FF UK v Praze vzdělávací cyklus Moderní mluvnice češtiny.
Studená válka Poválečné uspořádání Německa Založení vojenských paktů
Explicitní popis jazyka a anotovaná data se zřetelem na češtinu GA ČR P406/10/0875 Explicitní popis jazyka a anotovaná data se zřetelem na češtinu Workshop.
Prezident ČR Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Kateřina Charvátová. Dostupné z Metodického portálu ISSN
70. výročí osvobození Bosonoh
Rekonstrukce standardizovaného textu z mluvené řeči
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Zápor v německé větě VY_32_INOVACE_02-03 Ročník: 8. Vzdělávací oblast: Jazyk a jazyková komunikace Vzdělávací obor: Německý jazyk Tematický okruh: Gramatické.
Elektronické učební materiály - II. stupeň Matematika Autor: Mgr. Miluše Džuberová Procenta v praxi Kolik ušetříme na slevách? Jaké je složení potravin?
Přísudek a podmět Autor: Mgr. Ivana Tesařová Materiál vznikl v rámci projektu Škola pro život č.proj. CZ.1.07/1.4.00/
Název školy: ZÁKLADNÍ ŠKOLA SADSKÁ Autor: Mgr. Jiřina Homolová Název DUM: VY_32_Inovace_ Slova ohebná 2 Název sady: Český jazyk 6. ročník Číslo projektu:
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor:Ing. Radoslava Benová Název materiálu:
VÝUKOVÝ MATERIÁL ZPRACOVANÝ V RÁMCI PROJEKTU MODERNÍ ŠKOLA Registrační číslo projektu: CZ.1.07/1.400/ ZÁKLADNÍ ŠKOLA ÚSTÍ NAD LABEM, HLAVNÍ 193,
Materiál vznikl v rámci projektu Šance pro všechny č.proj. CZ.1.07/1.4.00/
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace Autor: Mgr. Ludmila Handrejchová Vytvořeno dne: Název: VY_32_INOVACE_10A_CJ9_17_SLOH_A_KOMUNIKACE.
Dvourozměrné geometrické útvary
ZÁKONODÁRNÁ MOC Jana Karásková.
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Ernest Seifert Název materiálu:
Název školy: Základní škola speciální Litvínov, Šafaříkova 991
VZNIK ČSR Autor. Lenka Mulačová Vzdělávací oblast: Člověk a společnost
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU: CZ.1.07/1.4.00/ AUTOR: Mgr. Vladimír.
Feminismus a ženské hnutí v bývalé NDR
Novela zákona o střetu zájmů 09/2016
AUTOR: Mgr. Kateřina Palečková NÁZEV: VY_32_INOVACE_5C_13
Právní stát a vláda práva
ČÍSLO PROJEKTU ČÍSLO MATERIÁLU NÁZEV ŠKOLY AUTOR TÉMATICKÝ CELEK
volby Volební systémy v demokratických zemích
Řešení polohových konstrukčních úloh
Dvourozměrné geometrické útvary
Transkript prezentace:

Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu) GAP406/12/0658 (Koreference, diskurs a aktuální členění v kontrastivním pohledu)

Anotace na tektogramatické rovině Pražského závislostního korpusu (Mikulová a kol. 2005) – kapitola „Aktuální členění“ Eva Hajičová, Jiří Mírovský, Kateřina Rysová, Magdaléna Rysová t:tfa t:tfa

Generované uzly generované uzly, které nemají analytický protějšek (tj. nejsou to kopírované uzly) a které navíc nejsou RHEM ani #Forn, dostávají automaticky hodnotu tfa="t„ očekávaná chybovost: 0 „Proč David Dinkins,“ říká kritik, „vždycky vyčkává, dokud není chycen při činu?“

Generované uzly generované uzly, které jsou členy koordinace/apozice a mají analytický protějšek (není to tedy např. #Forn), dostávají automaticky hodnotu tfa="t„ očekávaná chybovost: 0 „Nyní,“ říká Joseph Napolitan, průkopník politické televize, „je cílem jít do útoku jako první, poslední a [jít] vždycky.“

Koreference uzly, ze kterých vede gramatická, textová či segmentová koreference, dostávají automaticky hodnotu tfa="t" očekávaná chybovost: 1:100 A Dinkins podle svých slov nevěděl, že muž, kterého platili v rámci kampaně za přesvědčování voličů k účasti, byl odsouzen za únos.

Uzly PRED uzly PRED, které nejsou generované a jejichž t_lemma se nenachází v předchozí větě, dostávají automaticky hodnotu tfa="f" očekávaná chybovost: 1:40 „Pamatujete si na Pinocchia?,“ říká ženský hlas.

Uzly PRED generované uzly PRED dostávají automaticky hodnotu tfa="t" očekávaná chybovost: 1:100 Na obrazovce vidíme dvě zkreslené rozmazané fotografie, pravděpodobně [vidíme] fotografie dvou politiků.

Ostatní slovesné uzly ostatní slovesné uzly (gram/sempos="v"), které mají jako funktor jednu z hodnot (ADDR|AIM|CAUS|ACMP|MANN|PAT|EFF|AUT H|BEN|COMPL|EXT|ORIG|RESL|TFHL|TSIN), dostávají automaticky hodnotu tfa="f" očekávaná chybovost: maximálně 1:10 „Porovnejte tyto dva kandidáty na starostu,“ říká hlasatel.

Uzly PARTL|DENOM|MOD|EXT uzly, které mají jako funktor jednu z hodnot (PARTL|DENOM|MOD|EXT), dostávají automaticky hodnotu tfa="f" očekávaná chybovost: maximálně 1:10 Na obrazovce vidíme dvě zkreslené rozmazané fotografie, pravděpodobně fotografie dvou politiků.

Uzly RHEM uzly, které mají jako funktor hodnotu RHEM a nejsou na první pozici ve větě, dostávají automaticky hodnotu tfa="f" očekávaná chybovost: 1:10 Letošek je rokem, kdy se negativní reklama, po léta přítomná ve většině politických kampaní jen druhotně, stala hlavní událostí.

„Tady“ uzly s t_lemma="tady" dostávají automaticky hodnotu tfa="t„ očekávaná chybovost: 1:10 Ředitelka Wardová se rozhodla zbavit se „balastu“ v učitelském sboru a obnovit bezpečnost a také tu byly další nové faktory, které pracovaly v její prospěch.

Neurčitý člen uzly, které jsou českými protějšky anglických uzlů, které na povrchu stojí za slovesem a mají u sebe neurčitý člen, dostávají automaticky hodnotu tfa="f" očekávaná chybovost: neznámá

THE WAR OVER FEDERAL JUDICIAL SALARIES takes a victim. VÁLKA O PLATY FEDERÁLNÍCH SOUDCŮ si žádá svou první oběť.

Poté, co jsou aplikovány všechny předchozí kroky:

Synové ohniskového slovesa synové slovesa, které má tfa="f" a které ve své klauzi není na první či druhé pozici, dostávají automaticky hodnotu tfa="f„, pokud stojí v povrchovém slovosledu za slovesem očekávaná chybovost: neznámá Na konci druhé světové války se Německo vzdalo dříve než Japonsko...

Uzly RSTR RSTR synové uzlů, které mají tfa="f", dostávají automaticky hodnotu tfa="f„ očekávaná chybovost: 1:30 Zasedání společného výboru sněmovny a senátu se koná v případě, že sněmovna a senát schválí zákon v odlišné podobě.

Děkujeme za pozornost