Rekonstrukce standardizovaného textu z mluvené řeči

Slides:



Advertisements
Podobné prezentace
Učivo o pravopise.
Advertisements

Úvod do studia jazyka – 4. Gramatika Morfologie.
Autor:Ing. Pavel Brož Předmět/vzdělávací oblast:Informační a komunikační technologie Tematická oblast:Práce se standardním aplikačním programovým vybavením.
Interpretace práva.
Anglický slovosled (oznamovací věty)
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
JAZYKOVĚDA, JAZYKOVÁ KULTURA, ŘEČ A JAZYK
Korpusová lingvistika (2)
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Pavlína Hůrková Datum: Název: VY_22_INOVACE_1.2.7.
III/2 III. 2 9.C
PRESENT PERFECT SIMPLE
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Ty, hodilo by se mi, kdybys mi mohl pomoci s jednou drobností. Hey, I could use your help with a little job.
Past simple & past continuous
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
zpětná vazba a hodnocení
Úvod do korpusové lingvistiky 8
Vzdělávací materiál vytvořený v projektu OP VK Název školy:Gymnázium, Zábřeh, náměstí Osvobození 20 Číslo projektu:CZ.1.07/1.5.00/ Název projektu:Zlepšení.
IT Session Two Lessons Three and Four. Outline  IT Test 1  International Phonetic Alphabet  IPA – Interactive chart  Exercise 1  Český národní korpus.
ZS 2013/2014 Božena Bednaříková
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Bc. Martin Krčmař. Střední škola hotelnictví a služeb a Vyšší odborná škola, Opava, příspěvková.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Relative Clauses Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Romana Petrová. Dostupné z Metodického portálu ISSN: 
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
Věta, výpověď, promluva Název materiálu: VY_32_INOVACE_CJ3r0101
Dobrý den, pane. Znám vás? Hello, sir. Do I know you?
FÁZE NÁCVIKU SLOHOVÉHO PROJEVU
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Nemuseli tam jít they didn't have to go there. myslím, že bychom jim to neměli říkat I don't think we should tell them.
Nemusela se vrátit brzo she didn't have to be back early.
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
JAZYKOVĚDA JAZYKOVÉ PŘÍRUČKY
Všude kam se podívám vidím ryby. Everywhere I look, I see fish.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO: NÁZEV: VY_32_INOVACE_440_Složeniny se SOME, ANY, NO a EVERY AUTOR: Ing. Magdalena.
Kolik je hodin? What time is it?. Jak se tam dostanu? How do I get there?
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Automatická předanotace TFA v české části PCEDT GAP406/10/0875 (Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu)
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Mémy tlumočení podle Franze Pöchhackera
Univerzita Karlova v Praze Možnosti FREEMOVERS 17. března 2015 MgA. Stanislav Urbánek.
CJBB105 Úvod do korpusové lingvistiky
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Volitelný jazykový seminář STYLISTICKÉ HODNOCENÍ PŘEKLADU Božena Bednaříková.
Název školy : Základní škola a mateřská škola, Svoboda nad Úpou, okres Trutnov Autor : Bc. Lucie Ševčíková Datum : Název : VY_22_INOVACE_2.2.2.
Název školy : Základní škola a mateřská škola, Svoboda nad Úpou, okres Trutnov Autor : Bc. Lucie Ševčíková Datum : Název : VY_22_INOVACE_2.2.1.
Plánování hodiny pozpátku Text: Ivan Klíma, Jak daleko je slunce Příprava hodiny literární výchovy pro žáky 4. a 5. ročníku ZŠ A. Studentka vyhledá text.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Modal verbs – could, should, would Škola: Základní škola Trávníky Otrokovice, příspěvková organizace Číslo projektu: CZ.1.07/1.4.00/ Název výukového.
Sémantické aspekty katalogizace X. PhDr. Jiří Stodola.
Integrovaná střední škola v Semilech 28. října 607, Semily.
Klára Osolsobě, Hana Žižková
Digitální učební materiál
Určitý a neurčitý člen - a/ an, the
Mgr. Marie Havránková TVAROSLOVÍ 1 Mluvnice pro 2. ročník 2. ročník
Rozvoj řeči u dítěte z hlediska morfologicko-syntaktické roviny
Kapitoly z fonetiky a fonologie českého jazyka
GE - Vyšší kvalita výuky
ADVICE Rady Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Hana Matuszková. Dostupné z Metodického portálu ISSN: ,
Digitální učební materiál
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
NEPRAVIDELNOSTI VĚTNÉ STAVBY
Koherence textu   - koherence textu: soudržnost textu, provázanost.
NEPRAVIDELNOSTI VĚTNÉ STAVBY
AUTOR: Mgr. Alena Bartoňková
Transkript prezentace:

Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova Praha

Pražský závislostní korpus mluvené češtiny = první korpus mluvené řeči, který bude obsahovat i syntakticko-sémantickou anotaci promluv (v českém i světovém měřítku) Pracoviště: ÚFAL MFF UK Granty: Centrum komputační lingvistiky LC 356 PIRE ME 383, GAČR 405/06/0589 EU FP6 Companions IST-034434 CMK2007 mikulova@ufal.mff.cuni.cz

Syntakticky anotované korpusy mluvené řeči Switchboard Corpus University of Pennsylvania, USA Childes Database Carnegie Mellon University, Pittsburgh, USA Corpus Gesproken Nederlands University of Leuven, University of Ghent, Belgie University of Utrecht, University of Nijmegen, Nizozemí Tübingen Treebank of Spoken German/English/Japanese Univerzita v Tübingen, Německo International Corpus of English University College London, Velká Británie Swedish Treebank Univerzity ve Växjö, Göteborgu, Stockholmu, Švédsko CMK2007 mikulova@ufal.mff.cuni.cz

Účel korpusu Pražského závislostního korpusu mluvené češtiny strojové učení za účelem plného porozumění mluvené řeči odpovídání na otázky, vyhledávání v mluvených projevech strojový překlad mluvené řeči lingvistický výzkum Naším cílem primárně není zachytit vlastní strukturu mluvené řeči! CMK2007 mikulova@ufal.mff.cuni.cz

Pražský závislostní korpus 2.0 Východisko projektu = manuálně anotovaný korpus psaných textů na třech jazykových rovinách: morfologická rovina rovina povrchové syntaxe rovina hloubkové syntaxe (syntakticko-sémantická anotace) + neanotační rovina – „surový text“ Jednotlivé roviny jsou mezi sebou propojeny systémem odkazů z jednotky roviny vyšší na jednotky roviny nižší. CMK2007 mikulova@ufal.mff.cuni.cz

Systém rovin v Pražském závislostním korpusu Východisko projektu t-rovina hloubková syntax (závislostní strom) syntakticko-sémantické fce (př. místo, čas) valence a elipsy tzv. gramatémy koreference, aktuální členění a-rovina povrchová syntax (závislostní strom) syntaktické fce (př. příslovečné určení) m-rovina lema; morfologické kategorie w-rovina „surový text“; tokenizace CMK2007 mikulova@ufal.mff.cuni.cz

Syntakticko-sémanticky anotovaný korpus mluvené řeči Jak zachytit význam mluvených segmentů? problém segmentace mluvené řeči do vět způsob zachycení specifických jevů mluvené řeči ale kdyby náhodou tam byl nějakej ten ale mají tam zachariáš s tím radkem bejblem vole mají tam žlutý karty … aspoň desetník na kartu Tři možnosti, jak naložit se specifickými jevy mluvené řeči (J. B. Johannessenová, F. Jørgensen; 2005): zohlednit všechny jevy mluvené řeči zohlednit jen vybrané jevy mluvené řeči a ostatní ignorovat ignorovat všechny specifické jevy mluvené řeči standardizace mluvené řeči CMK2007 mikulova@ufal.mff.cuni.cz

Standardizace mluvené řeči = anotace, která se vypořádává se specifickými jevy mluvené řeči v doslovně přepsané mluvené řeči Celosvětově nový směr výzkumu: University of Pennsylvania: „dysfluency annotation“ {D Well } what do you think about the idea of, {F uh, } kids having to dopublic service work for a year? / Do you think it's a , -/ John Hopkins University, Baltimore You know what there was this other show where where was it like a it was it the Joe Millionaire → There was this other show Joe Millionaire CMK2007 mikulova@ufal.mff.cuni.cz

Vymezení standardizovaného textu Základní principy Rekonstrukce standardizovaného textu z mluvené řeči v Pražském závislostním korpusu mluvené češtiny Osnova: Výchozí myšlenka Vymezení standardizovaného textu Základní principy Segmentace mluvené řeči do vět Úpravy segmentů mluvené řeči CMK2007 mikulova@ufal.mff.cuni.cz

(syntakticko-sémantický zápis) Výchozí myšlenka rekonstrukce standardizovaného textu z mluvené řeči hledat.PRED #PersPron.ACT ubožáček.PAT nějaký.RSTR Význam (syntakticko-sémantický zápis) pravidla pro psaný text pravidla pro mluvenou řeč psaný text mluvená řeč Hledali nějakého ubožáčka. no hledali nějakýho ubožáčka že jo CMK2007 mikulova@ufal.mff.cuni.cz

Standardizovaný text Rekonstrukce standardizovaného textu z mluvené řeči Vstup anotace: „doslovná“ transkripce Výstup anotace: standardizovaný text: neobsahuje neřečové události, všechny specifické jevy mluvené řeči jsou odstraněny, proud mluvené řeči je rozčleněn do vět, celkově srozumitelný a dobře se čte, věty mají gramatický slovosled a běžnou českou syntax, použity jsou jen spisovné tvary slov, dodržuje pravidla českého pravopisu. CMK2007 mikulova@ufal.mff.cuni.cz

Základní principy rekonstrukce standardizovaného textu z mluvené řeči Princip zachování významu: Významy (obsahy) sdělované mluvenou řečí a významy (obsahy) obsažené ve standardizovaném textu jsou tytéž. Princip minimálního počtu úprav: Provádí se jen tolik modifikací, kolik jich segmenty mluvené řeči nutně vyžadují, aby bylo dosaženo standardizovaného textu. CMK2007 mikulova@ufal.mff.cuni.cz

Princip nejdelší možné klauze: Segmentace mluvené řeči do vět Rekonstrukce standardizovaného textu z mluvené řeči Princip nejdelší možné klauze: Klauze zahrnuje co nejvíce potenciálních větných členů za podmínky, že výsledná věta je ještě utvořena jak syntakticky, tak sémanticky správně. <silence><inhale> někteří lidé mě <noise> utkvěli <inhale> velmi v paměti <silence> z toho koncentračního tábora <silence> ➜ Někteří lidé z koncentračního tábora mně velmi utkvěli v paměti. CMK2007 mikulova@ufal.mff.cuni.cz

Úpravy segmentů mluvené řeči Rekonstrukce standardizovaného textu z mluvené řeči Dva základní typy úprav: ortografické modifikace: pravidelné úpravy vstupní transkripce vyplývající ze základních požadavků na standardizovaný text vlastní modifikace: podstatný zásah do podoby vstupního textu: mazání vkládání substituce změny ve slovosledu CMK2007 mikulova@ufal.mff.cuni.cz

Odstranění neřečových událostí: Ortografické modifikace Rekonstrukce standardizovaného textu z mluvené řeči Odstranění neřečových událostí: <mouth> <inhale> tak možná že bych ještě něco řek <breath> <uh> <silence> ➜ Tak možná, že bych ještě něco řekl. Pravopisné úpravy: vložení interpunkce velká/malá písmena on řekl byl sem tam ale nikdo mu nevěřil ➜ On řekl: „Byl jsem tam,“ ale nikdo mu nevěřil. CMK2007 mikulova@ufal.mff.cuni.cz

Vlastní modifikace: mazání Rekonstrukce standardizovaného textu z mluvené řeči Odstranění obsahově nerelevantních slovních jednotek: výplňková slova a fráze (no tam jsme byli dva roky) nadbytečná deiktická slova (jel sem do té prahy) nadbytečné konektory (a tam to trvalo dva roky) nadbytečná a nesprávně užitá gramatická slova (pak byl přišel) restarty (a to byli většinou to byl většinou personál) opakující se úseky textu (my sme tam dostávali v bratislavě podporu že jo asi deset korun denně sme dostávali že ) CMK2007 mikulova@ufal.mff.cuni.cz

Vlastní modifikace: vkládání Rekonstrukce standardizovaného textu z mluvené řeči Vložení jednotek nezbytných pro vytvoření gramaticky i lexikálně správné věty: chybějící gramatická slova nevyjádřená plnovýznamová slova <silence> <inhale> revolverem mu takle začali před nos <inhale> a chtěli abych to odvolal <cough> jo <silence> ➜ Revolverem mu takhle začali dělat před nosem a chtěli, abych to odvolal. CMK2007 mikulova@ufal.mff.cuni.cz

Vlastní modifikace: substituce Rekonstrukce standardizovaného textu z mluvené řeči Změny forem a lemat: změna nespisovně utvořených tvarů slov změna nesprávně utvořených tvarů slov náhrada slova zvoleného nesprávně z hlediska vyjadřovaného významu architekt zelenka má velikou zálohu o tuto činnost ➜ Architekt Zelenka má velikou zásluhu na této činnosti. CMK2007 mikulova@ufal.mff.cuni.cz

Vlastní modifikace: úpravy slovosledu Rekonstrukce standardizovaného textu z mluvené řeči Rekonstruované věty mají gramatický slovosled, který nenarušuje plynulost textu. prosté měření terénu sme dělali ➜ Dělali jsme prosté měření terénu. sem jel s ním do zvolena ➜ Jel jsem s ním do Zvolena. CMK2007 mikulova@ufal.mff.cuni.cz

Systém rovin v Pražském závislostním korpusu mluvené češtiny Analogická struktura jako PDT 2.0. Ale: nová z-rovina: automatický přepis mluvené řeči nově definovaná w-rovina: přepis mluvené řeči manuálně upravený anotátorem nově definovaná m-rovina: standardizovaný text z-layer audio BYL BYS ČELO LESA CMK2007 mikulova@ufal.mff.cuni.cz

Propojení nejnižších rovin v Pražském závislostním korpusu mluvené češtiny Vztahy se spolužáky byly dobré . vztah s-1 spolužák být dobrý . NNIP1-----A---- RV—7---------- NNMP7-----A---- VpTP---XR-AA--- AAIP1----1A---- Z:------------- m-rovina w-rovina se spolužáky <cough> myslím že vztahy byly dobrý z-rovina SPÍŠE <gap> MY SLÍŽE VZTAHY BYLY DOBRÝ audio CMK2007 mikulova@ufal.mff.cuni.cz

Děkuji za pozornost. http:/ufal.mff.cuni.cz