Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta.

Podobné prezentace


Prezentace na téma: "Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta."— Transkript prezentace:

1 Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova Praha

2 Pražský závislostní korpus mluvené češtiny = první korpus mluvené řeči, který bude obsahovat i syntakticko-sémantickou anotaci promluv (v českém i světovém měřítku) Pracoviště: ÚFAL MFF UK Granty: Centrum komputační lingvistiky LC 356 PIRE ME 383, GAČR 405/06/0589 EU FP6 Companions IST

3 Switchboard Corpus University of Pennsylvania, USA Childes Database Carnegie Mellon University, Pittsburgh, USA Corpus Gesproken Nederlands University of Leuven, University of Ghent, Belgie University of Utrecht, University of Nijmegen, Nizozemí Tübingen Treebank of Spoken German/English/Japanese Univerzita v Tübingen, Německo International Corpus of English University College London, Velká Británie Swedish Treebank Univerzity ve Växjö, Göteborgu, Stockholmu, Švédsko Syntakticky anotované korpusy mluvené řeči

4 Účel korpusu Pražského závislostního korpusu mluvené češtiny strojové učení za účelem plného porozumění mluvené řeči odpovídání na otázky, vyhledávání v mluvených projevech strojový překlad mluvené řeči lingvistický výzkum Naším cílem primárně není zachytit vlastní strukturu mluvené řeči!

5 = manuálně anotovaný korpus psaných textů na třech jazykových rovinách: morfologická rovina rovina povrchové syntaxe rovina hloubkové syntaxe (syntakticko-sémantická anotace) + neanotační rovina – „surový text“ Pražský závislostní korpus 2.0 Východisko projektu Jednotlivé roviny jsou mezi sebou propojeny systémem odkazů z jednotky roviny vyšší na jednotky roviny nižší.

6 w-rovina „surový text“; tokenizace m-rovina lema; morfologické kategorie a-rovina povrchová syntax (závislostní strom) syntaktické fce (př. příslovečné určení) t-rovina hloubková syntax (závislostní strom) syntakticko-sémantické fce (př. místo, čas) valence a elipsy tzv. gramatémy koreference, aktuální členění Systém rovin v Pražském závislostním korpusu Východisko projektu

7 Syntakticko-sémanticky anotovaný korpus mluvené řeči Jak zachytit význam mluvených segmentů? problém segmentace mluvené řeči do vět způsob zachycení specifických jevů mluvené řeči ale kdyby náhodou tam byl nějakej ten ale mají tam zachariáš s tím radkem bejblem vole mají tam žlutý karty … aspoň desetník na kartu Tři možnosti, jak naložit se specifickými jevy mluvené řeči (J. B. Johannessenová, F. Jørgensen; 2005): A.zohlednit všechny jevy mluvené řeči B.zohlednit jen vybrané jevy mluvené řeči a ostatní ignorovat C.ignorovat všechny specifické jevy mluvené řeči standardizace mluvené řeči

8 Celosvětově nový směr výzkumu: University of Pennsylvania: „dysfluency annotation“ {D Well } what do you think about the idea of, {F uh, } kids having to dopublic service work for a year? / Do you think it's a, -/ John Hopkins University, Baltimore You know what there was this other show where where was it like a it was it the Joe Millionaire → There was this other show Joe Millionaire Standardizace mluvené řeči = anotace, která se vypořádává se specifickými jevy mluvené řeči v doslovně přepsané mluvené řeči

9 Rekonstrukce standardizovaného textu z mluvené řeči v Pražském závislostním korpusu mluvené češtiny Osnova: Výchozí myšlenka Vymezení standardizovaného textu Základní principy Segmentace mluvené řeči do vět Úpravy segmentů mluvené řeči

10 Výchozí myšlenka rekonstrukce standardizovaného textu z mluvené řeči Význam (syntakticko-sémantický zápis) pravidla pro psaný text pravidla pro mluvenou řeč psaný text mluvená řeč no hledali nějakýho ubožáčka že joHledali nějakého ubožáčka. hledat.PRED #PersPron.ACT ubožáček.PAT nějaký.RSTR

11 Standardizovaný text Rekonstrukce standardizovaného textu z mluvené řeči neobsahuje neřečové události, všechny specifické jevy mluvené řeči jsou odstraněny, proud mluvené řeči je rozčleněn do vět, celkově srozumitelný a dobře se čte, věty mají gramatický slovosled a běžnou českou syntax, použity jsou jen spisovné tvary slov, dodržuje pravidla českého pravopisu. Vstup anotace: „doslovná“ transkripce Výstup anotace: standardizovaný text:

12 Základní principy rekonstrukce standardizovaného textu z mluvené řeči Princip zachování významu: Významy (obsahy) sdělované mluvenou řečí a významy (obsahy) obsažené ve standardizovaném textu jsou tytéž. Princip minimálního počtu úprav: Provádí se jen tolik modifikací, kolik jich segmenty mluvené řeči nutně vyžadují, aby bylo dosaženo standardizovaného textu.

13 Princip nejdelší možné klauze : Klauze zahrnuje co nejvíce potenciálních větných členů za podmínky, že výsledná věta je ještě utvořena jak syntakticky, tak sémanticky správně. Segmentace mluvené řeči do vět Rekonstrukce standardizovaného textu z mluvené řeči někteří lidé mě utkvěli velmi v paměti z toho koncentračního tábora ➜ Někteří lidé z koncentračního tábora mně velmi utkvěli v paměti.

14 Úpravy segmentů mluvené řeči Rekonstrukce standardizovaného textu z mluvené řeči Dva základní typy úprav: ortografické modifikace: pravidelné úpravy vstupní transkripce vyplývající ze základních požadavků na standardizovaný text vlastní modifikace: podstatný zásah do podoby vstupního textu: mazání vkládání substituce změny ve slovosledu

15 Ortografické modifikace Rekonstrukce standardizovaného textu z mluvené řeči Odstranění neřečových událostí: Pravopisné úpravy: vložení interpunkce velká/malá písmena tak možná že bych ještě něco řek ➜ Tak možná, že bych ještě něco řekl. on řekl byl sem tam ale nikdo mu nevěřil ➜ On řekl: „Byl jsem tam,“ ale nikdo mu nevěřil.

16 Odstranění obsahově nerelevantních slovních jednotek: výplňková slova a fráze (no tam jsme byli dva roky) nadbytečná deiktická slova (jel sem do té prahy) nadbytečné konektory (a tam to trvalo dva roky) nadbytečná a nesprávně užitá gramatická slova (pak byl přišel) restarty (a to byli většinou to byl většinou personál) opakující se úseky textu (my sme tam dostávali v bratislavě podporu že jo asi deset korun denně sme dostávali že ) Vlastní modifikace: mazání Rekonstrukce standardizovaného textu z mluvené řeči

17 Vložení jednotek nezbytných pro vytvoření gramaticky i lexikálně správné věty: chybějící gramatická slova nevyjádřená plnovýznamová slova Vlastní modifikace: vkládání Rekonstrukce standardizovaného textu z mluvené řeči revolverem mu takle začali před nos a chtěli abych to odvolal jo ➜ Revolverem mu takhle začali dělat před nosem a chtěli, abych to odvolal.

18 Změny forem a lemat: změna nespisovně utvořených tvarů slov změna nesprávně utvořených tvarů slov náhrada slova zvoleného nesprávně z hlediska vyjadřovaného významu Vlastní modifikace: substituce Rekonstrukce standardizovaného textu z mluvené řeči architekt zelenka má velikou zálohu o tuto činnost ➜ Architekt Zelenka má velikou zásluhu na této činnosti.

19 Rekonstruované věty mají gramatický slovosled, který nenarušuje plynulost textu. Vlastní modifikace: úpravy slovosledu Rekonstrukce standardizovaného textu z mluvené řeči prosté měření terénu sme dělali ➜ Dělali jsme prosté měření terénu. sem jel s ním do zvolena ➜ Jel jsem s ním do Zvolena.

20 Systém rovin v Pražském závislostním korpusu mluvené češtiny Analogická struktura jako PDT 2.0. Ale: nová z-rovina: automatický přepis mluvené řeči nově definovaná w-rovina: přepis mluvené řeči manuálně upravený anotátorem nově definovaná m-rovina: standardizovaný text z-layer audio BYL BYS ČELO LESA

21 Propojení nejnižších rovin v Pražském závislostním korpusu mluvené češtiny SPÍŠE MY SLÍŽE VZTAHY BYLY DOBRÝ se spolužáky myslím že vztahy byly dobrý Vztahy se spolužáky byly dobré. vztah s-1 spolužák být dobrý. NNIP1-----A---- RV— NNMP7-----A---- VpTP---XR-AA--- AAIP1----1A---- Z: m-rovina w-rovina z-rovina audio

22 Děkuji za pozornost.


Stáhnout ppt "Rekonstrukce standardizovaného textu z mluvené řeči Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta."

Podobné prezentace


Reklamy Google