Mluvené korpusy: přednosti a limity

Slides:



Advertisements
Podobné prezentace
Typy otázek v dotazníku
Advertisements

Jaké základní otázky si klademe na začátku tvorby nového testu? Diskuse • pro tvorbu testu je třeba nějaký testový materiál Kde ho hledat? Jaké jsou zdroje.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Řeč, jazyk, mluva.
Modernizace studijních opor Představení LMS Moodle
Zpracování seminárních a kvalifikačních prací
Závěrečná zpráva projektu Průzkum sociální situace cizinců na území Hl. m. Prahy.
Virtuální lektor? Miroslava Dvořáková Jiří Votava.
OBJEKTIVIZACE HODNOCENÍ ÚSTNÍ ZKOUŠKY Z ANGLICKÉHO JAZYKA
Hodnocení práce Hodnocení práce je nástrojem zajišťujícím, aby požadavky, náročnost, složitost a podmínky práce se odrazily v diferenciaci odměny pracovníka.
Soustava lineárních nerovnic
ÚČEL AUTOMATIZACE (c) Tralvex Yeap. All Rights Reserved.
Škola pro udržitelný život 2010 Plánovací procesy ve škole a vzdělávání Jiří Kulich, Michal Veselý.
Umění prezentace.
Statistika Vypracoval: Mgr. Lukáš Bičík
Teorie psychodiagnostiky a psychometrie
Varianty výzkumu Kroky výzkumu Výběrový soubor
Označení materiálu: VY_32_INOVACE_HLAVE_CESKYJAZYK1_20
Označení materiálu: VY_32_INOVACE_HLAVE_CESKYJAZYK1_12
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Zpracování dat Kvalitativní výzkum.
METODICKÁ DOPORUČENÍ K ZAČLEŇOVÁNÍ ŽÁKŮ-CIZINCŮ DO VÝUKY
Úvod do korpusové lingvistiky 6
Studijní IS a spisová služba Miroslav Křipač
Číslo-název šablony klíčové aktivity
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
 1. Autor zprávy : Původcem zprávy a tím, kdo ji předává druhým, jste vy sami. Způsob, jakým ji předáváte dál, může být ovlivněn například :  Postoj.
Stylistika Marcela Jurková.
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
FÁZE NÁCVIKU SLOHOVÉHO PROJEVU
Mgr. Karla Hrbáčková Metodologie pedagogického výzkumu
Lineární regresní analýza
3. ročník, studijní obory SOU Mgr. Smékalová Dagmar „Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.“
Základy syntaxe jazyka PHP PHP JE TECHNOLOGIE BĚŽÍCÍ NA SERVERU. PHP JE TECHNOLOGIE BĚŽÍCÍ NA SERVERU. Typický PHP skript obsahuje: Typický PHP skript.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
1 Tisková konference Newton House, Praha, Prezentace výsledků projektu: Výzkum chování potencionálních zákazníků na digitálním trhu v ČR "Digitalizace.
Škola: Střední škola právní – Právní akademie, s.r.o. Typ šablony: III/2 Inovace a zkvalitnění výuky prostřednictvím ICT Projekt: CZ.1.07/1.5.00/
Chyby ve vnímání První dojem Haló efekt Soukromé teorie osobnosti
Prostěsdělovací styl a jeho charakteristika
Úvod do studia Strategie vyhledávání zdrojů Robert Zbíral.
Projektový cyklus, analýza SWOT
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Vizuálně motorické komunikační systémy SP
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
ZVUKOVÁ STRÁNKA JAZYKA 2
centrální porucha zpracování řečového signálu
Ministerstvo financí České republiky Jednání pracovní komise k RUD 31. března 2016 Ministerstvo financí Březen 2016.
ČESKÝ JAZYK A LITERATURA Praktická aplikace teoretických poznatků z hláskosloví Online diskuse k virtuální hospitaci – Open Gate, gymnázium.
Úvod do databázových systémů
Název školy: ZŠ Bor, okres Tachov, příspěvková organizace Autor: Mgr
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
Varianty výzkumu Kroky výzkumu Výběrový soubor
Záznamová media Vaníčková Zdeňka 1.L.
Škola ZŠ Třeboň, Sokolská 296, Třeboň Autor Mgr. Miroslava Tomanová
PŘÍLOHA Č. 4 – PROFIL OSOB ŽIJÍCÍCH V DOTÁZANÝCH RODINÁCH
PROSTěsdělovací styl TEORIE.
Komunikace Mgr. Vladimír Velešík.
Číslo projektu školy CZ.1.07/1.5.00/
Kapitoly z fonetiky a fonologie českého jazyka
2. Jak si snadno vytvořit nový vzor pomocí bloků.
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Soustava lineárních nerovnic
1. ročník oboru Mechanik opravář motorových vozidel
SOUHRNNÉ POUČENÍ O SLOHU
NEPRAVIDELNOSTI VĚTNÉ STAVBY
STYL PROJEVŮ MLUVENÝCH A PSANÝCH
„Naslouchat hlasům paměti“
NEPRAVIDELNOSTI VĚTNÉ STAVBY
Transkript prezentace:

Mluvené korpusy: přednosti a limity Lucie Benešová Ústav Českého národního korpusu lucie.valkova@ff.cuni.cz 31. 10. 2012

osnova – dosavadní zveřejněné korpusy mluveného jazyka v rámci ÚČNK (PMK, BMK, ORAL2006, ORAL2008) – způsob sběru a zpracování dat pro nový chystaný mluvený korpus řady ORAL (×ORAL2006, ORAL2008) – co je možné v mluvených korpusech najít (doklady) – nový stávající sběr dat – vyhledávání v mluvených korpusech

Pražský mluvený korpus (PMK) – první korpus mluvené češtiny – zachycuje mluvenou češtinu z oblasti Prahy a jejího okolí – 304 magnetofonových nahrávek z let 1988–1996, velikost 675 000 slov – zachycuje ve vyvážených proporcích čtyři sociolingvistické proměnné všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty): pohlaví – M/Z – muži/ženy věk – I/V – mladší/starší (spodní hranicí je 20 let, předělem 35 let) vzdělání – A/B – nižší (ZŠ, SŠ)/vyšší (VŠ) vzdělání typ promluvy – F/N – formální/neformální formální promluva – monolog odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly smíšenou povahu nespisovně-spisovnou), týkaly se širokých témat jako škola, mládež, zaměstnání atp., přepisovány ani nahrávány nebyly neformální promluva – spontánní dialog dvou mluvčích

Brněnský mluvený korpus (BMK) – v rámci ČNK první korpus mluvené češtiny z oblasti Moravy – zachycuje autentickou mluvu města Brna – autory jsou pedagogové z FF MU v Brně – 250 magnetofonových nahrávek z let 1994–1999, velikost 490 000 slov – byl pořizován v souladu se zásadami PMK (stejné sociolingvistické proměnné) – formální otázky byly kladeny ve spisovném kódu (×PMK) – pravidla přepisu odpovídají v základních rysech pravidlům užívaným v PMK × pauzová interpunkce, zachycení simultánnosti dialogických promluv – např. uvedena skutečná výslovnost pod atributem pron, např. česko-moravský rozdíl ve znělosti sme-zme

korpus mluveného jazyka ORAL2006 – zachycuje spontánní mluvený jazyk ve výhradně neformálních komunikačních situacích, pouze na území Čech – přepis 221 nahrávek z let 2002–2006, velikost 1 milion slov – charakteristika mluvčích je stejná jako v koncepci PMK, BMK (× informace, v které oblasti mluvčí prožil většinu dětství, cca do 15 let) – nahrávky jsou přepsány tzv. folkloristickou transkripcí – tradiční interpunkce – nezachycuje se suprasegmentální rovina, tj. např. intonace ani další fonetické jevy (např. koncová ztráta znělosti atp.) – přepis se co nejvíc drží běžného standardního zápisu, ale systémové věci se zachycují: – např. sem (=jsem), pudu, já si to vemu (=vezmu), kerej atp. + nářeční jevy typu muskej, zrouna) – k přepisu není zveřejněn zvuk (nezbývá než „trust the text“) – není lemmatizovaný ani morfologicky označkovaný

korpus mluveného jazyka ORAL2008 – zachycuje opět spontánní mluvený jazyk ve výhradně neformálních komunikačních situacích, pouze na území Čech – 1. mluvený korpus v rámci ÚČNK, který je plně vyvážený v jednotlivých základních sociolingvistických charakteristikách mluvčích – přepis 297 nahrávek z let 2002–2007, velikost 1 milion slov – koncepčně korpus ORAL2008 navazuje na ORAL2006 (tj. např. stejný způsob a pravidla transkripce, stejné dělení na oblasti podle tradičního nářečního členění J. Běliče atp.) – k přepisu rovněž není zveřejněn zvuk – není lemmatizovaný ani morfologicky označkovaný

spontánní mluvený jazyk v návaznosti na práci J. Millera a R. Weinert(ové): Spontaneous spoken language (1998) spontánní mluvená produkce vzniká v reálném čase, bezprostředně, bez možnosti do výsledného produktu zpětně zasahovat mluvčím nepřipravená je limitovaná kapacitou krátkodobé paměti mluvčího i posluchače prototypicky vzniká při bezprostřední interakci s komunikačním partnerem (face-to-face) a v konkrétním situačním kontextu je neoddělitelná od vlastností, jako je přízvuk, rytmus, intonace a další zvukové charakteristiky doprovázena gestikou, mimikou, očním kontaktem, proxémikou a dalšími nonverbálními kódy

způsob sběru a zpracování dat pro nový chystaný mluvený korpus ORAL2013 Na jaký typ jazykového materiálu se zaměřujeme: spontánní mluvený jazyk v neformálních komunikačních situacích (tj. ne poloformální, ne formální) nepřipravenost, nepromyšlenost projevu (tj. zcela přirozená běžná spontánní improvizovaná konverzace) dialogičnost (tj. rozhovor dvou a více osob) blízký vzájemný vztah mluvčích – přátelskost/známost bezprostřední kontakt (tj. fyzická přítomnost jednotlivých mluvčích, ne telefonní hovory, hovory přes skype atp.) k charakteristice mluvčích – pouze dospělí (věková hranice min 18 let, tj. žádné děti, ani mládež) – pouze rodilí mluvčí (tj. žádní cizinci) nahráváme mluvčí z celé České republiky (tj. i Moravu, i Slezsko x ORAL2006, ORAL2008)

organizace a způsob sběru dat hlavní koordinační centrum a hlavní sběrná oblast pro Prahu – mluvená sekce ÚČNK FF UK v Praze spolupráce s řadou jiných univerzit, kde máme tzv. oblastní koordinátory (Univerzita Hradec Králové, Masarykova univerzita v Brně, Západočeská univerzita v Plzni, nově spolupráce s Univerzitou Palackého v Olomouci a Slezskou univerzitou v Opavě) nahrávající/přepisující = editor koordinátor (vybírá a zaučuje studenty, kontroluje přepisy, příp. vrací, příp. opraví a odevzdá, posílá smlouvy, nese odpovědnost za data z dané sběrné oblasti) koordinátor ÚČNK = superadmin (znovu kontrola, pokud je v pořádku, vyplatíme odměnu, pokud ne, vracíme zpět koordinátorovi)

maximální možná míra spontaneity - nejlépe metodou skrytého nahrávání (tzv. clandestine microphone recordings) - aby skutečnost nahrávání neovlivňovala jednotlivé mluvčí (ve výběru jazykových prostředků, ve volbě témat atp.) - mluvčí nejsou PŘEDEM o nahrávání informováni, jsou ale informováni ZPĚTNĚ - tj. tato skutečnost jim musí být sdělena bezprostředně po skončení nahrávání - nutný souhlas mluvčích s použitím pro účely ÚČNK

databáze sond mluveného jazyka (Mluvka) – interní databáze (není veřejně přístupná!) – používá se sice už od r. 2004, ale v nedávné době prošla řadou inovačních procesů – původně byla navržena pro ukládání klíčových informací o komunikační situaci, o jednotlivých mluvčích, pro vkládání nahrávek a přepisů, teď ale poskytuje spoustu užitečných údajů a funkcí navíc – student, který nahraje a následně přepíše rozhovor, zanáší do databáze všechny potřebné údaje o nahrávání a o mluvčích

informace k jednotlivým mluvčím – číselné označení (číslo sondy + číslo mluvčího, 0 vždy označuje nahrávajícího, 1, 2 atd. další mluvčí) – kód mluvčího (automaticky přiřazuje databáze na základě jednotlivých údajů) – pohlaví – věk – vzdělání – místo narození, oblast narození, pobyt v dětství, současný pobyt – zaměstnání (skupiny podle českého statistického úřadu)

shodní mluvčí a jejich proznačování – problém opakování mluvčích, proto jsme omezili max. počet slov na jednoho mluvčího napříč sondami na 15 000 slov – abychom zabránili chybám a „podvádění“, vyznačujeme je pouze my, a to na základě shody údajů o mluvčím – skript, který vyhledá potenciální shody a navrhne, které mluvčí spojit, pak nutné projít ručně (kontrola poslechem) a vyhodnotit, co je skutečná shoda (přesto někdy velmi obtížné) – bude tedy možné sledovat jazykové jevy v rámci idiolektu jednoho mluvčí

různé fáze rozpracovanosti jednotlivých sond

vyhledávácí formulář

hlídání vyváženosti jazykového materiálu (na základě sociolingvistických charakteristik mluvčích) – při vyhledání skupiny sond (podle oblasti, podle roku atp.) databáze zobrazí celkový počet sond, celkový počet slov ve všech vyhledaných sondách, počty slov napříč jednotlivými sociolingvistickými charakteristikami (poměr muži/ženy, mladí/starší, poměr vzdělání nižší/vyšší), věk rozepíše detailněji po dekádách, zastoupení jednotlivých oblastí – to nám umožňuje vyvažovat materiál a ovlivňovat jednotlivé požadavky sbíraného materiálu

Transcriber pauzová interpunkce v naší koncepci: speciální přepisovací program, který používáme od r. 2008 umožňuje propojit pořízený zápis se zvukovou stopou četné výhody (opakovaný poslech segmentu, snadná orientace ve zvuku i v přepise, ovládání pomocí klávesových zkratek) částečně řeší i problém, kdy mluvčí mluví přes sebe (umožňuje zachytit dva navzájem se překrývající mluvčí) přepisovací pravidla (největší změny x ORAL2006 a ORAL2008: pauzová interpunkce, zachycení simultánnosti dialogických promluv) pauzová interpunkce v naší koncepci: – krátká pauza je v přepise signalizována jednou tečkou – delší pauza (jako je např. zaváhání, hledání vhodného výrazu, přemýšlení, změna tématu apod.) je v přepise signalizována dvěma tečkami – dlouhá pauza je signalizována poznámkou v závorkách (odmlčení) – pojetí sice velmi subjektivní, ale nelze brát podle absolutní délky v sekundách, resp. zlomcích sekund – každý mluvčí má své individuální mluvní tempo a střední pauza je střední jen vzhledem k rychlosti jeho řeči

data pro korpus ORAL2013 sběr probíhal v letech 2008-2011 celkem 3 024 075 textových slov 940 nahrávek představující 324 hodin ještě mnoho práce: všechny přepisy se musí spolu se zvukem znovu manuálně projít a opravit ačkoli je materiál „základně“ vyvážený, musí projít náročnějším vyvažovacím procesem

co je možné v mluvených korpusech hledat a najít – všechny dostupné korpusy mluveného jazyka v rámci ÚČNK nejsou morfologicky označkované ani lemmatizované – tj. hledá se v „čistých textech“ – základním výstupem je proto především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova, omezené použití regulárních výrazů – přesto lze najít v mluvených korpusech spoustu zajímavých jazykových jevů – přepisy korpusů ORAL2006, ORAL2008 velmi dobře reflektují především specifika spontánního autentického mluveného jazyka (ve srovnání s jazykem psaným)

specifika spontánního mluveného jazyka – neuspořádanost, menší míra organizovanosti, fragmentárnost, myšlenková a formulační roztříštěnost – kontextualizace (silná vazba ke komunikační situaci a kontextu) – konkrétnost, subjektivnost, emocionalita (souvisí s bezprostředním situačním kontextem mluvčích) – implicitnost, vyšší míra neurčitosti

fragmentárnost, implicitnost, neurčitost – mluvčí nemůže najít vhodný výraz, užívá spoustu vágních (prázdných) výrazů, pomáhá si deiktickými prostředky (poukazy k situaci, kontextu) – nadměrné používání ukazovacích zájmen (spíše než jako prostředek určitosti, názornosti je výrazem nejistoty a formulačních potíží mluvčího, např. no víš takovej ten...) – významově neurčité výrazy typu ňák, ňákej, takovej, jako – prostřednictvím výrazů a tak, nebo tak, tak ňák vyznívají formulace často do ztracena – častá frekvence neplnovýznamových výrazů (různé částice, citoslovce, konektory, významově vyprázdněné a v kontextu nadbytečné a, no, jo, že jo, no jo no, tak, taky) – vycpávková slova, které jsou typické pro konkrétní idiolekt: prostě, jaksi, vlastně, jako, teda, takže, třeba – opakování výrazů i rozsáhlejších textových úseků, různé opravy, rektifikace, mluvčí se pokouší o jinou a výstižnější formulaci, neustálé doplňování informací

vybrané doklady DEIXE: – je to takový n* tady to mám třeba uplně holý jo že to nemám takový vole tady takle takle mi to čouhá – já nejsem ňákej takovej . eee . prtože hele divej se já sem .. takovej už jako .. v tomdletom konzervativec já už nechcu úlet . nebo úlety nějaký jo . i když prostě ně* obrovská škála deiktických výrazů: takovýdlenc, takovejdle, tenhlecten, tadydlecten, tadydlencten, támhlencten atp. SILNÁ NEKOHERENTNOST, ROZTŘÍŠTĚNOST – a takže prostě no .. prostě a to . jo? to je takový .. taková .. pocta OPAKOVÁNÍ VÝRAZŮ – a chtěj . chtěj si hrát . chtěj si hrát a .. – jo normálně na tebe .. to bylo to bylo krásný to bylo .. – bylo to . bylo to prostě .. bylo to špatný no

lexikum: frazémy, přirovnání atp. – to si nepamatuje asi vona byla nadrbaná jak sysel – no hotovo já sem přijel domů eště nakulenej jak sysel .. – no a . takže já sem přijel eště semka v nedělu vole z vopicou na zádech jako kráva .. – my si dáme jednu štyryadvacítku vole a máme kocovinu eště d* vole . krkáme havrany eště třetí tejden vole jo .. – sme šli v sedum ráno spat vole . budíček vole v devět hodin .. já sem nevodevřel málem hubu vole já sem měl v hubě jak v brašně na zmije to bylo šílený – no ale zmatlali sme se tam jak carský důstojníci

– akorát teda ty Řekyně mě na nich mrzí to že mají jako chlupatý ruce jak řidič autobusu vole – ale přestaňte honit machry protože prdíte v kině vole .. ve třetí řadě zleva já vám to říkám . hoši poďte na štamprdlu vole . – pak si jich nikdo nevšimne oni si myslí že sou zajímaví vole .. a sou přitom trapní vole jak žížala v oceánu vole .. – v tom plavání ne mě srala ta čepica měl sem to prostě já sem v tom vypadal jak žalud – to když sem slyšel poprvý . to je hochu to je jak když chčiješ na plech – chodíš chcát jak koroptev – mrdlý až na půdu / sou připosraní až na půdu / ta NP mě tam sere uplně až na půdu strašně – má svoje zpětný račí chody – toho mám v paži vole – nechci valit klíny jo ale určitě to tak prostě bude – já už melu hovna

obecná čeština a nářeční jazykové jevy – obecná čeština (např. kerej, vodvážný, takovýdle voči, chtěj, von řek atp.) – řada nářečních jazykových jevů (ORALy reflektují jen Čechy!) morfonologická rovina: – např. muskej, zrouna , k pánoj, ulicej, perkýnko, vo našom, tátovo boty – v chystaném ORALu bude zahrnuta i Morava – např. zešit, žaba, kúsek chleba, čepica, větr, chcu, záda z toho bolijou, jen se ztrapňujú lexikální rovina: – např. rožnout, stolař, květina (x kytka), kokino, bobino, poklúzat, deska (x prkno), sdělat (x sundat), vlézt se (x vejít se), zavazet (x překážet) syntaktická rovina: – např. jít tam to nešel, vidět to jsem viděla, má 17 (x je mu 17)

stávající sběr dat mluveného jazyka – zahájen v červenci 2012 (zatím tzv. zkušební sběr) – přepisuje se v jiném přepisovacím programu – ELAN – přepisuje se dvě roviny: ortografická a fonologická – nová přesnější a detailnější přepisovací pravidla – speciální stopy pro metatextové komentáře – špatně srozumitelný úsek – nesrozumitelný úsek – přerušení repliky – anonymizace výhledy: – zachycení suprasegmentálních rysů (intonace, prozodie atp.) – lemmatizace a morfologické značkování

vyhledávání – konkrétní tvar slova – pomocí regulárních výrazů protetické v – vo.* × o.* (zajímavé příklady typu vochcávka, voser atp.) deminutiva – .*ičk.* „sprostá slova“– prd.* debl.* mrd.* jeb.* šuk.* kurev.* posr.* zasr.* ... .*ojc děsn.* strašn.* hrozn.* takov.* .*zej.* (negativní filtr zejtra) vocaď, votud, odtaď, odtud, votaď, vodsaď