Korpus nejsou jenom dorty

Slides:



Advertisements
Podobné prezentace
Prezentační manažer Kapitola 9.3 (Automatický chod - časování)
Advertisements

ON-LINE TESTY PRO DOKTORANDY NA UK FF PRAHA
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Interpretace práva.
Čeština jako nástroj komunikace zahraničních studentů Lékařské fakulty UP Magdalena Vintrová, Pavel Kurfürst Ústav cizích jazyků LF UP v Olomouci.
Obecná východiska, zdroje ►Mezinárodní soustavy kvalifikací ►Národní soustava kvalifikací pro terciární sféru ►Projekt Q-RAM/ Národní kvalifikační rámec.
Čeština pro cizince a azylanty – B1 (učebnice, cvičebnice, metodika)
Logo oborové brány Oborová brána MUS Václav Kapsa (NK ČR) České oborové brány – současný stav a výhled Národní technická knihovna,
Korpusová lingvistika (2)
OBOROVÁ BRÁNA PRÁVO Právnická fakulta UK Květa Hartmanová České oborové brány – současný stav a výhled, , NTK.
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Workshop o paralelním korpusu InterCorp
Metodologie historického výzkumu volného času
Kurikulární projekty Učitelství praktického vyučování a odborného výcviku Bc. Studium kombinované 2010.
Citace, citování Plagiátorství
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Varianty výzkumu Kroky výzkumu Výběrový soubor
Hodnocení přístupnosti soutěžních webů aneb proč se vyplatí myslet na přístupnost webů veřejné správy RNDr. Hana Bubeníčková, Mgr. Radek Pavlíček, duben.
Interpretace neuměleckého textu Výklad III. Přečtěte si uvedený úryvek a rozhodněte: Pojem persvaze chápeme v tomto příspěvku značně široce jako označení.
Důsledky zákona o svobodném přístupu k informacím pro veřejné knihovny Bakalářská práce FF MU V Brně, Ústav české literatury a knihovnictví, kabinet knihovnictví,
Úvod do korpusové lingvistiky 8
Evropské fondy v kontextu rozvoje města Brna Marie ZEZŮLKOVÁ Kancelář strategie města.
Jednoduché vyhledávání – Jednoduchý uživatel Bc. Helena Selucká Knihovna Jiřího Mahena v Brně sekce IVU: Čtenářská gramotnost.
IVIG 2005 Informační vzdělávání a informační gramotnost v teorii a praxi vzdělávacích institucí Projekt online systému podpory informačního vzděláván v.
Projekty rozvoje ICT ve škole Blanka Kozáková MŠMT odbor 55 SIPVZ
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Marika Janoušková Area Sales Manager, Central and Eastern Europe.
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Jak efektivně využívat korpusy v translatologii?
Archiv českého webu (Webarchiv) a CC Lukáš Gruber.
Příprava novely autorského zákona Celostátní porada vysokoškolských knihoven Hradec Králové Vít Richter Národní knihovna ČR
Tato prezentace byla vytvořena
FÁZE NÁCVIKU SLOHOVÉHO PROJEVU
Kam vede a jaké cesty nabízí oborová brána MUS? Václav Kapsa (NK ČR) Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? Národní technická.
DIACHRONIE A KORPUSY (DČNK) Úvod do korpusové lingvistiky 10.
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Projekt A5 Nástroje informatiky pro získávání informací a jejich zpracování.
21 dobrých důvodů pro dobré knihovny – Příspěvek Goethe-Institutu k odbornému dialogu a k výměně mezi knihovníky ve Střední a Východní Evropě a v Pobaltí.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Jednotná informační brána Cyklus školení Elektronické informační zdroje a databáze Národní knihovna ČR , , , ,
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Slovní zásoba PaedDr. Hana Vítová Střední průmyslová škola, Mladá Boleslav, Havlíčkova 456 CZ.1.07/1.5.00/ MODERNIZACE VÝUKY.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Aktuální problémy vysokoškolských knihoven 21.předsednictvo RVŠ – Pracovní komise pro VŠ knihovny PhDr.Miloslava Faitová ZČU v Plzni.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Výuka českého jazyka pro cizince na Vysoké škole hotelové v Praze 8
= prostředek lidské komunikace
HYPOTÉZY „Hypotéza není ničím jiným než podmíněným výrokem o vztazích mezi dvěma nebo více proměnnými. Na rozdíl od problému, který je formulován v.
CJBB75 Základy využití korpusu pro praxi st G13.
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Ministerstvo informatiky Cíle a plány. Cíle  Čtvrtina agend veřejné správy dálkově přístupná – ČR lídr e-Governmnetu ve střední Evropě  IT gramotná.
Jak čeština v beletrii překládá francouzské zvratné sloveso „se mettre à“ ve vazbě s infinitivem? korpusový výzkum se mettre à = pouštět se, dát se.
Jan Patočka moderní čs. filosofie „Kde se však mění svět a dějiny ? V 'nitru', lépe než v životě jednotlivce.“ Jan Patočka.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/ Číslo DUM: VY_32_INOVACE_94 Licence: CC BY-NC-SA 3.0 Jméno autora:
Uvedení autoři, není-li uvedeno jinak, jsou autory tohoto výukového materiálu a všech jeho částí. Tento projekt je spolufinancován ESF a státním rozpočtem.
Zuzana Teplíková , Praha
Škola Katolické gymnázium Třebíč, Otmarova 22, Třebíč Název projektu
Varianty výzkumu Kroky výzkumu Výběrový soubor
Public Relations.
1. ročník oboru Mechanik opravář motorových vozidel
Název školy: ZŠ a MŠ Zvole Autor: Mgr
Knihovnická procházka Prahou Petra Ambrušová a Ivana Šnoblová K1
Digitální učební materiál
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Srovnávací a historická gramatika, historicko-srovnávací metoda Franz Bopp, Jacob Grimm, Karl Brugmann.
Úvod do korpusové lingvistiky 3
Transkript prezentace:

Korpus nejsou jenom dorty www.korpus.cz Olga Richterová, FF UK, Praha 28. 8. 2013

Co je to jazykový korpus? 2

V jakých situacích lidský jazyk používáme? Co je to jazyk? Jak byste vysvětlili malému dítěti (nebo třeba mimozemšťanovi), jaký je rozdíl mezi slovy a jazykem? V jakých situacích lidský jazyk používáme? 3

Co je to význam? „Jo, to budeme moc rádi.“ (sms) Jaký je význam téhle věty? V jakých situacích takovéhle věty používáme? Čím vším odkazujeme? 4

Co můžeme zkoumat? Empirickému zkoumání můžeme podrobit to, o čem máme doklady. Co můžeme snadno zkoumat? To, o čem je poměrně snadné (levné) získat doklady. V čem je potíž introspekce: zkoumání vlastního nitra / náhledů / jazykového citu? 5

Co tedy děláme? Sbíráme (jazyková) data (tj. doklady jaz. projevů) v kontextu psaná i mluvená Dál je zpracováváme (dělíme na jednotlivé pozice – tokenizujeme, automaticky značkujeme – tagujeme, opatřujeme informacemi o jednotlivých textech – anotujeme) Zpřístupňujeme je: bez uživatelů nemá naše práce jiný než archivářský smysl! 6

K čemu – kdo – jak – a vyplatí se to? I. K čemu jsou korpusy dobré? II. Kdo za tím stojí III. Co nabízí Český národní korpus Datové zdroje – hlavní práce Speciální data IV. Jakým způsobem se k datům dostat: Jednotné rozhraní versus např. SyD.korpus.cz frekvenční distribuce, kolokace, paralelní korpusy V. Dotazy

Nejprve je třeba se registrovat! 8

Díl I.: K čemu je náš korpus dobrý k machrování před cizinci k lepším výkonům ve Scrabblu k vymýšlení, co znamenají různé zkratky, třeba SyD 9

SyD – průzkum variant 10

SyD – průzkum variant 11

SyD – průzkum kolokací (tj. typického užití) 12

SyD – rozložení v typech textu 13

Díl II.: Kdo za korpusem stojí skupina potrhlých vědců rozsáhlý projekt MŠMT mezinárodní spolupráce 14

Institut Českého národního korpusu: www.korpus.cz Inspirováno BNC: Začátek 90. let Komplexní přístup  Spolupráce řady institucí (Praha – FF, MFF; Brno) Lingvisté a technici Dnes: přelomová doba – součást výuky?! Mezinárodní spolupráce & copyright  CLARIN, zákony (status národní knihovny)

Díl III.: Jaká data nabízíme přístup k větám a jejich okolí česká i cizojazyčná soukromá i veřejná 16

Smysl jazykového korpusu Řada SYN: synchronní – současný – jazyk: snaha zachytit ho a popsat leč jen vzorek (v čem rozdíl od webu?) reprezentativní (co se recipuje) vyvážený (textové typy a žánry) referenční (nezměnitelný) informačně nasycený (lemmatizovaný, annotovaný, otagovaný) 17

Psaná čeština Korpus velikost charakteristika SYN2000 100 Mil. vyvážený korpus; hl. z 1990–1999 SYN2005 vyvážený korpus; hl. z 2000–2004 SYN2006PUB 300 Mil. publicistika z let 1989–2004 SYN2009PUB 700 Mil. publicistika z let 1995–2007 SYN2010 vyvážený korpus; hl. z 2005–2009 SYN 1 300 Mil. nereferenční; suma všech korpusů z řady SYN 18

Psaná čeština 19

Jaký jazyk nejčastěji používáme? V ca 90% procentech realizací jazykových projevů nepoužíváme k dorozumění pero ani klávesnici. 20

Mluvená čeština Korpus veliko st charakteristika ORAL2006 1 Mil. neformální mluvené dialogy ORAL2008 sociolingvisticky vyvážený korpus s neformálními dialogy z Čech ORAL2013 ca 3 Mil. sociolingv. vyvážený korpus se zvukovou stopou a daty z Čech i Moravy 21

ORAL2013 22

Sociolingvistické informace

Machrovinky – speciální korpusy KSK – Korpus soukromé korespondence CzeSL – Czech as Second Language DEAF – viz následující přednáška LINK – Lingvistův narozeninový korpus HOTKO – horní lužická srbština DOTKO – dolní lužická srbština 24

Díl IV.: Jak sebraná data používat při psaní zásadních textů a prací když váháme, co ještě ano a co už ne když chceme někomu vysvětlit, proč jsme v daném kontextu zvolili to či ono méně utilitárně: velká data umožňují hlubší vhled  poznání jako cíl 25

Jaký byl jazyk našich předků? 26

Synchronní a diachronní pohled

Hlavní rozhraní 28

Hlavní rozhraní a volby Jaký jazyk nás zajímá? mluvený, psaný? publicistiky, beletrie nebo odborné literatury? překladový, původní? současný, historický?  výběr korpusu Jaký jev chceme hledat? konkrétní tvar (.*běh.*, slovo rýmující se s „nou“ [word=".*nou"] ) ustálené slovní spojení/kolokaci (věhlasný x proslulý) informace z tagů (slovní druh, pád, čas, …) 29

Hlavní rozhraní – srovnávání více jazyků (InterCorp) 30

Výskyt přivlastňovacích zájmen 31

Přivlastňovací zájmena CS x EN 32

V. Díl: Ještě se ptáte, jaké je využití korpusů? Uživatelé Profíci: novináři, překladatelé, jazykovědci, redaktoři, učitelé, studenti... Široká veřejnost, žáci, ... Funkce srovnávání variant, kolokace – slova, která patří k sobě, správný výraz pro určitou situaci, překlad, zdůvodňování voleb, NLP (automatický překlad), hledání konkrétní formy (rýmy, koncovky), ...  lepší porozumění jazyku a komunikaci obecně 33

Otázky? Uživatelé Funkce Budete mezi nimi i vy? dodali byste nějaké další...? 34

Zaregistrujte se... ...a nebojte se ptát! Děkuju za pozornost! olga.richterova@ff.cuni.cz 35