CJBB105 Úvod do korpusové lingvistiky

Slides:



Advertisements
Podobné prezentace
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Advertisements

Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Pohled do historie vydávání odborné literatury v Českých zemích
SEZNAMTE SE S ČESKÝM NÁRODNÍM KORPUSEM!
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
Digitální publikace a e-knihy v Ústavu pro českou literaturu AV ČR Pavel Janáček, Michal Kosák, Praha,
Technická 2896/ Brno tel.: fax: Ústav jazyků
Rektor Zdroj:
PŘÍPRAVA GRANTOVÉHO PROJEKTU prof. RNDr. Jiří Patočka, DrSc.
OBLAST 1: KOOPERACE VE VÝZKUMU A VÝVOJI Marek Junek Filozofická fakulta Univerzity Karlovy v Praze EVROPSKÁ KULTURNÍ STEZKA SV. CYRILA A METODĚJE.
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.3.1.
Úvod do korpusové lingvistiky 8
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.3.4.
Prezentace Centra MU pro klinicky orientovaný výzkum kvality života (CEQOL) Marek Blatný PSU AV ČR & PSU FF MU Tomáš Kepák KDO FN Brno & LF MU Brno, 21.
Název školy: Střední průmyslová škola, Ostrava - Vítkovice, příspěvková organizace Autor: Mgr. Dana Vicherková Datum: Název: VY_32_INOVACE_2.1.8.
O fakultě... Fakulta vznikla 1. ledna 1991 rozdělením Fakulty strojní a elektrotechnické na dvě samostatné fakulty. Fakulta elektrotechniky a informatiky.
Název příjemce: Základní škola Vyškov, Nádražní 5, příspěvková organizace Název partnera: ZŠ Drnovice Číslo a název operačního programu: CZ.1.07 OP Vzdělávání.
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Anglické standardy při psaní projektu Osnova kurzu
RUSKO, RUSKÝ JAZYK A LITERATURA VE VĚDECKÝCH ODBORNÝCH STUDENTSKÝCH PRACÍCH Bc. Kateřina Konečná Ruská slovesa bít a být s předponami ve srovnání s češtinou,
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Mobilita Róbert Marušák Katedra HÚL. Mobilita doktorské studium celé část Postdoctoral Cíl mobility studium výzkum.
Příslib do budoucna Zprávy z Univerzity Karlovy Alena Matuszková, Knihovna společenských věd TGM v Jinonicích Otevřené repozitáře, Brno,
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Úvod do psychologie PhDr. David Kuneš, Ph.D
Bakalářský studijní obor: Historie Ústav českých dějin Ústav hospodářských a sociálních dějin Ústav světových dějin.
Základy pedagogické metodologie
Dagmar Strejčková Kapitoly z lexikologie současné češtiny Kapitoly z lexikologie českého jazyka Dagmar Strejčková
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
RELIGIONISTIKA představení oboru Religionistika jako věda, náboženství jako její předmět, studijní literatura.
Odborné a vědecké práce Brno 12. března Odborné a vědecké práce Zpráva o semestrálním projektu Závěrečná práce Bakalářská a diplomová práce Disertační.
Teoretická informatika Základní informace k předmětu Literatura Závěrečná práce Zkouška.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
Databáze Bibliografie dějin českých zemí jako cesta k plným textům v domácích i zahraničních knihovnách Václava Horčáková Elektronické služby knihoven.

Technická univerzita v Liberci LIBEREC I Studentská 2 Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/ ) podpořeného z.
Fakulta informatiky Masarykova univerzita Brno. Fakulta informatiky MU Brno Brno – univerzitní město Masarykova univerzita – druhá největší univerzita.
Kvalitativní výzkum v pedagogických vědách: posílení profesních kompetencí absolventů Opera č ní program Rozvoj lidských zdroj ů Evropský sociální fond.
Klepnutím lze upravit styl předlohy podnadpisů Centrum pro klinické doporučené postupy LF UP v Olomouci Radim Líčeník, Kateřina Ivanová Centrum.
Základy pedagogické metodologie Mgr. Zdeněk Hromádka
Fakulta informatiky MU Brno
Úvod do korpusové lingvistiky seminář pro magisterské studium
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
CJBB75 Základy využití korpusu pro praxi st G13.
Mezinárodní migrace a nelegální pracovní aktivity migrantů v Česku v širším evropském kontextu Projekt pro MPSV ČR: Program: „Moderní společnost a její.
Vilniuská univerzita Vilniaus universitetas 26. května – 15. června 2015 stáž v projektu Okna vědy dokořán Michaela Uchočová Hinc itur ad astra.
Indologie Bakalářské studium Ústav jižní a centrální Asie Indologický seminář
Univerzita Karlova v Praze, Přírodovědecká fakulta.
Filozofická fakulta Univerzity v Lublani, Slovinsko  Originální název: Filozofska fakulteta Univerze v Ljubljani,  Ústav: Oddelek za.
Základy pedagogické metodologie Kateřina Vlčková Katedra pedagogiky PdF MU PS 2015.
VARIANTNÍ PROSTŘEDKY PŘI ÚPRAVĚ PUBLICISTICKÝCH TEXTŮ NA MATERIÁLU MF DNES Mgr. Barbora Albrechtová Ústav pro jazyk český AV ČR, v. v. i.
Reg. č. projektu: CZ.1.07/2.3.00/ Název projektu: Měření výkonnosti Rozvoj lidských zdrojů v oblasti výzkumu měření a řízení výkonnosti podniků,
Zahájení doktorského studia oborů Řízení a ekonomika podniku Ekonomická informatika
Didaktika přírodopisu 1 Přednáška Úvodní informace, Didaktika přírodopisu jako věda a její historie Mgr. Libuše VODOVÁ, Ph.D. Katedra biologie PdF MU.
ÚVODNÍ SEMINÁŘ CJBB75 Základy práce s korpusem seminář pro bakalářské studium.
Teoretická informatika II
prof. Ing. Jiří Balík, CSc. Narozen: 30. listopadu 1953 Průběh praxe
Klára Osolsobě, Hana Žižková
Ostravská univerzita (1991 → )
Z historie komise pro historii matematiky a fyziky na MFF UK
Oddělení pro vědu a výzkum, FHS UK Praha
PROFIL FAKULTY Vzdělávací činnost Vědeckovýzkumné aktivity Bc. studium
Základy práce s korpusem seminář pro bakalářské studium
DSP Speciální pedagogika Marie Vítková
JOINME (Journal of Interactive Media)
pracoviště, časopisy, software
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ.1.07/1.5.00/
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Katedra české literatury a literární vědy Katedra českého jazyka
Pravidla citování v absolventské práci
KURZY ČESKÉHO JAZYKA pro tzv. STÁŽISTY a POSTGRADUANTY
Transkript prezentace:

CJBB105 Úvod do korpusové lingvistiky přednáška pro oba cykly studia Ukončení: kolokvium (písemka ověřující znalosti získané na přednáškách nebo studiem příslušné literatury) út.: 8.20-10.00 D31

dnes harmonogram přednášek studijní literatura širší perspektivy oboru

Osnova přednášky: 1. Úvod – literatura 20.2. 2. Historie KL 27.2. 3. Co to je korpus a co v něm můžeme najít 6.3. 4. Kvantitativní data 13.3. 5. Využití korpusu pro lingvistická bádání 20.3. 6. Korpusy a počítačová lingvistika 27.3. 7. Morfologická analýza a tagování korpusu 3.4. 8. Samostatné studium ČNK – www 10.4. 9. Korpusová lingvistika u nás – Český národní korpus 17.4. 10. Korpusy na MU , PDT 24.4. 11. Kolokvium I. - předtermín 15.5.

Studijní literatura učebnice Barnbrook G. (1996): Language and Computers. Edinburgh University Press, Edinburgh. McEnery A., Wilson A. (1996): Corpus Linguistics. Edinburgh University Press, Edinburgh. Šulc M.: Korpusová lingvistika. První vstup. Praha : Karolinum. 1999.

Monografie / sborníky Blatná R., Petkevič, V. (eds.) (2005): Jazyky a jazykověda. Sborník k 65. narozeninám prof. Františka Čermáka. Praha : FF UK – ÚČNK, s. Čermák F., Klímová J., Petkevič V. (eds.) (2000): Studie z korpusové lingvistiky , Praha: FF UK. Čermák F, Blatná R. (eds.) (1995): Manuál lexikografie. Jinočany : H&H.

Články Čermák, F.: Jazykový korpus: Prostředek a zdroj poznání. SaS, 56, 1995, s. 119-140. Čermák F., Králík J., Kučera K. (1997): Recepce současné češtiny a reprezentativnost korpusu (Výsledky a některé souvislosti jedné orientační sondy na pozadí budování Českého národního korpusu). SaS, 58, 2, s. 118-124. Čermák F. (1999): Oxfordská lexikografie přechází také plně na korpus. Slovo a slovesnost, 60, s. 136-141.

Encyklopedie Karlík P., Nekula M., Pleskalová J. (eds.) (2002): Encyklopedický slovník češtiny. Praha : Nakladatelství Lidové noviny.

Nejdůležitější www http://ucnk.ff.cuni.cz/ http://www.athel.com/corpus.html http://www.tei-c.org/ http://nlp.fi.muni.cz/

Korpusová lingvistika – širší souvislosti (lingvistika – matematika – umělá inteligence – informatika) komputační lingvistika –(NLP, language ingeneering) kvantitativní lingvistika algebraická lingvistika korpusová lingvistika

Počátky matematické lingvistiky Strukturalismus (PLK) Kvantitativní lingvistika Omezení v 50. letech 60. léta - překladový sborník Teorie informace a jazykověda (1964)

Kvantitativní lingvistika FSČ (1961) Oddělení kvantitativní lingvistiky ÚJČ 70. léta – první počítačově čitelný korpus (540 000 slovních výskytů) 80. léta – řada FS (M. Těšitelová) 1994 založení Journal of Quantitative Linguistics - International Quantitative Linguistics Association (IQLA)

Matematická lingvistika Konec 50. let -Oddělení teorie strojového překladu FF UK 1964 Cesty moderní jazykovědy (Jazykověda a automatizace) FGP (FGD) Petr Sgall (1967) Generativní popis jazyka a česká deklinace

Strojový překlad První pokus (SAPO – VÚMS) leden 1960 Učíme stroje česky (Sgall, Hajičová, Piťha, 1986). APAČ (1977-1986) MATRACE (1990-1992)

Počátky KL u nás 1992 - Počítačový fond češtiny (PFČ ) 1993-95 Počítačový korpus českých psaných textů 1995 ÚČNK Čeština ve věku počítačů (Komplexní projekt GAČR) 1996-2001

Grantové projekty Počítačový korpus českého jazyka (Posílení výzkumu na vysokých školách, MŠMT ČR), 1996-2000 Výzkumný záměr MŠMT "Český národní korpus a korpusy dalších jazyků" (1999-2004)

Grantové projekty Korpus českých psaných textů (V. Petkevič, Grantová agentura České republiky) Programové nástroje pro počítačové zpracování českých textů (J. Peregrin, Grantová agentura České republiky) Česká frazeologie, její výzkum a lexikografické zpracování (F. Čermák, GAUK)

Grantové projekty Korpus mluvené češtiny v počítačovém zpracování (F. Čermák, GAUK) Elektronizace postupů diachronní lexikografie (P. Nejedlý, R. Blatná, Grantová agentura České republiky)

Grantové projekty Velké jazykové korpusy a jejich automatická analýza, GAČR (2003-2005) Výzkumný záměr MŠMT Český národní korpus a korpusy dalších jazyků, VZ MSM 0021620823, (2005-2011)

Grantové projekty FI MU http://nlp.fi.muni.cz/nlp/aisa/NlpCz/Grantove_projekty.html

Grantové projekty FF MU Současná soukromá korespondence. Vytvoření databáze a zpracování vybraných jevů z pohledu lexikologicko-lexikografického a dialektologického

Ústav pro jazyk český AVČR Možnosti a meze gramatiky češtiny ve světle Českého národního korpusu (Konference: Korpus jako zdroj dat o češtině 4. - 6. listopadu 2004 + Sborník: Karlík, P. (red.): Korpus jako zdroj dat o češtině, Brno : FF MU. 2005.

FF UK Ústav formální a aplikované lingvistiky MFF UK http://ckl.ms.mff.cuni.cz/ufal/ Ústav teoretické a komputační lingvistiky FF UK http://utkl.ff.cuni.cz/

PZK - PDT Prague Dependency Treebank (PDT) – korpus anotovaný na dvou syntaktických úrovních zahrnujících údaje o aktuálním členění a hlavních typech koreference http://ufal.mff.cuni.cz/pdt2.0/

Další univerzitní pracoviště v ČR Fakulta aplikovaných věd - FAV ZU http://www.kky.zcu.cz/, Ústav informatiky Filozoficko-přírodovědecké fakulty Slezské univerzity v Opavě Katedra elektroniky a zpracování signálů Technické univerzity v Liberci

SBORNÍKY specializované na ML PBML (The Prague Bulletin of Mathematical Linguistics http://ufal.mff.cuni.cz/?a=pbml). PSML (The Prague Studies in Mathematical Linguistics 1-10, 1964-1990).

Články Jednotlivé články k oboru je možno najít v lingvisticky orientovaných sbornících a časopisech (Slovo a slovesnost, Naše řeč aj.) a dále např. v časopisech Čs. Informatika, Kybernetika, Czechoslovak Mathematical Journal.

Přehled slovníků Jelínek Jaroslav, Bečka Josef, V., Těšitelová Marie (1961): Frekvence slov, slovních druhů a tvarů v českém jazyce. Praha : SPN. Slavíčková Eleonora (1975): Retrográdní morfematický slovník češtiny s připojenými inventárními slovníky českých morfémů kořenových, prefixálních a sufixálních. Praha: Academia.

slovníky Těšitelová Marie (1980): Frekvenční slovník současné české publicistiky, Praha : Ústav pro jazyk český ČSAV. Těšitelová Marie (1980): Frekvenční slovník současné české administrativy, Praha : Ústav pro jazyk český ČSAV. Těšitelová Marie (1983): Frekvenční slovník jazyka věcného stylu, Praha : Ústav pro jazyk český ČSAV. Těšitelová Marie (1983): Frekvenční slovník současné odborné češtiny, Praha : Ústav pro jazyk český ČSAV.

slovníky Králík Jan, Těšitelová Marie (1986): Retrográdní slovník současné češtiny. Praha: Academia. Pala Karel, Všianský Jan (1994): Slovník českých synonym. Praha: Nakladatelství Lidových Novin. (2. vyd. 2001.) Čermák František, Křen Michal (2004): Frekvenční slovník češtiny. Praha: NLN. + 1 CD-ROM.

Bibliografická poznámka ACL - mezinárodní vědecké profesní sdružení lidí, kteří se zabývají problémy NLP. Digital Archive of Research Papers in Computational Linguistics http://acl.ldc.upenn.edu/.