Korpusová lingvistika (5) Korpus CORTE Jan Radimský FF JU České Budějovice.

Slides:



Advertisements
Podobné prezentace
Korpusová lingvistika
Advertisements

Základní struktura, metainformace
Korpusová lingvistika (2)
Pohádka - český jazyk Mgr
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha.
VOKABULÁŘ WEBOVÝ aneb HISTORICKÉ SLOVNÍKY NA INTERNETU
Zapojení Pedagogické fakulty MU do činnosti Evropské agentury pro podporu speciálního vzdělávání Transformační a rozvojové programy na rok 2005.
PO ŠKOLE DO ŠKOLY Projekt OPVK č. CZ.1.07/1.1.32/ Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.
Úvod do korpusové lingvistiky 8
Korpusová lingvistika (6) Kolokace
PŘÍPRAVA METODICKÉHO POKYNU REKTORA VŠSS KE ZPRACOVÁNÍ DIPLOMOVÝCH PRACÍ Zpracování diplomové bakalářské práce.
Emploi. Pourquoi travailler? besoin (devoir) / désir (vouloir)
Prévisions météo Název školy Gymnázium Zlín - Lesní čtvrť Číslo projektu CZ.1.07/1.5.00/ Název projektu Rozvoj žákovských kompetencí.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Ing. Zuzana Khendriche Trhlínová, ph.d.
PO ŠKOLE DO ŠKOLY Projekt OPVK č. CZ.1.07/1.1.32/ Tento projekt je spolufinancován Evropským Sociálním fondem a státním rozpočtem České republiky.
Diplomový seminář pro studenty ITaM B. Miniberger LS 2013.
Praktické aspekty příprav českého předsednictví 2009 Odbor komunikace Webový portál CZ PRES České Budějovice,
SO – studijní opora podpora výuky BSe a DSe LS2012
Systém dalšího vzdělávání pracovníků výzkumu a vývoje v MS kraji a jeho realizace Anglické standardy při psaní projektu Osnova kurzu
MS Excel Formátování tabulek Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Jan Zahradník.
KORPUS V MODERNÍM SLOVA SMYSLU A BUDOVÁNÍ KORPUSŮ 1 Úvod do korpusové lingvistiky 2.
Přednáška Jan Dvořák. Osnova Nadpis a text Nadpis a 2 sloupce textu Nadpis a obsah (tabulka) Nadpis a 2 obsahy (graf, klipart) Nadpis a 3 obsahy (obrázek,
Úvod do problematiky elektronických informačních zdrojů a rešerší Martina Machátová.
Environmentální výchova v zemědělských a zahradnických školách CZ.1.07/1.1.00/ Učebnice Ekologie a ochrana životního prostředí.
Law-Ref Elektronická databáze mezinárodních smluvních dokumentů Kryštof Dibusz VŠCHT Praha FCHT – Informatika a Chemie 3. ročník
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
STRATEGIE TLUMOČNICKÉ PŘÍPRAVY
Studijní IS a plagiáty Růžena Zemanová.
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
S podporou statutárního města Hradec Králové a Klubu rodičů gymnázia Boženy Němcové
1. SETKÁNÍ Bakalářský seminář. Cíle bakalářského semináře Hlavní cíl: seznámit se strukturou a hlavními požadavky na BP Formální náležitosti zadání a.
Odborné a vědecké práce Brno 12. března Odborné a vědecké práce Zpráva o semestrálním projektu Závěrečná práce Bakalářská a diplomová práce Disertační.
EKONOMICKÁ GEOGRAFIE seminář č. 3 Zadání seminárních prací - překlady.
Přednáška Jan Dvořák. 2 Osnova Nadpis a text Nadpis a 2 sloupce textu Nadpis a obsah (tabulka) Nadpis a 2 obsahy (graf, klipart) Nadpis a 3 obsahy (obrázek,
CODEXIS Mgr. Alena Doláková Centrum informačních a knihovnických služeb Odbor informační podpory studia a výzkumu
POČÍTÁME S JINDROU PETÁKOVOU 8
Microsoft Office Excel – práce s tabulkami a analýzy
Postup při empirickém kvantitativním výzkumu
METODICKÝ SEMINÁŘ Psaní závěrečné práce STUDIJNÍ PROGRAM: U Č ITELSTVÍ VŠEOBECN Ě VZD Ě LÁVACÍCH P Ř EDM Ě T Ů.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
7. STRUKTURA ODBORNÉHO TEXTU Vysoká škola technická a ekonomická v Českých Budějovicích Institute of Technology And Business In České Budějovice.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Tout et autres indéfinis. Tout 1)pronom (samostatné užití) 2)adjectif (spolu s podstatným jménem) 3)adverbe („úplně“)
SPŠ stavební a Obchodní akademie, Kladno, Cyrila Boudy 2954 EU peníze školám CZ.1.07/1.5.00/ J´étudie au lycée de commerce Autor: Mgr. Anna Sekeráková.
Číslo projektu CZ.1.07/1.5.00/ Kódování materiálu vy_32_INOVACE_mix2_scj05 Označení materiálu scj05_Lucembursko_prezentace Název školy Gymnázium.
1 Národní evropské charakteristiky - Entropa – konverzace, diskuze Číslo projektu CZ.1.07/1.5.00/ Kódování materiáluVY_32_INOVACE_mix2_scj01 Označení.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
1 Nové registry a úpravy stávajících registrů pro oblast vysokého školství a další aktuální témata Hlavní změny v oblasti vykazování v souvislosti s přijetím.
Import dat Access (16). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
Příprava žádosti Společný technický sekretariát Drážďany.
Prépositions – pays et villes Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastSlovní zásoba Datum vytvoření
Reg. č. projektu: CZ.1.07/2.3.00/ Název projektu: Měření výkonnosti Rozvoj lidských zdrojů v oblasti výzkumu měření a řízení výkonnosti podniků,
D OPADY ÚČETNÍ REFORMY VEŘEJNÝCH FINANCÍ V KONKRÉTNÍCH PODMÍNKÁCH VYBRANÉ ZÁKLADNÍ ŠKOLY Vysoká škola technická a ekonomická v Českých Budějovicích Ústav.
Datové typy MS Access (3). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická škola pro tělesně.
Les homophones Tematická oblast Slovní zásoba Datum vytvoření Ročník
Úvod do odborného stylu pro studenty s poruchami učení
Vzor individuální prezentace
VIKMA06 Rešeršní a studijně rozborová činnost
Ověřování první sbírky
Réseau des Alliances françaises en République tchèque
La galette des rois Tematická oblast Život ve Francii Datum vytvoření
VIKMA05 Organizace znalostí
Přednáška Jan Dvořák.
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
ŠKOLA: Gymnázium, Tanvald, Školní 305, příspěvková organizace
Modelování procesů zajišťující bezpečnost (security) mezinárodních letišť Ota Hajzler 2011.
francouzský politický systém le systÈme Politique en france
Příprava BREF NAKLÁDÁNÍ S TĚŽEBNÍMI ODPADY – aktuální informace
Transkript prezentace:

Korpusová lingvistika (5) Korpus CORTE Jan Radimský FF JU České Budějovice

CORTE: Corpus des textes européens  Paralelní korpus  Obsahuje administrativní a právní dokumenty z oficiálních zdrojů ES/EU v češtině, francouzštině a částečně též v dalších jazycích  Na jeho vytváření se podílejí studenti oboru Francouzský jazyk pro evropský a mezinárodní obchod (dříve také studenti oboru Angličtina-francouzština pro administrativu EU) v rámci diplomních úkolů (BP).  Cíle práce – seznam textůseznam textů Individuální BP Možnost konzultovat celý korpus

Technická příprava  Technické pokyny Technické pokyny Odpovídají obecnému postupu pro vytváření paralelního korpusu  Hlavní problémy Kódování znaků Odstranění netextových částí Odstranění částí, které ve druhém jazyce nebyly (přílohy...) Alignment

Zpracování dat  Hledání klíčových slov frekvenční seznam ruční pročítání textů  Hledání kolokací automatická „nápověda“ kolokací zpracování formou databázové tabulky  Teoretické problémy typologie kolokací identifikace překladatelských postupů a omylů  Výstupy dvojjazyčný odborný slovníček

Celková struktura korpusu (formální) Document Nombre des documentsTaux PagesTaux Règlement6432%81038% Décision6131%264,412% Directive5628%809,338% Accord158%206,710% Convention21%28,21% Procès-verbal21%13,61% Total ,2 [1] [1] Il s’agit d’une page du format A4 qui correspond à caractères, espaces compris. Une page correspond à environ 300 mots graphiques.

Celková struktura korpusu (sémantická) DomaineNombre des pagesTaux 05. Libre circulation des travailleurs et politique sociale384,3 18% 06. Droit d'établissement et libre prestation des services412,3 19% 11. Relations extérieures290,4 14% 15. Environnement, consommateurs et protection de la santé776,3 36% 19. Espace de liberté, sécurité et justice269 13% Total:2132,3

Celková struktura korpusu (sémantická - detailně) 05. Libre circulation des travailleurs et politique sociale – 384,3 pages Politique sociale Sécurité sociale Application aux travailleurs migrants - 384,3 pages 06 Droit d'établissement et libre prestation des services – 412,3 pages Application sectorielle Activités de services Banques – 412,3 pages 11. Relations extérieures – 290,4 pages Politique de développement Aide aux pays en développement Aide alimentaire – 290,4 pages 15. Environnement, consommateurs et protection de la santé – 776,3 pages Environnement – 462,7 pages Espace, milieu et ressources naturelles Conservation de la faune et de la flore - 119,7 pages Gestion des déchets et technologies propres – 343 pages Protection de la santé – 235,6 pages Protection des animaux – 78 pages 19. Espace de liberté, sécurité et justice – 269 pages Libre circulation des personnes – 269 pages