Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie.

Slides:



Advertisements
Podobné prezentace
Název školy: Základní škola a Mateřská škola, Hradec Králové, Úprkova 1 Autor: Mgr. Medková Blanka Název: VY_32_INOVACE_4C_6_London (6) Téma: 4C_Aj 7.tř.
Advertisements

Autorem materiálu a všech jeho částí, není-li uvedeno jinak, Je Mgr. Zdena Hanušová Název školy: Základní škola Chomutov, Písečná 5144 Název materiálu:
Název školy: Základní škola a mateřská škola, Hlušice Autor: PaedDr. Vaňková Marcela Číslo projektu: CZ.1.07/1.4.00/ Název: VY_32_INOVACE_1A_12_.
Vytvořila:Monika Hradilová. NA ÚVOD… NA ÚVOD… Přátelství a internet…Tohle téma je hodně otevřené. Na celém světě existují milióny sociálních stránek.
Materiál je určen pro 2. ročník studijního oboru Provoz a ekonomika dopravy, předmětu Doprava a přeprava, inovuje výuku použitím multimediálních pomůcek.
Číslo projektu CZ.1.07/1.5.00/ Název školy Gymnázium Česká a Olympijských nadějí, České Budějovice, Česká 64 Název materiálu VY_32_INOVACE_IVT_1_KOT_02_CISELNE_SOUSTAVY.
Anglický slovosled v oznamovací větě CZ.1.07/1.4.00/ VY_32_INOVACE_3209_AJ6 ©Dagmar Markova,2012 Masarykova základní škola Zásada, okres Jablonec.
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ AUTOR: Mgr. Hana Kletečková NÁZEV:VY_32_INOVACE_ K 11 Christmas in the Czech Republic.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost. Výukový materiál vytvořen v rámci projektu EU peníze školám.
ORIENTAČNÍ TÝDEN PRO STUDENTY PRVNÍCH ROČNÍKŮ Knihovnické a informační zdroje Petr Urválek Ústřední knihovna UK 1.
Anotace - Animals Anotace - Pracovní list k procvičení slovní zásoby Autor - Mgr. Martina Kolářová Jazyk - Čeština, angličtina Očekávaný výstup - Plynulé.
Název školy: Střední zdravotnická škola a vyšší odborná škola zdravotnická Karlovy Vary Číslo projektu: CZ.1.07/1.5.00/ Vzdělávací materiál: Spojovací.
Elektronická knihovna časopisů EZB Karolína Košťálová Národní knihovna ČR.
Databáze © Mgr. Petr Loskot
Název školy: Základní škola Chomutov, Písečná 5144 Název materiálu: VY_22_INOVACE_36_Minimundus - round the World 4_hz2 Číslo projektu: CZ 1.07/1.4.00/
Angličtina: Oliver Cromwell
Anotace – Dny v týdnu Anotace Autor Čeština, angličtina Jazyk
Tvorba jednoduché tabulky - rozvrh
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ
Autor: Mgr. Renata Václavíčková
OZNAČENÍ MATERIÁLU: VY_32_INOVACE_19_AJ4
ZŠ Masarykova, Masarykova 291, Valašské Meziříčí Autor
NÁZEV ŠKOLY: ZŠ Dolní Benešov, příspěvková organizace
Jak je to s časy v angličtině...
AUTOR: Mgr. Ilona Jurčeková NÁZEV: VY_32_INOVACE_06_AJ_18
AUTOR: Mgr. Petr Punčochář
NÁZEV ŠKOLY: ZŠ Dolní Benešov, příspěvková organizace
Obchodní akademie, Střední odborná škola a Jazyková škola s právem státní jazykové zkoušky, Hradec Králové Autor: Mgr. Lubomíra Moravcová Název materiálu:
Ústřední knihovna FSS MU
Název školy: Základní škola Netvořice
Prepositions of place Škola
Autor: Michaela Vráblíková Název : VY_32_INOVACE_41AJ_4tr_SLOVICKA14.
Název školy: ZŠ a MŠ Unkovice, příspěvková organizace
Stránkování Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Libor Otáhalík. Dostupné z Metodického portálu ISSN: 
Zpracovala: Mgr. Věra Kreuzová
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Věcné učení Ochrana přírody
ZPŮSOBOVÁ SLOVESA I. (Modal verbs I.)
Prvouka pro 2.tř. Domácí zvířata III/2 2.
Datum: Projekt: Kvalitní výuka Registrační číslo: CZ. 1
Jméno autora: Mgr. Jiří Kala Škola: ZŠ Náklo Datum vytvoření (období):
Vyhledávání je zaměřeno na informační zdroje z oblasti vědy, výzkumu a
AUTOR: Mgr. Marcela Lazáková NÁZEV ŠKOLY:
RECYKLACE TERMOPLASTŮ, TERMOSETŮ A PRYŽÍ
NÁZEV ŠKOLY:ZŠ Dolní Benešov, příspěvková organizace AUTOR: Mgr
Název projektu: Od rozvoje znalostí k inovacím
PČ_141_Dřevo_Dlabání dřeva
Co se všechno naučíme??? Počítání průměru Funkce PRŮMĚR
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Tento projekt byl realizován za finanční podpory Evropské unie.
Základy práce s informačními zdroji ZUR163
Název školy: Základní škola a Mateřská škola Sepekov Autor:
AUTOR: Mgr. Marcela Lazáková NÁZEV ŠKOLY:
název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/
Vzdělávací oblast: Jazyk a jazyková komunikace Vyučovací předmět: Český jazyk a literatura Ročník: 9. ročník Anotace: Vladislav Vančura životopis, dílo,
NÁZEV ŠKOLY: Základní škola Strančice, okres Praha - východ
FINANČNÍ GRAMOTNOST Osobní rozpočet
Autor: Mgr. Renata Václavíčková
3. Odborná literatura, její zdroje na internetu a PřFUK
Věcné učení Vláda, parlament, politické strany
PŘÍDAVNÁ JMÉNA – ADJECTIVES Anotace: Materiál je určen žákům 7
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Angličtina: Horatio Nelson
To be - affirmative Anglický jazyk VY_32_INOVACE_373, 19. sada, AJ2
Integrovaná střední škola v Semilech 28. října 607, Semily
Autor: Mgr. Renata Václavíčková
Další průběh 30-leté války
Kubické elementární buňky
The Czech Republic.
Název školy: ZŠ Klášterec nad Ohří, Krátká 676 Autor: Mgr
Transkript prezentace:

Rudolf Rosa Strojový překlad pojmenovaných entit za pomoci Wikipedie

© 2011 Rudolf Rosa, Obsah Strojový překlad Statistický strojový překlad Frázový statistický strojový překlad Překlad pojmenovaných entit O. Hálek, R. Rosa, A. Tamchyna Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Průběžné výsledky

© 2011 Rudolf Rosa, Strojový překlad

© 2011 Rudolf Rosa, Statistický strojový překlad

© 2011 Rudolf Rosa, Everything was so beautiful ! Všechno bylo tak krásné ! Paralelní AJ – ČJ korpus (CzEng)

© 2011 Rudolf Rosa, Segmentace – jednotlivá slova Korpus (AJ) Yesterday I was in the cinema. He is going to sleep. Vstup (AJ) He was going to the cinema. Korpus (ČJ) Včera jsem byl v kině. On bude spát. Výstup (ČJ???) On jsem byl bude kině.

© 2011 Rudolf Rosa, Frázový statistický strojový překlad Vstup (AJ) Yesterday I was in the cinema. Výstup (ČJ) Včera jsem byl v kině.

© 2011 Rudolf Rosa, Překlad pojmenovaných entit Rice University is at 6100 Main Street. Steven Bird passed on the editorship... Exit at Government Plaza Station on 5th Street. fork() creates a new process. Univerzita rýže je v 6100 hlavní ulici. Steven pták přenesl na editorship... Konec vlády plaza na nádraží v páté třídě. vidlička() vytváří nový proces.

© 2011 Rudolf Rosa, Google překladač

© 2011 Rudolf Rosa, O. Hálek, R. Rosa, A. Tamchyna Strojový překlad pojmenovaných entit za pomoci Wikipedie překlad z angličtiny do češtiny Rozpoznání pojmenovaných entit podle kategorií anglického článku na Wikipedii Překlad pojmenovaných entit podle titulku odpovídajícího českého článku

© 2011 Rudolf Rosa, Rozpoznání pojmenovaných entit Vybrat fráze, které mohou být pojmenovanou entitou Rice University is at 6100 Main Street. Zjistit kategorie článku na Wikipedii Prohledat (do šířky) nadřazené kategorie Ručně vytvořený seznam kategorií obsahujících pojmenované entity

© 2011 Rudolf Rosa, Zjištění (všech) kategorií

© 2011 Rudolf Rosa, Zjištění kategorií – WikiMedia API ➔ &prop=categories&redirects&clshow=!hidden &format=xml&titles=Rice_University ➔ …

© 2011 Rudolf Rosa, Prohledání nadřazených kategorií ➔ Educational institutions established in 1891 ➔ Educational institutions established in the 1890s ➔ Educational institutions established in the 19th century ➔ Educational institutions by year of establishment ➔ Organizations by year of establishment ➔ Organizations

© 2011 Rudolf Rosa, Kategorie pojmenovaných entit Places („Místa“ – není na české Wikipedii) People (Lidé) Organizations (Organizace) Companies (Firmy) Software (Software) Transport infrastructure (Dopravní stavby)

© 2011 Rudolf Rosa, Překlad pojmenovaných entit Předpokládáme, že jde o pojmenovanou entitu Zjistit, zda existuje článek na anglické Wikipedii Podívat se, zda existuje jeho český ekvivalent Použít název českého článku jako překlad anglické pojmenované entity

© 2011 Rudolf Rosa, Překlad entity „Spain“ 1 2 3

© 2011 Rudolf Rosa, Přeložené pojmenov ané entity Hálek-Rosa-Tamchyna – shrnutí AJ text Paral elní korpu s Wikip edie ČJ text Výběr potenciálních pojmenovaných entit Překlad bez využití Wikipedie Rozpoznání pojmenovaných entit Překlad pojmenovaných entit Text bez pojmenovan ých entit Pojmenov ané entity Text s přeloženými pojmenovan ými entitami

© 2011 Rudolf Rosa, Průběžné výsledky

© 2011 Rudolf Rosa, Reference Ondřej Bojar: NPFL087 Statistický strojový překlad Wikipedia, The Free Encyclopedia: Named entity recognition MediaWiki: MediaWiki API documentation Ondřej Bojar, Zdeněk Žabokrtský: CzEng, Large Parallel Treebank with Rich Annotation

© 2011 Rudolf Rosa, Děkuji za pozornost Tato prezentace je dostupná na adrese