MorČe morfologické značkování češtiny

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Něco málo o ICNET s.r.o. Správa kódu v historii – přechod na TFS (TF Server) Nové platformy – přechod na TFS (TF Service) Integrace TFS s nástroji třetích.
Analýza staročeské morfologie v Excelu
Cvičení 1 Data pro experimentální práci
Programování v C jazyku - SEMINÁŘ
Natural Language Processing Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu Motivační přehled problémů, řešení a aplikací.
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Pojem / koncept Homonymie Ondřej Diblík – Simona Kukučová | |
Softwarový systém DYNAST
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
Topologie neuronových sítí (struktura, geometrie, architektura)
ROZHODOVACÍ PROCESY PRO VÍCECESTNÉ TELEMATICKÉ APLIKACE Filip Ekl
Sophie Bartošíková Septima B Modelování pražských povodní.
Memory-based Learning Učení založené na paměti (výtah z přednášky Waltera Daelemanse, GSLT, Göteborg 2003) + TiMBL -ukázka použití programu Jiří Mírovský,
CIT.CZ spol. s r. o.. Projekt CIT Reader INSPO 2012.
Algoritmizace.
Algoritmizace a základy programování
Gramatiky a jazyky Přednáška z předmětu Řízení v komplexních systémech
Úvod do korpusové lingvistiky 4
Výsledky a srovnání systémů pro detekci klíčových slov v telefonních hovorech Vysoké učení technické v Brně Lukáš Burget, Tomáš Cipr, Honza.
Obchodní akademie, Náchod, Denisovo nábřeží 673
Databázové systémy Přednáška č. 4 Proces návrhu databáze.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
XML Schema Irena Mlýnková. Obsah XML – úvod, příklad, základní pojmy DTD – přehled XML Schema – podrobně.
Vztah bezkontextových jazyků a ZA
Dokumentace informačního systému
Získávání znalostí z medicínských textů Petr Kolesa EuroMISE Centrum.
Milan Kryl(c) 2004 MFF UK Databáze Caché NLS national language settings.
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Databázové modelování
AKD VII.
Korpusová lingvistika ( 3 ) Jan Radimský FF JU České Budějovice.
Databázové systémy 2 Zkouška – 8:00. Příklad I - Procedura Vytvořte proceduru PROCEDURE ZK_ZAM_HISTOGRAM(P_ROK_OD IN NUMBER, P_ROK_DO IN NUMBER)
1/19 Využití syntakticky anotovaných korpusů ve strojovém překladu Zdeněk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK.
14. června 2004Michal Ševčenko Architektura softwarového systému DYNAST Michal Ševčenko VIC ČVUT.
Backbending and wobbling motion in rotating nuclei diplomant : Petr Veselý vedoucí : Prof. Jan Kvasil.
Markéta Lopatková Karolína Skwarska Václava Kettnerová Eduard Bejček
Zjednoznačnění analýzy Daniel Zeman Počítačové zpracování češtiny.
1 Rozpoznávač jeté vařečky s HMM Honza Černocký
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Dita Matesová, David Lehký, Zbyněk Keršner
Martin Langhammer Antonín Wimberský. ÚVOD PŘEDPOKLADY Jednotný vstup Zadní SPZ Stejný úhel a vzdálenost záběru Pouze vodorovné záběry značek Obdélníkové.
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Úvod do programování Vyučující: Mgr. Vítězslav Jersák
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Programování v MATLABu © Leonard Walletzký, ESF MU, 2000.
Neuronové sítě.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
Den s románskou filologií FF JČU České Budějovice doc. PhDr. Jan Radimský, Ph.D.
Algoritmizace a programování Algoritmy 2 – Vývojové diagramy (sekvence)
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
Měření rychlosti. Přemýšlej Značka: v(z angl. velocity) Jednotky: (metr za sekundu) nebo Rychlost.
Protierozní ochrana 2. cvičení Téma: Protierozní ochrana 2. cvičení Téma: Analýza území - morfologie terénu, odtokové dráhy 143YPEO ZS 2015/ ;
Programování mikropočítačů Platforma Arduino
Klára Osolsobě, Hana Žižková
Daniel Zeman Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman
Verše a křivky Pokus o klasifikaci básní na základě jejich aktivity
Daniel Zeman Počítačové zpracování češtiny Značkování (tagging) Daniel Zeman
Clever Farmer Clever Swagfactory.
VY_32_INOVACE_F7-001 FYZIKA 7.ROČNÍK RYCHLOST Název školy
Automatická indexace Základní metody a postupy
Neuronové sítě.
ŠKOLA: Základní škola Velké Karlovice, okres Vsetín
Jazykové korpusy (lingvistika, filologie, výuka jazyků)
Neuronové sítě.
PŘEVODY JEDNOTEK ČASU 60 minut 60 sekund 1 hodina 1 minuta 1 h 1 min
Digitální učební materiál zpracovaný v rámci projektu
Transkript prezentace:

MorČe morfologické značkování češtiny Jan Votrubec, Helena Hajsová, Katka Chernik, Patrik Gebrian, Michal Ciesla ÚFAL MFF UK

Morfologie češtiny homonymie aneb nejednoznačnosti Šel podle lesa. x Choval se podle. přídavná jména typu jarní

Morče studentský projekt jazyk C, platforma Linux

Smysl morfologické analýzy zpracování textů přirozeného jazyka budování korpusů automatické překlady, slovníky…

Morfologické značkování – vstupní data

Morfologické značkování - požadovaný výsledek tzv. desambiguace průměrně 3,7 značek na slovo úspěšnost pro češtinu kolem 94 %

Algoritmus skrytý Markovův model → učící se algoritmus (trénovací a testovací data) průměrovaný perceptron hlavní parametr: sada rysů Rys: částečný popis situace v textu, předpověď aktuální značky na základě kontextu

Příklady rysů aktuální značka je AAMP4----1A---- předcházející značka je ClXP4---------- a aktuální značka je AAMP4----1A---- aktuální slovo je „hlavní“ a aktuální značka je AAMP4----1A---- aktuální slovo je třetí ve větě a aktuální značka je AAMP4----1A---- aktuální slovo začíná malým písmenem a aktuální značka je AAMP4----1A----

HMM převod jedné sekvence dat na jinou omezená historie váhy pro přechody - trénování

Průměrovaný perceptron váhové koeficienty odpovídající rysům trénovací funkce velmi jednoduchá důsledek: větší rychlost při zachování úspěšnosti

Ruční vývoj verzí verze = sada rysů stovky experimentů důkladný popis verzí a vztahů mezi nimi

Vlastnosti průměrovaného perceptronu nesnáší zahlcení nesnáší komplikované rysy některé rysy si „nezdravě“ konkurují nepotřebuje mnoho iterací

Srovnání úspěšností METODA ÚSPĚŠNOST HMM s přihrádkováním + pravidla[3] 95.38% HMM s přihrádkováním[3] 95.16% MORČE 94.69% Exponential, VTC[2] 93.80% Exponential[2] 92.00% Bigram HMM[2] 81.54% Trigram HMM[2] 81.14% Rule-based (Brill’s) [2] 79.75% Unigram HMM [2] 65.70%

Srovnání rychlostí TYP METODY RYCHLOST TRĚNOVÁNÍ RYCHLOST TESTOVÁNÍ (slova za sekundu) HMM řádově hodiny 500 Exponential měsíc 1500 MORČE 2 hodiny 1222

Pokračování…