Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/ Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/

Slides:



Advertisements
Podobné prezentace
Grafové algoritmy.
Advertisements

Algebraické výrazy: lomené výrazy
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Písemná a elektronická komunikace
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Autor:Ing. Pavel Brož Předmět/vzdělávací oblast:Informační a komunikační technologie Tematická oblast:Práce se standardním aplikačním programovým vybavením.
Autor:Ing. Pavel Brož Předmět/vzdělávací oblast:Informační a komunikační technologie Tematická oblast:Práce se standardním aplikačním programovým vybavením.
Školení počítače Excel
Algebraické výrazy: lomené výrazy
ADT Strom.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
LOGISTICKÉ SYSTÉMY 7/14.
LOGISTICKÉ SYSTÉMY 8/14.
SÍŤOVÁ ANALÝZA.
MS EXCEL Chybové hodnoty
Práce se Slovníkem spisovné češtiny
Úvodem Práce s texty je jedna z nejčastěji používaných činností při práci na PC. Psaní a editace textu Formátování textu Tvorba dokumentu.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Korekturní značky 1. - úvod
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Romana Zabořilová. Tento výukový materiál vznikl v rámci projektu EU Peníze školám.
Výpočetní technika Akademický rok 2009/2010 Letní semestr Mgr. Petr Novák Katedra informatiky a geoinformatiky FŽP UJEP
Tabulkové procesory Pelikánová Lucie 2002.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Jak psát a editovat text
CW – 05 TEORIE ROZHODOVACÍCH PROCESŮ
3. ČÁST EDICE Microsoft Office PowerPoint & OpenOffice.org Impress Načítání… Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Josef Ledvoň.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Formální modely výpočtu Tomáš Vaníček Katedra inženýrské informatiky Stavební fakulta ČVUT Thákurova 7, Praha 6 Dejvice, b407
Zápočtová práce na POPJ Tvorba slovníku a pravidel do PC-Kimmo SLOVESA Vojtěch Holub.
Nashova rovnováha v elementárním redistribučním systému
Univerzita třetího věku kurz Pokročilý Tabulkový procesor 3.
Oprava chybného znaku v souborech xml. Když hlásí webová kontrolní služba pro IS VaVaI (kontrola před odesláním dat do RIV) upozornění, že máte v souboru.
Rozpoznávání v řetězcích
AKD VII.
hledání zlepšující cesty
Digitální učební materiál
Psaní a editace textu Jindřich Terč.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Aritmetická posloupnost (3.část)
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Geometrická posloupnost (2.část)
MorČe morfologické značkování češtiny
Vyhledávání vzorů (template matching)
Radim Farana Podklady pro výuku
Lingvistický software Morfologický analyzátor – AJKA Morfologický analyzátor – AJKA Morfologická databáze – I_PAR Morfologická databáze – I_PAR Desambiguace.
Linková úroveň Úvod do počítačových sítí. 2 Problémy při návrhu linkové úrovně Služby poskytované síťové úrovni Zpracování rámců Kontrola chyb Řízení.
Kontrola pravopisu Daniel Zeman Počítačové zpracování češtiny.
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Prezentace Powerpoint 1 Prezentace vznikla v rámci projektu Škola 21. století, reg. číslo: CZ.1.07/1.3.06/ , který realizuje ZŠ a MŠ Lomnice nad.
TEXTOVÝ EDITOR Karin Tylšerová. Textový editor je software, kterým je možné editovat prostý text. Neobsahuje žádné informace o formátování, jako je použití.
Co je Braillovo písmo je speciální druh písma, resp. systému psaní, určeného pro nevidomé, slabozraké a se zbytky zraku. Funguje na principu plastických.
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
Ukládání dat biodiverzity a jejich vizualizace
EU peníze školám Základní škola , Znojmo, Mládeže
Škola ZŠ Třeboň, Sokolská 296, Třeboň Autor Mgr. Miroslava Tomanová
Textový Editor.
Zdroj napájení a klávesnice
Daniel Zeman Počítačové zpracování češtiny Značkování (tagging) Daniel Zeman
Název projektu: Učíme obrazem Šablona: III/2
Úvod do praktické fyziky
Induktivní statistika
Kurs počítačové gramotnosti
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
Klávesnice Denisa Procházková 1.A.
Lomené algebraické výrazy
Číselné soustavy a kódy
Induktivní statistika
Úvod do počítačových sítí - Linková úroveň
Algebraické výrazy: lomené výrazy
Transkript prezentace:

Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/ Počítačové zpracování češtiny Kontrola pravopisu Daniel Zeman http://ufal.mff.cuni.cz/daniel-zeman/

Úloha Rozpoznat slovo, které není ve slovníku Navrhnout opravy Triviální Těžší je rozpoznat slovo, které ve slovníku je, ale v daném kontextu je nepravděpodobné Navrhnout opravy Nejpravděpodobnější nejdříve Seznam 100 oprav nemá smysl 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Jak navrhnout opravu Hledáme ve slovníku podobná slova Které slovo je podobné? Editační vzdálenost: počet operací Vynechání písmene (deletion) Přidání písmene (insertion) Záměna písmene za jiné (replacement) Prohození dvou sousedních písmen Záměnu a prohození lze simulovat posloupností vynechání a přidání, ale psychologicky jde o samostatný jev 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Pravděpodobnost opravy Pravděpodobnost, že slovo w má být opraveno na slovo c (correction) Bayesův vzorec: 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Pravděpodobnost opravy P(c|w) … pravděpodobnost, že c je opravou w P(w) … pravděpodobnost opravovaného slova. Nemá vliv na nalezení nejlepšího c. P(c) … pravděpodobnost náhradního slova. Je dána jazykovým modelem. P(w|c) … pravděpodobnost zkomolení správného slova c právě na tvar w. Je dána chybovým modelem. 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Model kanálu s šumem Noisy channel (např. rádiové spojení, kvůli šumu jsme některá slova dostali chybná) Bayesův vzorec se na rozklad používá často Jazykový model: n-gram, viz značkování Chybový model je složitější 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Jazykový model Pravděpodobnosti se naučíme z korpusu N-gramový model, ale na rozdíl od značkování Neodhadujeme pravděpodobnost značky Odhadujeme pravděpodobnost slova Na základě kontextu předcházejících slov Podobně slouží jazykový model jako pomocný model ve strojovém překladu, při rozpoznávání řeči a jinde. 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Chybový model Potřebovali bychom korpus chyb a jejich oprav Např. pro angličtinu existuje Nemáme-li, pomůžeme si heuristikami 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Heuristiky pro chybový model Pravděpodobnost chyby klesá s editační vzdáleností mezi správným a chybným slovem Editační vzdálenost je počet editačních operací Vynechání písmene Přidání písmene Záměna jednoho písmene za jiné Prohození dvou sousedních písmen Není triviální zjistit editační vzdálenost mezi dvěma slovy Není snadné najít nejkratší posloupnost editací (minimální cesta v grafu, graf je ale obrovský) 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Heuristiky pro chybový model Některé chybné editace jsou pravděpodobnější než jiné Zdvojení písmene není totéž co vložení libovolného znaku (autor si nebyl jist pravopisem) Záměna a za e je asi pravděpodobnější než a za t (blízká výslovnost) Písmeno s diakritikou je podobné témuž písmenu bez diakritiky Písmena, která jsou vedle sebe na klávesnici, se zamění nebo přidají snadněji Vynechání nebo přidání mezery je stejně snadné jako úhoz na jinou klávesu, ale změní nám počet slov a zkomplikuje celou úlohu 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/

Trénování Slovník Jazykový model Chybový model Nemáme-li, lze naučit z korpusu Ale pozor, v korpusu bývají překlepy! Jazykový model Z korpusu, překlepy potlačí statistika Chybový model Speciální korpus nebo heuristiky Chtělo by to alespoň malý korpus chyb kvůli vyhodnocení 2.3.2009 http://ufal.mff.cuni.cz/daniel-zeman/