Hackovani Háčkování Háčkování Háčkování

Slides:



Advertisements
Podobné prezentace
NÁHRADA MZDY PŘI DOČASNÉ PRACOVNÍ NESCHOPNOSTI VY_32_INOVACE_16_1_5 NÁHRADA MZDY PŘI DOČASNÉ PRACOVNÍ NESCHOPNOSTI Autor: Ing. Jana Rauscherová CZ.1.07/1.5.00/
Advertisements

CZ.1.07/1.4.00/ "Učíme se moderně" Digitální učební materiál zpracovaný v rámci projektu Šablona:III/2 Inovace a zkvalitnění výuky prostřednictvím.
Dopisy učitelům. Vážený pane magistře, chtěl bych přijít na vaše konzultační hodiny, ale nemůžu, protože mám v té době výuku. Chci vás požádat o jiný.
Kalkulace S tudent. Osnova výkladu 1.Kalkulace nákladů a způsoby jejího rozlišení 2.Kalkulační vzorec nákladů 3.Stanovení nákladů na kalkulační jednici.
ZŠ Brno, Řehořova 3 S počítačem snadno a rychle Informatika 7. ročník III
Zahradnická fakulta v Lednici 23. – 25. dubna 2007 S4U – Seminář o Univerzitním informačním systému Novinky eLearningového subsystému UIS sekce ELIS.
Praha & EU: Investujeme do vaší budoucnosti Evropský sociální fond Gymnázium, Praha 10, Voděradská 2 Projekt OBZORY Vzdělávací portál Vzdělávací portál.
ZAL – 5. cvičení Martin Tomášek Pole - opakování Základní datový typ. V poli držíme více elementů (jednoho typu) S elementy v poli můžeme manipulovat.
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Práce se spojnicovým diagramem Gymnázium a Jazyková škola s právem státní jazykové zkoušky Zlín Tematická oblastMATEMATIKA - Finanční matematika a statistika.
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost Projekt:
Přijímací řízení pro školní rok 2012/2013 Krajský úřad Pardubického kraje odbor školství, kultury a tělovýchovy oddělení organizační a vzdělávání.
Autor: Mgr. Roman Havlíček Elektronické učební materiály – II. stupeň Tělesná výchova.
Výukový materiál zpracovaný v rámci projektu Číslo projektuCZ.1.07/1.4.00/ Šablona klíčové aktivityIII/2 SadaMatematika 6 NázevDesetinná čísla_8.
Microsoft Excel verze 2010 Mgr. Přemysl Kejzlar.
Věcné autority v roce 2016
Výukový materiál zpracován v rámci projektu
Přijímací řízení 2016/17.
Elektropříslušenství
Počet čísel Počet hodnot
Digitální učební materiál zpracovaný v rámci projektu
Vnitropodniková komunikace ve vybraném subjektu
Hodnocení sluchu hendikepovými testy.
Název školy: Základní škola speciální Litvínov, Šafaříkova 991
Evaluace předmětů studenty (Anketky)
Dopravní značení pro chodce VY_32_INOVACE_5A_13
AUTOR: Kateřina Křížová NÁZEV: VY_32_INOVACE_05_09 sociální role
Jednotné principy klasifikace na GJKT
Autor: Mgr. Ivana Tesařová
Exkurz do historie a kultury Romů
Vy_32_Inovace_5O_Pexeso-Slova protikladná
Procvičení vzorců a funkcí v rámci jednoho i více listů
OBSAHY ROVINNÝCH ÚTVARŮ
Hotelová škola, Obchodní akademie a Střední průmyslová škola Teplice,
Název: Práce s tabulátory Autor: Hokr Jan
Digitální učební materiál zpracovaný v rámci projektu
METODICKÝ LIST PRO ZŠ Pro zpracování vzdělávacích materiálů (VM)v rámci projektu EU peníze školám Operační program Vzdělávání pro konkurenceschopnost   
PŘÍRODNÍ ZDROJE ČR – NEROSTNÉ SUROVINY
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Autor: Mgr. Ludmila Pecháčková VY_32_INOVACE_49_Meritka_map_a_planu_1
SLOVNÍ ÚLOHY ŘEŠENÉ ROVNICÍ (o směsích)
ÚMRTNOSTNÍ TABULKY součást systému tabulek života, které charakterizují řád reprodukce populace logický systém statistických ukazatelů, které charakterizují.
Číslo projektu CZ.1.07/1.5.00/ Číslo materiálu
Novinky v Záznamníku učitele
Integrovaná střední škola, Hodonín, Lipová alej 21, Hodonín
DOPLNĚK Název školy: Základní škola Karla Klíče Hostinné
Děti dnešní generace.
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
NÁZEV ŠKOLY: Základní škola Josefa Bublíka, Bánov
Slovní úlohy o pohybu Pohyby stejným směrem..
Kód materiálu: VY_32_INOVACE_09_CERTOVSKE_RYMOVANI Název materiálu:
DIGITÁLNÍ UČEBNÍ MATERIÁL
PŘIJÍMACÍ ŘÍZENÍ NA STŘEDNÍ ŠKOLY PRO ŠKOLNÍ ROK 2018/19
Digitální učební materiál zpracovaný v rámci projektu
Atmosféra Země.
Text zápatí (edituje se v menu Vložení / Záhlaví a zápatí)
Procenta kolem nás Jednoduché úrokování VY_42_INOVACE_34_01.
Sada 3 Matematika MŠ, ZŠ a PrŠ Trhové Sviny
Matematické pexeso Hra určená k opakování či procvičování učiva
Vnitřní a vnější úhly v trojúhelníku
PŘEDZKOUŠKOVÁ PREZENTACE
Matematická gramotnost napříč vzděláváním
Název předmětu, číslo Vedoucí Jména členů skupiny
PODNIKATELSKÁ RADA, MINISTERSTVO PRŮMYSLU A OBCHODU
Projekt Karmelka: Školní kiosek
Územní plán s prvky regulačního plánu
Co je hotové a moc se o tom neví
Hromadné dokumenty opakující se pro kolekci osob
Slovní úlohy o společné práci − 3
Diagnostika dítěte předškolního věku
Transkript prezentace:

Hackovani Háčkování Háčkování Háčkování Jan Macošek Hackovani Háčkování Háčkování Háčkování

Cíl Program, který přidá diakritiku do (slovenského) textu K dispozici trénovací data (z Wikipedie) Vstup: Text bez diakritiky Výstup: Text s přidanou diakritikou

Trénování Program zpracovává trénovací data slovo po slovu: Každé slovo „odháčkuje“ K odháčkované variantě si zapamatuje jeho variantu s diakritikou Pro každou možnou variantu s diakritikou si zaznamenává počet výskytů Na závěr vypíše na výstup celou získanou statistiku Odhackovane: Diakritika1=Četnost1; ...; DiakritikaN=ČetnostN

Háčkovač Program nejprve načte ze souboru předem získanou statistiku Poté načítá ze vstupu jednotlivá slova, přidá jim diakritiku a vytiskne je na výstup Přidání diakritiky: Zvolí se nejpravděpodobnější varianta, tedy oháčkování s nejvyšší četností Např.: Doplnit -> Doplniť ->OUT Úspěšnost: 84% Počet shodných slov/celkový počet slov Měřeno na trénovacích datech Po rozdělení na trénovací a testovací data 82%

Statistické poznatky Slovo s nejvíce nejednoznačným háčkováním: stat:štát=51;stať=44;stát=14;stat=9;stáť=5; Slova neumožňující přidání diakritiky: 51,6% Slova vyžadující přidání diakritiky právě jedním způsobem: 12,6% Slova s více variantami oháčkování: 35,8% Průměrná míra nejednoznačnosti na jeden slovní výskyt: 1,46 (tj. průměrný počet možných odpovědí)

Šum Data z Wikipedie obsahují šum Je možné ho statisticky odstranit Odebereme ze „slovníku“ všechna oháčkování, jejichž počet výskytů nepřesahuje 10% počtu výskytů slova ze stejné kategorie S tímto slovníkem opět zpracujeme předchozí statictické poznatky

Statistické poznatky – bez šumu Slova s nejvíce nejednoznačným háčkováním: stat:štát=51;stať=44;stát=14;stat=9;stáť=5; zavazne:záväzné=6;závažné=4;zavazne=2;závazné=1; zastava:zástava=3;zastáva=3;zastává=1;zastava=1; wikipediach:wikipediach=5;wikipédiách=2;wikipediách=2;wik ipédiach=1; Slova neumožňující přidání diakritiky: 58,4% Slova vyžadující přidání diakritiky právě jedním způsobem: 18,9% Slova s více variantami oháčkování: 22,7% Průměrná míra nejednoznačnosti: 1,24