Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
strana 2 Úvod Dostupnost kvalitního statistického překladu se zvyšuje Spolu s rozšířením internetu neustále přibývá vícejazyčných dat Pro podporu rozhodování by bylo výhodné mít data v jednom společném jazyce Kapitola 1
Cíl práce Ověřit vliv automatického strojového překladu jako jedné z metod předzpracování pří dolování znalostí z textu strana 3
Metodika Bylo třeba navrhnout různé pokusy a pomocí klasifikačních a shlukovacích algoritmů zjistit dopad překladu na tyto problémy Bylo třeba se seznámit s aktuálními postupy v text miningu strana 4
strana 5
Vliv překladu do angličtiny na úspěšnost klasifikace a velikost slovníku u jednotlivých jazyků Byl zjištěn pozitivní vliv na velikost slovníku při zachování podobné úspěšnosti klasifikace strana 6
strana 7
strana 8
strana 9
Porovnání vlivu rule-based a statistického překladu na klasifikaci Statistický překlad je nastupujícím trendem a dá se předpokládat že v budoucnu bude převládat Starší překlad založený na pravidlech se ukázal pro potřeby klasifikace vhodnější, jeho dostupnost pro větší počet jazyků je však značně omezená strana 10
Úspěšnost klasifikace SVM strana 11
strana 12
Další experimenty Porovnání vlivu jazykově závislých a nezávislých metod předzpracování Analýza pomocí shlukování strana 13
Tak, to by bylo.. strana 14