Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček
strana 2 Cíl práce Spustitelný program Využití stemmovacích algoritmů Předzpracování nestrukturovaných dat Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Úvod do problematiky Obrovské množství nestrukturovaných dat Nutná transformace pro získání informací Bag-of-words vektorová reprezentace Možnosti předzpracování dat –vynechání mimořádných a konstantních hodnot –setřízení dat –hledání stopslov –oprava pravopisu –stemming strana 3 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Stemming Metoda extrakce termů Odstranění částí slov vzniklých skloňováním nebo časováním Několik použitelných algoritmů Různá úspěšnost algoritmů Zpracování pouze anglického jazyka strana 4 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Algoritmy pro stemming Porterův algoritmus ‒ nejznámější, standard Vyhledávací algoritmy ‒ používají vyhledávací tabulky Produkční techniky ‒ poloautomatické vytváření vyhledávací tabulky Suffix-stripping algoritmy ‒ list pravidel Stochastické algoritmy ‒ využívají pravděpodobnost, jsou trénovány Hybridní přístupy – kombinace předchozích strana 5 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Snowball Nutnost zpracovat i další jazyky Nadstavba Porterova algoritmu Jazyk umožňující psát vlastní stemmovací algoritmy Snowball compiler překládá.sbl soubory a vytváří příslušné C nebo Java soubory Dostupné knihovny stemmerů strana 6 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Výsledky ÚI PEF MENDELU vyvíjí aplikaci pro předzpracování textových dat Využití jazyka Perl a modulu Perl/Tk pro GUI XS modul Lingua::Stem::Snowball –Možnost využít C knihovny stemmerů –Podpora 15 světových jazyků –Přímý převod na kořenový tvar slov –Krátký čas zpracování (45 tisíc slov za 0,6s) strana 7 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Výsledky Programová nadstavba knihovny Snowball Program spustitelný z příkazové řádky Hierarchická struktura vstupu/výstupu Možnost ovlivnit zpracování vstupními parametry Zahrnuto “očištění“ vstupních dat Kontrola kódování a podporovaných jazyků strana 8 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Ukázka strana 9 Předzpracování nestrukturovaných dat pomocí jazyka Snowball my_stemmer.pl --lang=DE --source=.\texts\T1.text --output=.\texts\T1_stemm.text
Ukázka strana 10 Předzpracování nestrukturovaných dat pomocí jazyka Snowball
Děkuji za pozornost strana 11 Předzpracování nestrukturovaných dat pomocí jazyka Snowball Tato práce vznikla v rámci řešení projektu IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining