Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Předzpracování nestrukturovaných dat pomocí jazyka Snowball 21. 11. 2013, Brno Připravil: Bc. Pavel Řezníček.

Podobné prezentace


Prezentace na téma: "Předzpracování nestrukturovaných dat pomocí jazyka Snowball 21. 11. 2013, Brno Připravil: Bc. Pavel Řezníček."— Transkript prezentace:

1 Předzpracování nestrukturovaných dat pomocí jazyka Snowball 21. 11. 2013, Brno Připravil: Bc. Pavel Řezníček

2 strana 2 Cíl práce Spustitelný program Využití stemmovacích algoritmů Předzpracování nestrukturovaných dat Předzpracování nestrukturovaných dat pomocí jazyka Snowball

3 Úvod do problematiky Obrovské množství nestrukturovaných dat Nutná transformace pro získání informací Bag-of-words vektorová reprezentace Možnosti předzpracování dat –vynechání mimořádných a konstantních hodnot –setřízení dat –hledání stopslov –oprava pravopisu –stemming strana 3 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

4 Stemming Metoda extrakce termů Odstranění částí slov vzniklých skloňováním nebo časováním Několik použitelných algoritmů Různá úspěšnost algoritmů Zpracování pouze anglického jazyka strana 4 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

5 Algoritmy pro stemming Porterův algoritmus ‒ nejznámější, standard Vyhledávací algoritmy ‒ používají vyhledávací tabulky Produkční techniky ‒ poloautomatické vytváření vyhledávací tabulky Suffix-stripping algoritmy ‒ list pravidel Stochastické algoritmy ‒ využívají pravděpodobnost, jsou trénovány Hybridní přístupy – kombinace předchozích strana 5 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

6 Snowball Nutnost zpracovat i další jazyky Nadstavba Porterova algoritmu Jazyk umožňující psát vlastní stemmovací algoritmy Snowball compiler překládá.sbl soubory a vytváří příslušné C nebo Java soubory Dostupné knihovny stemmerů strana 6 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

7 Výsledky ÚI PEF MENDELU vyvíjí aplikaci pro předzpracování textových dat Využití jazyka Perl a modulu Perl/Tk pro GUI XS modul Lingua::Stem::Snowball –Možnost využít C knihovny stemmerů –Podpora 15 světových jazyků –Přímý převod na kořenový tvar slov –Krátký čas zpracování (45 tisíc slov za 0,6s) strana 7 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

8 Výsledky Programová nadstavba knihovny Snowball Program spustitelný z příkazové řádky Hierarchická struktura vstupu/výstupu Možnost ovlivnit zpracování vstupními parametry Zahrnuto “očištění“ vstupních dat Kontrola kódování a podporovaných jazyků strana 8 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

9 Ukázka strana 9 Předzpracování nestrukturovaných dat pomocí jazyka Snowball my_stemmer.pl --lang=DE --source=.\texts\T1.text --output=.\texts\T1_stemm.text

10 Ukázka strana 10 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

11 Děkuji za pozornost strana 11 Předzpracování nestrukturovaných dat pomocí jazyka Snowball Tato práce vznikla v rámci řešení projektu IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining


Stáhnout ppt "Předzpracování nestrukturovaných dat pomocí jazyka Snowball 21. 11. 2013, Brno Připravil: Bc. Pavel Řezníček."

Podobné prezentace


Reklamy Google