Předzpracování nestrukturovaných dat pomocí jazyka Snowball 21. 11. 2013, Brno Připravil: Bc. Pavel Řezníček.

Slides:



Advertisements
Podobné prezentace
 Proč: ◦ Vývoj algoritmů spjatých s medicínskými daty  Členové: ◦ Doktorandi – 4 ◦ Studenti – 7.
Advertisements

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Program na výpočet parametrů vlhkého vzduchu
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Typy programů operační systémy programy pro práci se soubory
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Ota Hajzler Cíle bakalářské práce Analýza stávajícího řešení MU Identifikace aktérů Identifikace příslušných činností Sestavení optimálního postupu.
TOOLBOX PRO ANALÝZU STRUKTURY KRAJINY
Z ÁKLADNÍ ŠKOLENÍ APLIKACE M ICROSOFT E XCEL Představení společnosti Školení aplikace Microsoft Excel.
Mapy a geografické informační systémy
36SI GUI specifikace. 1. Úvod PowerPlant - Modul pro vizualizaci biologických dat SI Team no.5 Pavel Dejmekvedoucí projektu Jan Suváktester Filip Trávnickýanalytik.
Tuk, Bílkovina, Laktóza, (g/100g, %) Somatické buňky,
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Nabídka karty Soubor Soubor. Nabídka karty Domů Domů práce se schránkou formátování písma zarovnávání formát čísel práce se styly práce s buňkami vyhledávání.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Téma: CorelDRAW - Textové objekty - 7. díl
Apache, PHP, MySQL Lukáš Masopust Web server Apache Aplikace schopná zpracovat HTTP požadavek Nejpoužívanější Web server Vytváří ho The Apache.
Výstupy z GIS Pojmy a typy výstupů, aneb pro koho, co a jak Ing. Jiří Fejfar, Ph.D.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Vyhledávání podobností v datech s využitím singulárního rozkladu
Systémy pro podporu managementu 2
Relační databáze.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Podnikové informační systémy C7 – Data Mining a získávání znalostí České vysoké učení technické v Praze Fakulta strojní ústav Řízení a ekonomiky podniku.
Jiří Znoj - zno Tvorba konkordace Algoritmy II 3. projekt, 5. zadání Jiří Znoj - zno
RozšÍŘEnÍ IIS NZZ Konference projektu NZZ_
Školní informační systémy
ZÁVĚREČNÝ SEMINÁŘ Program 4. krajského setkání metodiků Metoda CLIL a výuka odborného cizího jazyka 1.
Dokumentace informačního systému
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Referát č.8 Daniela Venusová.
Pathfinding s využitím PostGIS Prezentuje : Jan Kolář.
Kompresní algoritmus LZW Dokumentografické informační systémy.
Aplikace vyhledávače Google na zdroje odborných informací
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
Metrologie   Přednáška č. 5 Nejistoty měření.
Zpracoval :Ing. Petr Dlask, Ph.D. Pracoviště :Katedra Ekonomiky a řízení stavebnictví ČVUT v Praze Adresa :Thákurova 7, Praha 6, Dejvice Optimalizace.
Základy práce s informačními zdroji pro bc. studenty SPSP Mgr. Dana Mazancová, DiS. Brno, 11. dubna 2013 Masarykova univerzita Fakulta sociálních studií.
doc. RNDr. Zdeněk Botek, CSc.
Semestrální projekt Správa webových konferencí Mendelova univerzita Aplikace vývojových technik Jakub Matoušek Květen 2012.
Testování s TestComplete
Výuka základů algoritmického myšlení na prvním stupni základních škol
ABSOLVENTSKÁ PRÁCE Název absolventské práce
Operační systémy OS.
Internetové technologie Petr Kašpar KAS265. Obsah Formát PDF Možnosti tvorby v PHP Třída FPDF České fonty Ahoj světe! Buňky Záhlaví/zápatí Pluginy Komplexní.
MS EXCEL Charakteristika
Tento projekt je financován z Operačního programu Vzdělávání pro konkurenceschopnost prostřednictvím Evropského sociálního fondu a státního rozpočtu ČR.
Dolování znalostí z vícejazyčných textových dat Luděk Svozil , Brno Vedoucí práce: doc. Ing. František Dařena, Ph.D.
INFORMAČNÍ SYSTÉMY PRO KRIZOVÉ ŘÍZENÍ POUŽITÍ INFORMAČNÍCH SYSTÉMŮ PRO MODELOVÁNÍ A SIMULACE KRIZOVÝCH SITUACÍ - T3 ING. JIŘÍ BARTA Operační program Vzdělávání.
KURZ ALGORITMIZACE A PROGRAMOVÁNÍ V JAZYCE C Lekce č. 4: Programovací jazyk C Bc. Radek Libovický.
Statistická extrakce idiomů Jan Bušta CZPJ FI MU, Brno PV
Geoinformatické modelování RNDr. Blanka Malá, Ph.D.
Základní škola T. G. Masaryka a Mateřská škola Poříčany, okr. Kolín VY_32_INOVACE_ICT_04 ORGANIZACE DAT V PC Zpracovala: Mgr. Květoslava Štikovcová Číslo.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Seminář Bakalářská práce
Základní pojmy v automatizační technice
Algoritmizace – základní pojmy
Vzor individuální prezentace
MS WORD 2010 – úvod do programu
Seminář ASEP Hana Munziová Knihovna AV ČR, Praha.
INTERNET, POhYB PO WEBU VY_32_INOVACE_14
Úvod do matematické analýzy - pokračování 3
Prezentace univerzitního informačního systému
Modelování procesů zajišťující bezpečnost (security) mezinárodních letišť Ota Hajzler 2011.
HASH.
Knihovny.cz Vyhledávání patentových dokumentů
Transkript prezentace:

Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček

strana 2 Cíl práce Spustitelný program Využití stemmovacích algoritmů Předzpracování nestrukturovaných dat Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Úvod do problematiky Obrovské množství nestrukturovaných dat Nutná transformace pro získání informací Bag-of-words vektorová reprezentace Možnosti předzpracování dat –vynechání mimořádných a konstantních hodnot –setřízení dat –hledání stopslov –oprava pravopisu –stemming strana 3 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Stemming Metoda extrakce termů Odstranění částí slov vzniklých skloňováním nebo časováním Několik použitelných algoritmů Různá úspěšnost algoritmů Zpracování pouze anglického jazyka strana 4 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Algoritmy pro stemming Porterův algoritmus ‒ nejznámější, standard Vyhledávací algoritmy ‒ používají vyhledávací tabulky Produkční techniky ‒ poloautomatické vytváření vyhledávací tabulky Suffix-stripping algoritmy ‒ list pravidel Stochastické algoritmy ‒ využívají pravděpodobnost, jsou trénovány Hybridní přístupy – kombinace předchozích strana 5 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Snowball Nutnost zpracovat i další jazyky Nadstavba Porterova algoritmu Jazyk umožňující psát vlastní stemmovací algoritmy Snowball compiler překládá.sbl soubory a vytváří příslušné C nebo Java soubory Dostupné knihovny stemmerů strana 6 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Výsledky ÚI PEF MENDELU vyvíjí aplikaci pro předzpracování textových dat Využití jazyka Perl a modulu Perl/Tk pro GUI XS modul Lingua::Stem::Snowball –Možnost využít C knihovny stemmerů –Podpora 15 světových jazyků –Přímý převod na kořenový tvar slov –Krátký čas zpracování (45 tisíc slov za 0,6s) strana 7 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Výsledky Programová nadstavba knihovny Snowball Program spustitelný z příkazové řádky Hierarchická struktura vstupu/výstupu Možnost ovlivnit zpracování vstupními parametry Zahrnuto “očištění“ vstupních dat Kontrola kódování a podporovaných jazyků strana 8 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Ukázka strana 9 Předzpracování nestrukturovaných dat pomocí jazyka Snowball my_stemmer.pl --lang=DE --source=.\texts\T1.text --output=.\texts\T1_stemm.text

Ukázka strana 10 Předzpracování nestrukturovaných dat pomocí jazyka Snowball

Děkuji za pozornost strana 11 Předzpracování nestrukturovaných dat pomocí jazyka Snowball Tato práce vznikla v rámci řešení projektu IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining