Text mining – definice inteligentní analýza textu textový data mining proces extrakce skrytých informací z nestrukturovaného textu používá kombinaci strojového učení, statistické analýzy..
Je to k něčemu? asi jo, jelikož 80% informací je textových ECHELON = sledování komunikačních kanálů (automatická analýza velkého množství dat..)
Rozdíl od hledání na webu Na webu většinou hledáme napsané a známé věci X V text miningu hledáme neznámou informaci
Similarita s data miningem Problém umístění másla v text miningu – vzory jsou extrahovány z normálního jazyka, ne ze strukturovaných databází Pro text mining jsou nejvhodnější NESTRUKTUROVANÉ dokumenty
Computational linguistic = LANGUAGE PROCESSING Extrahování frází -> sumarizace (nejčastější slova bez balastních členů) !Není text mining!
Konkrétní příklad 1 Jména lidí a společností zab. se bezdrátovou technologií Pokus odvodit vztahy mezi firmami, kdo je hlavní atp.. Problém zhodnocení vztahů – je jich hodně ..
Příklad 2 - interakce genů Články zabývajícícmi se geny Nehledáme přímé páry názvy genů + ostatní slova V dalších článcích hledáme právě ostatní slova Překvapivě dobré výsledky
Shrnutí Text Mining = objevení dosud nepublikované informace z velkého množství textu hledání na webu Existuje něco jako Computational Linguistics Text mining neřeší celý problém, ale může pomoci se dobrat výsledku
Literatura a zdroje 1 http://www.klariti.com/text-mining/index.shtml http://www.mundi.net/trip-m/hearst/ http://www2.sims.berkeley.edu/courses/is296a-4/f99/Lectures/acl99.ppt
Literatura a zdroje 2 http://www.dmreview.com/whitepaper/paper_sub.cfm?whitepaperId=10080 http://www.sims.berkeley.edu/~hearst/text-mining.html http://www.cs.waikato.ac.nz/~nzdl/textmining/
kaja.maly zavinac seznam.cz KONEC Autor: Karel Malý kaja.maly zavinac seznam.cz