Vyhledávání podobností v datech s využitím singulárního rozkladu Bc. Pavel Řezníček
vyhledávání v datech obrovský balík dat ze specifické domény způsob realizace vyhledávání? metody založené na lexikální analýze textu Booleovský model relevantní dokumenty – lexikálně obsahující vyhledávaná slova výhody – rychlost, jednoduchost nevýhody – synonymie, homonymie, syntaxe pokročilé metody využívající skrytých (latentních) vazeb Latentní sémantická analýza (LSA) relevantní – dokumenty z určitého tematického okruhu výhody – nalezení sémanticky podobných dokumentů nevýhody – výpočetní složitost, nutnost přípravy dat Pravděpodobnostní latentní sémantická analýza (pLSA) Latentní Dirichletova alokace (LDA)
Latentní sémantická analýza metoda pro extrakci a reprezentaci významů slov zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí slova sémanticky podobná jsou zobrazována do stejných dimenzí dokumenty bez společných slov mohou být sémanticky podobné
LSI a SVD Indexace latentní sémantiky (LSI) LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech výskyt reprezentován velkou řídkou maticí vhodné aproximovat aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů náročný výpočet prováděn pouze v úvodní fázi
Singulární rozklad hodnot
část I. - příprava dat zdrojová data - recenze rodinných doktorů (29 tisíc) předzpracování stemming odstranění stop slov normalizace jazyk Perl, modul PDL optimalizován pro manipulaci s rozsáhlými daty
část II. - sVD výstupem programu je CSV soubor dokumenty i termy namapovány do stejných dimenzí
část III. - hledání shluků Kohonenova síť učení bez učitele vytváření 2–dimenzionální reprezentace vstupních dat – mapa výsledek 55 shluků slov = diskutovaná témata přiřazení dokumentů kde byla témata diskutována seřazení shluků podle četnosti výskytů hledaných termů nejlepší výsledky při aproximaci do 50 dimenzí
část III. - hledání shluků
část III. - hledání shluků
část IV. - vytvoření klusterů výsledný soubor shluky slov - témata odpovídající dokumenty
Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014 děkuji za pozornost Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014