Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Vyhledávání podobností v datech s využitím singulárního rozkladu
Bc. Pavel Řezníček
2
vyhledávání v datech obrovský balík dat ze specifické domény
způsob realizace vyhledávání? metody založené na lexikální analýze textu Booleovský model relevantní dokumenty – lexikálně obsahující vyhledávaná slova výhody – rychlost, jednoduchost nevýhody – synonymie, homonymie, syntaxe pokročilé metody využívající skrytých (latentních) vazeb Latentní sémantická analýza (LSA) relevantní – dokumenty z určitého tematického okruhu výhody – nalezení sémanticky podobných dokumentů nevýhody – výpočetní složitost, nutnost přípravy dat Pravděpodobnostní latentní sémantická analýza (pLSA) Latentní Dirichletova alokace (LDA)
3
Latentní sémantická analýza
metoda pro extrakci a reprezentaci významů slov zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí slova sémanticky podobná jsou zobrazována do stejných dimenzí dokumenty bez společných slov mohou být sémanticky podobné
4
LSI a SVD Indexace latentní sémantiky (LSI)
LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech výskyt reprezentován velkou řídkou maticí vhodné aproximovat aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů náročný výpočet prováděn pouze v úvodní fázi
5
Singulární rozklad hodnot
6
část I. - příprava dat zdrojová data - recenze rodinných doktorů (29 tisíc) předzpracování stemming odstranění stop slov normalizace jazyk Perl, modul PDL optimalizován pro manipulaci s rozsáhlými daty
7
část II. - sVD výstupem programu je CSV soubor
dokumenty i termy namapovány do stejných dimenzí
8
část III. - hledání shluků
Kohonenova síť učení bez učitele vytváření 2–dimenzionální reprezentace vstupních dat – mapa výsledek 55 shluků slov = diskutovaná témata přiřazení dokumentů kde byla témata diskutována seřazení shluků podle četnosti výskytů hledaných termů nejlepší výsledky při aproximaci do 50 dimenzí
9
část III. - hledání shluků
10
část III. - hledání shluků
11
část IV. - vytvoření klusterů
výsledný soubor shluky slov - témata odpovídající dokumenty
12
Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014
děkuji za pozornost Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.