Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Vyhledávání podobností v datech s využitím singulárního rozkladu

Podobné prezentace


Prezentace na téma: "Vyhledávání podobností v datech s využitím singulárního rozkladu"— Transkript prezentace:

1 Vyhledávání podobností v datech s využitím singulárního rozkladu
Bc. Pavel Řezníček

2 vyhledávání v datech obrovský balík dat ze specifické domény
způsob realizace vyhledávání? metody založené na lexikální analýze textu Booleovský model relevantní dokumenty – lexikálně obsahující vyhledávaná slova výhody – rychlost, jednoduchost nevýhody – synonymie, homonymie, syntaxe pokročilé metody využívající skrytých (latentních) vazeb Latentní sémantická analýza (LSA) relevantní – dokumenty z určitého tematického okruhu výhody – nalezení sémanticky podobných dokumentů nevýhody – výpočetní složitost, nutnost přípravy dat Pravděpodobnostní latentní sémantická analýza (pLSA) Latentní Dirichletova alokace (LDA)

3 Latentní sémantická analýza
metoda pro extrakci a reprezentaci významů slov zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí slova sémanticky podobná jsou zobrazována do stejných dimenzí dokumenty bez společných slov mohou být sémanticky podobné

4 LSI a SVD Indexace latentní sémantiky (LSI)
LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech výskyt reprezentován velkou řídkou maticí vhodné aproximovat aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů náročný výpočet prováděn pouze v úvodní fázi

5 Singulární rozklad hodnot

6 část I. - příprava dat zdrojová data - recenze rodinných doktorů (29 tisíc) předzpracování stemming odstranění stop slov normalizace jazyk Perl, modul PDL optimalizován pro manipulaci s rozsáhlými daty

7 část II. - sVD výstupem programu je CSV soubor
dokumenty i termy namapovány do stejných dimenzí

8 část III. - hledání shluků
Kohonenova síť učení bez učitele vytváření 2–dimenzionální reprezentace vstupních dat – mapa výsledek 55 shluků slov = diskutovaná témata přiřazení dokumentů kde byla témata diskutována seřazení shluků podle četnosti výskytů hledaných termů nejlepší výsledky při aproximaci do 50 dimenzí

9 část III. - hledání shluků

10 část III. - hledání shluků

11 část IV. - vytvoření klusterů
výsledný soubor shluky slov - témata odpovídající dokumenty

12 Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014
děkuji za pozornost Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014


Stáhnout ppt "Vyhledávání podobností v datech s využitím singulárního rozkladu"

Podobné prezentace


Reklamy Google