Vyhledávání podobností v datech s využitím singulárního rozkladu

Vyhledávání podobností v datech s využitím singulárního rozkladu
Bc. Pavel Řezníček

vyhledávání v datech obrovský balík dat ze specifické domény
způsob realizace vyhledávání? metody založené na lexikální analýze textu Booleovský model relevantní dokumenty – lexikálně obsahující vyhledávaná slova výhody – rychlost, jednoduchost nevýhody – synonymie, homonymie, syntaxe pokročilé metody využívající skrytých (latentních) vazeb Latentní sémantická analýza (LSA) relevantní – dokumenty z určitého tematického okruhu výhody – nalezení sémanticky podobných dokumentů nevýhody – výpočetní složitost, nutnost přípravy dat Pravděpodobnostní latentní sémantická analýza (pLSA) Latentní Dirichletova alokace (LDA)

Latentní sémantická analýza
metoda pro extrakci a reprezentaci významů slov zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí slova sémanticky podobná jsou zobrazována do stejných dimenzí dokumenty bez společných slov mohou být sémanticky podobné

LSI a SVD Indexace latentní sémantiky (LSI)
LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech výskyt reprezentován velkou řídkou maticí vhodné aproximovat aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů náročný výpočet prováděn pouze v úvodní fázi

Singulární rozklad hodnot

část I. - příprava dat zdrojová data - recenze rodinných doktorů (29 tisíc) předzpracování stemming odstranění stop slov normalizace jazyk Perl, modul PDL optimalizován pro manipulaci s rozsáhlými daty

část II. - sVD výstupem programu je CSV soubor
dokumenty i termy namapovány do stejných dimenzí

část III. - hledání shluků
Kohonenova síť učení bez učitele vytváření 2–dimenzionální reprezentace vstupních dat – mapa výsledek 55 shluků slov = diskutovaná témata přiřazení dokumentů kde byla témata diskutována seřazení shluků podle četnosti výskytů hledaných termů nejlepší výsledky při aproximaci do 50 dimenzí

část III. - hledání shluků

část IV. - vytvoření klusterů
výsledný soubor shluky slov - témata odpovídající dokumenty

Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014
děkuji za pozornost Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014

Vyhledávání podobností v datech s využitím singulárního rozkladu

Podobné prezentace

Prezentace na téma: "Vyhledávání podobností v datech s využitím singulárního rozkladu"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář

Přihlásit se

Přihlásit se přes sociální síť:

Vyhledávání podobností v datech s využitím singulárního rozkladu

Podobné prezentace

Prezentace na téma: "Vyhledávání podobností v datech s využitím singulárního rozkladu"— Transkript prezentace:

Podobné prezentace

O projektu

Kontaktní formulář