Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Bc. Pavel Řezníček VYHLEDÁVÁNÍ PODOBNOSTÍ V DATECH S VYUŽITÍM SINGULÁRNÍHO ROZKLADU.

Podobné prezentace


Prezentace na téma: "Bc. Pavel Řezníček VYHLEDÁVÁNÍ PODOBNOSTÍ V DATECH S VYUŽITÍM SINGULÁRNÍHO ROZKLADU."— Transkript prezentace:

1 Bc. Pavel Řezníček VYHLEDÁVÁNÍ PODOBNOSTÍ V DATECH S VYUŽITÍM SINGULÁRNÍHO ROZKLADU

2  obrovský balík dat ze specifické domény  způsob realizace vyhledávání?  metody založené na lexikální analýze textu  Booleovský model  relevantní dokumenty – lexikálně obsahující vyhledávaná slova  výhody – rychlost, jednoduchost  nevýhody – synonymie, homonymie, syntaxe  pokročilé metody využívající skrytých (latentních) vazeb  Latentní sémantická analýza (LSA)  relevantní – dokumenty z určitého tematického okruhu  výhody – nalezení sémanticky podobných dokumentů  nevýhody – výpočetní složitost, nutnost přípravy dat  Pravděpodobnostní latentní sémantická analýza (pLSA)  Latentní Dirichletova alokace (LDA) VYHLEDÁVÁNÍ V DATECH

3  metoda pro extrakci a reprezentaci významů slov  zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí LATENTNÍ SÉMANTICKÁ ANALÝZA  slova sémanticky podobná jsou zobrazována do stejných dimenzí  dokumenty bez společných slov mohou být sémanticky podobné

4  Indexace latentní sémantiky (LSI)  LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech  výskyt reprezentován velkou řídkou maticí  vhodné aproximovat  aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů  náročný výpočet  prováděn pouze v úvodní fázi LSI A SVD

5 SINGULÁRNÍ ROZKLAD HODNOT

6  zdrojová data - recenze rodinných doktorů (29 tisíc)  předzpracování  stemming  odstranění stop slov  normalizace  jazyk Perl, modul PDL  optimalizován pro manipulaci s rozsáhlými daty ČÁST I. - PŘÍPRAVA DAT

7  výstupem programu je CSV soubor  dokumenty i termy namapovány do stejných dimenzí ČÁST II. - SVD

8  Kohonenova síť  učení bez učitele  vytváření 2–dimenzionální reprezentace vstupních dat – mapa ČÁST III. - HLEDÁNÍ SHLUKŮ  výsledek  55 shluků slov = diskutovaná témata  přiřazení dokumentů kde byla témata diskutována  seřazení shluků podle četnosti výskytů hledaných termů  nejlepší výsledky při aproximaci do 50 dimenzí

9 ČÁST III. - HLEDÁNÍ SHLUKŮ

10

11  výsledný soubor  shluky slov - témata  odpovídající dokumenty ČÁST IV. - VYTVOŘENÍ KLUSTERŮ

12 Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014 DĚKUJI ZA POZORNOST


Stáhnout ppt "Bc. Pavel Řezníček VYHLEDÁVÁNÍ PODOBNOSTÍ V DATECH S VYUŽITÍM SINGULÁRNÍHO ROZKLADU."

Podobné prezentace


Reklamy Google