Vyhledávání podobností v datech s využitím singulárního rozkladu

Slides:



Advertisements
Podobné prezentace
Paralelní výpočet SVD s aplikacemi pro vyhledávání informací
Advertisements

Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Projekt Informatika 2 ČVUT FSV obor Geodézie a Kartografie Bc. Jan Zajíček
1 Metavyhledávací stroj Jak vybudovat efektivní a výkonný Metavyhledávací stroj.
Rekonstrukce povrchu objektů z řezů Obhajoba rigorózní práce 25. června 2003 Radek Sviták
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Automatická fonetická segmentace pomocí UNS Registr - 36 neuronových sítí MLNN (pro každou českou hlásku jedna UNS) Trénovací množina: databáze promluv.
Plošná interpolace (aproximace)
Technologie pro CI. Od technologií pro CI vyžadujeme především funkce vyhledávání v rozsáhlých databázích na základě libovolných dotazů, propojování a.
Vysoká škola Báňská - Technická univerzita Ostrava Inovace výuky odborných předmětů na bázi řízení projektu Jana Šarmanová Libor Holub Radoslav Fasuga.
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Verze Modul OCENĚNÍ DaMaSk
Geo-informační systémy
SW podpora krizového řízení Duben 2006 Tomáš Fröhlich, DiS. ISSS 2007.
Řízené slovníky databází ISTA, LLIS/FTXT, LISA. Obecně: Řízený slovník – controlled vocabulary Slovník lexikálních jednotek selekčního jazyka uspořádaný.
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Tradiční metodiky vývoje softwaru
Využití počítačové techniky a internetu ve výuce ZSV Seminář pro učitele základů společenských věd a občanské výchovy.
Strategické plánování v obcích (Víme, kam jdeme) Zlín
Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, Václav Snášel,
Relační databáze.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
Využití zprostředkovaného učení ve výuce 1. třídy základní školy
Jak funguje vyhledávání podobností Šimon Suchomel.
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Robotika <Martin Čermák>
Řešení informační bezpečnosti v malých a středních firmách Pavel Šnajdr – Informační management 2 Diplomová práce.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Projekt METODIKA II Vítejte na dnešní prezentaci.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
PODNIKY V ČR VÝSLEDKY EMPIRICKÉHO ŠETŘENÍ KONKURENCESCHOPNOSTI PODNIKŮ Ladislav Blažek Výzkum konkurenceschopnosti podniků realizovaný v rámci Centra konkurenční.
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
PŘEDMĚT: ORGANIZACE ZNALOSTÍ PŘEDNÁŠEJÍCÍ: Josef Schwarz Automatická indexace Základní metody a postupy.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
XSLT překladač Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Metrické indexování vektorových modelů v oblasti Information Retrieval
Neuronové sítě. Vývoj NS 1943 – W. McCulloch, W. Pittse – první jednoduchý matematický model neuronu 1951 – M. Minsky - první neuropočítač Snark 1957.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Perzistence XML dat Kamil Toman
Počítačové zpracování češtiny v Ústavu formální a aplikované lingvistiky
Využití technik dataminingu při rozpoznávání znaků Marek Kukačka Květen 2006.
Publikování výsledků skenování Ntrip Casters pomocí mapového serveru Autor: Bc. Filip Lombart Vedoucí: Ing. David Vojtek Ph.D.
Geografické informační systémy pojetí, definice, součásti
Selekční jazyky Současné trendy Přednáška č. 2 ( ) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví.
Geoinformatické modelování RNDr. Blanka Malá, Ph.D.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Ústřední knihovna FSS MU
Geografické informační systémy
Geografické informační systémy
C-síť (circle – net) Petr Kolman.
Fulltextové vyhledávání
Efektivní programování V CAM software
Tradiční metodiky vývoje softwaru
Automatická indexace Základní metody a postupy
VIKMA06 Vyhledávání informací
Geografické informační systémy
Tradiční metody vývoje softwaru
Rešeršní činnost Mgr. Petr Šmejkal
ANALÝZA A KLASIFIKACE DAT
Transkript prezentace:

Vyhledávání podobností v datech s využitím singulárního rozkladu Bc. Pavel Řezníček

vyhledávání v datech obrovský balík dat ze specifické domény způsob realizace vyhledávání? metody založené na lexikální analýze textu Booleovský model relevantní dokumenty – lexikálně obsahující vyhledávaná slova výhody – rychlost, jednoduchost nevýhody – synonymie, homonymie, syntaxe pokročilé metody využívající skrytých (latentních) vazeb Latentní sémantická analýza (LSA) relevantní – dokumenty z určitého tematického okruhu výhody – nalezení sémanticky podobných dokumentů nevýhody – výpočetní složitost, nutnost přípravy dat Pravděpodobnostní latentní sémantická analýza (pLSA) Latentní Dirichletova alokace (LDA)

Latentní sémantická analýza metoda pro extrakci a reprezentaci významů slov zobrazuje dokumenty a dotazy do prostoru latentních sémantických dimenzí slova sémanticky podobná jsou zobrazována do stejných dimenzí dokumenty bez společných slov mohou být sémanticky podobné

LSI a SVD Indexace latentní sémantiky (LSI) LSI je založeno na Singulárním rozkladu matice (SVD) výskytů termů v dokumentech výskyt reprezentován velkou řídkou maticí vhodné aproximovat aproximací vzniká nový k-dimenzionální prostor se zachováním shluků podobných si dokumentů náročný výpočet prováděn pouze v úvodní fázi

Singulární rozklad hodnot

část I. - příprava dat zdrojová data - recenze rodinných doktorů (29 tisíc) předzpracování stemming odstranění stop slov normalizace jazyk Perl, modul PDL optimalizován pro manipulaci s rozsáhlými daty

část II. - sVD výstupem programu je CSV soubor dokumenty i termy namapovány do stejných dimenzí

část III. - hledání shluků Kohonenova síť učení bez učitele vytváření 2–dimenzionální reprezentace vstupních dat – mapa výsledek 55 shluků slov = diskutovaná témata přiřazení dokumentů kde byla témata diskutována seřazení shluků podle četnosti výskytů hledaných termů nejlepší výsledky při aproximaci do 50 dimenzí

část III. - hledání shluků

část III. - hledání shluků

část IV. - vytvoření klusterů výsledný soubor shluky slov - témata odpovídající dokumenty

Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014 děkuji za pozornost Nějaké dotazy ? Práce vznikla v rámci řešení projektu IGA PEF MENDELU 16/2014