Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.

Slides:



Advertisements
Podobné prezentace
Analýza struktury povolání v Americe
Advertisements

SHLUKOVÁNÍ David Zeman FIT VUT UIFS Získávání znalostí z databází.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Matika krokem  Proč? - motivy vzniku
Diskrétní matematika Opakování - příklady.
Aplikace teorie grafů Základní pojmy teorie grafů
Multi-dimensional Sparse Matrix Storage J. Dvorský, M. Krátký, Katedra informatiky, VŠB – Technická univerzita.
Diagramy případů užití.
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
ADT Strom.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
LOGISTICKÉ SYSTÉMY 7/14.
Riziko a významnost v auditu
Heuristické metody Heuristiky dělíme na primární a duální.
Shlukovací algoritmy založené na vzorkování
Mezipředmětové vztahy Aplikace anglického jazyka do jiných předmětů s využitím moderních metod.
Analýza dat.
Shluková analýza.
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
Vyhledávání podobností v datech s využitím singulárního rozkladu
ANALÝZA VÝSLEDKŮ LINEÁRNÍHO OPTIMALIZAČNÍHO MODELU
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Shluková analýza.
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA STROJNÍ ÚSTAV PŘÍSTROJOVÉ A ŘÍDICÍ TECHNIKY ODBOR AUTOMATICKÉHO ŘÍZENÍ A INŽENÝRSKÉ INFORMATIKY Aplikace objektově.
Makrozoobentos a klasifikace toků Jarkovský J. 2,3, Kubošová K. 2,3, Zahrádková S. 1, Brabec K. 1, Kokeš J. 4, Klapka R. 2,3 1) Ústav botaniky a zoologie,
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Realtime identifikace osob podle hlasu
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Databázové modelování
Získávání informací z webu (Information Retrieval on the Web)
1 MUDIM Mgr. Petr Šimeček. 2 Nevíte, co dělat s daty?
Databázové systémy Informatika pro ekonomy, př. 18.
Automatizovaná podpora výběru nástroje pro dobývání znalostí Jakub Štochl.
hledání zlepšující cesty
Tomáš Malý. Osnova  Problém aproximace rozptýlených dat  Metoda pohyblivých nejmenších čtverců  Moje implementace  Dosavadní výsledky  Plán pokračování.
Simplexová metoda pro známé počáteční řešení úlohy LP
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK 4. Mapování a redukce dimenze 1. část – úvod + mapování vektorových sad.
Biostatistika 8. přednáška
Marketingový průzkum Milan Mrázek Matematika & Business
Modeling claim size in time via copulas (Gaida Pettere & Tonu Kollo) Mgr. Jan Šváb
Vyhledávání v multimediálních databázích Tomáš Skopal KSI MFF UK
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Prohledávání dokumentů ve vektorovém modelu Pavel Moravec.
Předzpracování nestrukturovaných dat pomocí jazyka Snowball , Brno Připravil: Bc. Pavel Řezníček.
11/2003Přednáška č. 41 Regulace výpočtu modelu Předmět: Modelování v řízení MR 11 (Počítačová podpora) Obor C, Modul M8 ZS, 2003, K126 EKO Předn./Cvič.:
Metrické indexování vektorových modelů v oblasti Information Retrieval
Návrh a implementace algoritmů pro údržbu,
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Úvod do programování Vyučující: Mgr. Vítězslav Jersák
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
Jana Holá Tvorba rešerše Jana Holá
Geografické informační systémy pojetí, definice, součásti
Hotel Tatra, Velké Karlovice 23. – 25. dubna 2007 S4U – Seminář o Univerzitním informačním systému 1 eLearning teoreticky a prakticky Roman Malo.
Logistika a Supply Chain Management Úvodní seminář.
Legislativní helpdesk Projekt: Úprava Informačního systému ODok Reg. č.: CZ.1.06/1.1.00/
Korelace Korelace obecně je míra kvality (vhodnosti, těsnosti) nalezeného regresního modelu pro daná data; vychází z hodnot reziduí V každém typu regresního.
Homogenita meteorologických pozorování
Testování hypotéz párový test
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
Induktivní statistika
Jana Holá Tvorba rešerše Jana Holá
Multifaktorová analýza
Shluková hierarchická analýza Obrázek 1
3. cvičení
ANALÝZA A KLASIFIKACE DAT
Induktivní statistika
Transkript prezentace:

Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel

Úvod Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky

Vektorový model dokumentů 1/3 Reprezentace dokumentu Reprezentace dotazu

Vektorový model dokumentů 2/3 Matice popisující soubor dokumentů

Vektorový model dokumentů 3/3 Koeficient podobnosti - vzdálenost vektoru dokumentu od vektoru dotazu Kosinová míra

Shluková analýza 1/4 Hypotéza o shlucích úzce vztažené dokumenty směřují k tomu, že jsou relevantní vůči týmž požadavkům

Shluková analýza 2/4 Hierarchické shlukování Aglomerativní – na startu je každý objekt brán jako jeden shluk, postupně se objekty spojují (shlukují) dohromady. Divizní – na startu tvoří všechny objekty jeden shluk. Shluky se postupně rozpadají.

Shluková analýza 3/4 Algoritmus aglomerativního shlukování 1. Vytvoření matice vzdálenosti objektů. 2. Definování každého objektu jako jeden shluk. 3. Sluč dvojicí shluků s největší vzdálenosti. 4. Přepočtení matice vzdálenosti objektů. 5. Dokud existuje více než jeden shluk, pokračuj bodem 3.

Shluková analýza 4/4 Metody přepočtu matice podobnosti Metoda nejbližšího souseda Metoda nejvzdálenějšího souseda Wardova metoda Metodo průměrová Metoda mediánová

Rozšíření dotazu 1/4 Zpětná vazba 1. Uživatel zadá vstupní dotaz, který vrátí inicializační množinu záznamu. 2. Vybere se množina záznamů relevantních pro dotaz. 3. S využitím nově vzniklé množiny záznamů, systém rozšíří původní dotaz o nové termy nebo přepočítá váhy termů.

Rozšíření dotazu 2/4 UP-DOWN-1 1. Postupujeme od kořene stromu. 2. Spočteme koeficient podobnosti aktuálního shluku a dotaz. 3. Vypočteme koeficienty podobnosti obou shluků, z nichž se daný shluk skládá. 4. Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu. 5. V opačném případě se přesuneme do shluku, který má vyšší koeficient podobnosti a pokračujeme bodem 2.

Rozšíření dotazu 3/4 UP-DOWN-2 1. Postupujeme od kořene stromu shluků. 2. Vypočteme koeficient podobnosti aktuálního shluku a dotazu. 3. Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu. 4. Pokračujeme bodem 2 pro všechny shluky s nenulovou hodnotou koeficientu podobnosti.

Rozšíření dotazu 4/4 Testováno na kolekci obsahující 1500 anglických RFC dokumentů.

Sledování vývoje tématu 1/2 Cílem je k zadanému dotazu vyhledat seznam dokumentů tématicky souvisejícími s dotazem (pomocí hierarchie shluků). Typy dotazu Zadaný pomocí termů Dokument

Sledování vývoje tématu 2/2

Algoritmus SORT-EACH 1/2. 1.Provedeme vektorový dotaz a získanou kolekci dokumentů označíme C V. 2.Označíme výslednou kolekci C S. 3.Určíme, kolik rozšiřujících dokumentů má obsahovat vývoj tématu k zadanému dokumentu (level). 4.První a druhý dokument z C V přidáme do C S.

Algoritmus SORT-EACH 2/2. 5.Pro ostatní dokumenty D V z C V provedeme: a)K dokumentu D V nalezneme vývoj obsahující level + 1 dokumentů a uložíme jej do C T. b)Pro každý dokument D T v C T. mimo dokument D V provedeme: Pokud je dokument D T v C S pak zařaď dokument D V za D T do C S a pokračuj bodem 5. c)Pokud nebyl dosud dokument D V zařazen pak vlož D V na konec kolekce C S.

Hodnocení efektivity v DIS Přesnost Úplnost F-míra Poznámka: A – počet všech relevantních dokumentů B – počet všech vybraných dokumentů

Vylepšení odpovědi na vektorový dotaz – test 1 Zlepšení k 10%.

Vylepšení odpovědi na vektorový dotaz – test 2 Zlepšení u E-CHI2 až 11% a u E-CHI2-LEV2 až 18%.