Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel
Úvod Vektorový model dokumentů Shluková analýza Rozšíření dotazu Sledování vývoje tématu Hodnocení efektivity v DIS Aktuální výsledky
Vektorový model dokumentů 1/3 Reprezentace dokumentu Reprezentace dotazu
Vektorový model dokumentů 2/3 Matice popisující soubor dokumentů
Vektorový model dokumentů 3/3 Koeficient podobnosti - vzdálenost vektoru dokumentu od vektoru dotazu Kosinová míra
Shluková analýza 1/4 Hypotéza o shlucích úzce vztažené dokumenty směřují k tomu, že jsou relevantní vůči týmž požadavkům
Shluková analýza 2/4 Hierarchické shlukování Aglomerativní – na startu je každý objekt brán jako jeden shluk, postupně se objekty spojují (shlukují) dohromady. Divizní – na startu tvoří všechny objekty jeden shluk. Shluky se postupně rozpadají.
Shluková analýza 3/4 Algoritmus aglomerativního shlukování 1. Vytvoření matice vzdálenosti objektů. 2. Definování každého objektu jako jeden shluk. 3. Sluč dvojicí shluků s největší vzdálenosti. 4. Přepočtení matice vzdálenosti objektů. 5. Dokud existuje více než jeden shluk, pokračuj bodem 3.
Shluková analýza 4/4 Metody přepočtu matice podobnosti Metoda nejbližšího souseda Metoda nejvzdálenějšího souseda Wardova metoda Metodo průměrová Metoda mediánová
Rozšíření dotazu 1/4 Zpětná vazba 1. Uživatel zadá vstupní dotaz, který vrátí inicializační množinu záznamu. 2. Vybere se množina záznamů relevantních pro dotaz. 3. S využitím nově vzniklé množiny záznamů, systém rozšíří původní dotaz o nové termy nebo přepočítá váhy termů.
Rozšíření dotazu 2/4 UP-DOWN-1 1. Postupujeme od kořene stromu. 2. Spočteme koeficient podobnosti aktuálního shluku a dotaz. 3. Vypočteme koeficienty podobnosti obou shluků, z nichž se daný shluk skládá. 4. Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu. 5. V opačném případě se přesuneme do shluku, který má vyšší koeficient podobnosti a pokračujeme bodem 2.
Rozšíření dotazu 3/4 UP-DOWN-2 1. Postupujeme od kořene stromu shluků. 2. Vypočteme koeficient podobnosti aktuálního shluku a dotazu. 3. Pokud je daný shluk listem ukončíme hledání a vrátíme shluk, u kterého byla zjištěna nejvyšší hodnota koeficientu podobnosti vzhledem k dotazu. 4. Pokračujeme bodem 2 pro všechny shluky s nenulovou hodnotou koeficientu podobnosti.
Rozšíření dotazu 4/4 Testováno na kolekci obsahující 1500 anglických RFC dokumentů.
Sledování vývoje tématu 1/2 Cílem je k zadanému dotazu vyhledat seznam dokumentů tématicky souvisejícími s dotazem (pomocí hierarchie shluků). Typy dotazu Zadaný pomocí termů Dokument
Sledování vývoje tématu 2/2
Algoritmus SORT-EACH 1/2. 1.Provedeme vektorový dotaz a získanou kolekci dokumentů označíme C V. 2.Označíme výslednou kolekci C S. 3.Určíme, kolik rozšiřujících dokumentů má obsahovat vývoj tématu k zadanému dokumentu (level). 4.První a druhý dokument z C V přidáme do C S.
Algoritmus SORT-EACH 2/2. 5.Pro ostatní dokumenty D V z C V provedeme: a)K dokumentu D V nalezneme vývoj obsahující level + 1 dokumentů a uložíme jej do C T. b)Pro každý dokument D T v C T. mimo dokument D V provedeme: Pokud je dokument D T v C S pak zařaď dokument D V za D T do C S a pokračuj bodem 5. c)Pokud nebyl dosud dokument D V zařazen pak vlož D V na konec kolekce C S.
Hodnocení efektivity v DIS Přesnost Úplnost F-míra Poznámka: A – počet všech relevantních dokumentů B – počet všech vybraných dokumentů
Vylepšení odpovědi na vektorový dotaz – test 1 Zlepšení k 10%.
Vylepšení odpovědi na vektorový dotaz – test 2 Zlepšení u E-CHI2 až 11% a u E-CHI2-LEV2 až 18%.