Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš
Problém Pomocí vyhledávače Google ( zjišťovat frekvenci hledaných výrazů a jejich dvojicwww.google.com Dále metodou analýzy nákupního košíku vyhodnotit získané frekvence a získat pravidla, která mají vystihovat, která slova se vyskytují součastně Zvoleny malé domény (množiny slov) Velikosti 5-12 slov Např. čeští politici, internetové zkratky
Zisk dat Vyhledávač při vyhledávání zobrazí přibližný počet nalezených výskytů výrazu Tento počet jsme zjistili pro každé slovo z domény a také pro každou z dvojic různých slov Předpokládáme, že přibližně odpovídá počtu výskytů výrazu nebo dané dvojice na internetu Ze získaných čísel jsme utvořili symetrickou matici čísel, kterou jsme dále analyzovali
Zisk dat
Prováděn automaticky pomocí skriptu, který vygeneroval odpovídající URL adresy, nechal je automaticky stáhnout (s použitím utility curl) Ve zdrojovém kódu výsledků vyhledávání pak vyhledal příslušné číslo, které zařadil na příslušnou pozici ve výsledné matici Navíc bylo zjištěno číslo – odhad celkového počtu stránek pokrývajících celou doménu Vyhledáním A OR B OR C OR … (hledá se výraz A nebo B nebo C atd. pro všechny prvky v doméně)
Domény 1.Časté internetové zkratky (12) – AKA, ASAP, BTW, … 2.Vybraní čeští politici (7) - Topolánek, Paroubek, Kalousek, … 3.Barvy (11) - zelená, červená, modrá, … 4.Vybraná křestní jména (5) - Honza, Karel, Milan, … 5.Malá čísla (21) – 0, 1, 2, … 6.Sporty (7) - fotbal, hokej, tenis, … 7.Programovací jazyky a jejich chyby (10) - java, c++, php, … 8.Jezdci F1 (6) - Raikkonen, Hamilton, Hakkinen, … 9.Zvířata (7) - kočka, kůň, pes, … 10.Značky notebooků (5) - asus, acer, hp, … 11.Američtí prezidenti (5) - Clinton, Bush, Kennedy, …
MBA analýza Na vytvoření MBA jsme použili funkci „mba“, která dostane jako parametr 1.Matici četností pro doménu 2.Součet všech transakcí Jako výstup vrací matici n x 5 (kde n je počet prvků domény) ve tvaru: "IF","THEN","podpora","spolehlivost","zlepšení", kde: IF,THEN jsou čísla prvků v doméně (odpovídají pravidlům) podpora, spolehlivost je v procentech Modifikací této funkce je funkce „mba2“, která dostane ještě 3 další parametry p,s,z, které určují minimální podporu, spolehlivost a zlepšení a vrátí pouze příslušná pravidla
MBA analýza Poznámky Při vyhledávání pomocí Googlu, může nastat, že při hledání X vrátí méně odkazů než při hledání X a Y – to vedlo na spolehlivost více než 100% Takové řádky jsme ignorovali Obecně byli nalezena pravidla s malými podporami U některých domén nebyla nalezena pravidla se zlepšením >= 1 nalezená pravidla byla zřejmě nepoužitelná
Výsledky (domény 1-2)
Výsledky (domény 3-4)
Výsledky (domény 5-7)
Výsledky (domény 8-9)
Výsledky (domény 10-11)
Závěr Dotazy Komentáře Připomínky …