Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.

Slides:



Advertisements
Podobné prezentace
OZD: Hašování RNDr. Michal Žemlička.
Advertisements

VÝPOČET OC.
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Poznámky pro výuku Předmět: Úvod do informatiky Autor: Mgr. Jan Míček
Ing. David Pejčoch Tutorial
WWW stránky.
Formuláře Formuláře lze nalézt téměř na každém webu. Formuláře lze nalézt téměř na každém webu. Použití formulářů: Použití formulářů: Blog Blog Uživatelské.
SEO pro novou firmu Bartošová Lenka 3MA
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: březen.
Albertina a Report Mgr. Libuše Simandlová
Školení internetového vyhledávače
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Obecná deformační metoda
Manažerské informační systémy Ing. Dagmar Řešetková
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu, která dokáže podle klíčového slova najít internetovou.
PHP – vkládání souborů a html 5
INTERNETOVÉ VYHLEDÁVAČE
3MA381 PowerPoint - seznámení
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Informace – vyhledávání informací
SEO SEO Optimalizace webových stránek pro vyhledávače Jan Nemrava, KIZI, FIS VŠE
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Tutoriál Vyhledávání v obchodních databázích Business Source
SubjektSpeciální ZŠ a MŠ AdresaU Červeného kostela 110, TEPLICE Číslo op. programuCZ Název op. programuOP Vzdělávání pro konkurenceschopnost.
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: únor 2012,
Tabulky – vyhledávání (v dalších tabulkách pomocí relací)
Analýza nákupního košíku Vlastimil Menčík. Data účtenky ze supermarketu celkem cca 60 použito asi 50 z různých zdrojů.
PowerPoint - seznámení Miroslav Lorenc. PowerPoint  K čemu a kdy použít?  Jaké jsou možnosti využití?  Alternativy?
WWW – hypertextový informační systém
ANOTACEPrezentace obsahuje informace o práci s vyhledávačem Google. Druh učebního materiáluDUM Očekávané výstupy Žáci umí použít vyhledávač Google k vyhledávání.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B16 Autor Ing. Jiří Kalousek Období vytvoření březen.
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: únor 2012,
Pracovní seminář ASEP IPAC 3 - novinky.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Jak vytvořit webovou stránku HTML Je základ každé webové stránky. Naučit se jej není složité a můžete říct „tento web jsem udělal/a já“
Rozpoznávání v řetězcích
Moderní škola 2011, CZ.1.07/1.4.00/ Informační a komunikační technologie Internet Pokročilé vyhledávání VY_32_INOVACE_11 Sada 12 Základní škola.
Jak vyhledávat informace na Internetu?
Název projektu: Šablony Špičák číslo projektu: CZ.1.07/1.4.00/ šablona III/2 autor výukového materiálu: Mgr. Jana Jiroušová, VM vytvořen: leden.
Databáze Formuláře VY_32_INOVACE_7B18. Formuláře Umožňují zobrazit data z tabulek uživatelsky vhodným způsobem Mohou být zobrazena data z více tabulek.
MIS - Manažerské informační systémy 1. cvičení – Internet a informace
REŠERŠNÍ STRATEGIE Mgr. Anna Vitásková.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
IBM - CVUT Student Research Projects Google search by voice Tomáš Losert – Karel Beyr –
Internet – služby Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí.
Sylabus V rámci PNV budeme řešit konkrétní úlohy a to z následujících oblastí: Nelineární úlohy Řešení nelineárních rovnic Numerická integrace Lineární.
Vyhledávání vzorů (template matching)
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
VY_I/2_INOVACE_37_Vyhledávání na internetu Vyhledávání na internetu Miroslav Kaňok.
JavaScript úvod. Jazyky webového vývojáře Dynamická stránka  aktivně mění svůj obsah v reakci na činnost uživatele  zpracování na straně serveru (PHP,
Internet a informace MIS - Manažerské informační systémy Internet a informace Ing. Jan Luhan
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Šablona:III/2č. materiálu: VY_32_INOVACE_198.
Název: Internet DUM:VY_32_INOVACE_VII_3_11 Šablona číslo: VII.Sada číslo: 3.Pořadové číslo DUM:11. Autor:Mgr. Milan Žižka.
Internetový vyhledávač Google Elektronické učební materiály - II. stupeň Informatika 9 Autor: Bc. Pavel Šiktanc Jak hledat na internetu??? Hledání pomocí.
Jak fungují webové stránky Úvod do HTML (1). Projekt: CZ.1.07/1.5.00/ OAJL - inovace výuky Příjemce: Obchodní akademie, odborná škola a praktická.
METODY A NÁSTROJE VYHLEDÁVÁNÍ INFORMACÍ NA INTERNETU Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Lenka Čekalová. Dostupné z Metodického.
Projekt MŠMTEU peníze středním školám Název projektu školyICT do života školy Registrační číslo projektuCZ.1.07/1.5.00/ ŠablonaIII/2 Sada08 AnotaceMinimalizace.
Vyhledávání na Internetu. Webové vyhledávače Webový vyhledávač je služba, která umožňuje na Internetu najít webové stránky, které obsahují požadované.
Dobývání znalostí z databází fulltext
Orientace a vyhledávání na internetu
Albertina a Report Mgr. Libuše Simandlová
METODY A NÁSTROJE VYHLEDÁVÁNÍ INFORMACÍ NA INTERNETU
Informatika – Internet
Nový web Souborného katalogu ČR
Kolářová, Marková, Pecha 8.B
Výukový materiál zpracován v rámci projektu
zpracovaný v rámci projektu
Transkript prezentace:

Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš

Problém  Pomocí vyhledávače Google ( zjišťovat frekvenci hledaných výrazů a jejich dvojicwww.google.com  Dále metodou analýzy nákupního košíku vyhodnotit získané frekvence a získat pravidla, která mají vystihovat, která slova se vyskytují součastně  Zvoleny malé domény (množiny slov) Velikosti 5-12 slov Např. čeští politici, internetové zkratky

Zisk dat  Vyhledávač při vyhledávání zobrazí přibližný počet nalezených výskytů výrazu  Tento počet jsme zjistili pro každé slovo z domény a také pro každou z dvojic různých slov Předpokládáme, že přibližně odpovídá počtu výskytů výrazu nebo dané dvojice na internetu  Ze získaných čísel jsme utvořili symetrickou matici čísel, kterou jsme dále analyzovali

Zisk dat

 Prováděn automaticky pomocí skriptu, který vygeneroval odpovídající URL adresy, nechal je automaticky stáhnout (s použitím utility curl)  Ve zdrojovém kódu výsledků vyhledávání pak vyhledal příslušné číslo, které zařadil na příslušnou pozici ve výsledné matici  Navíc bylo zjištěno číslo – odhad celkového počtu stránek pokrývajících celou doménu Vyhledáním A OR B OR C OR … (hledá se výraz A nebo B nebo C atd. pro všechny prvky v doméně)

Domény 1.Časté internetové zkratky (12) – AKA, ASAP, BTW, … 2.Vybraní čeští politici (7) - Topolánek, Paroubek, Kalousek, … 3.Barvy (11) - zelená, červená, modrá, … 4.Vybraná křestní jména (5) - Honza, Karel, Milan, … 5.Malá čísla (21) – 0, 1, 2, … 6.Sporty (7) - fotbal, hokej, tenis, … 7.Programovací jazyky a jejich chyby (10) - java, c++, php, … 8.Jezdci F1 (6) - Raikkonen, Hamilton, Hakkinen, … 9.Zvířata (7) - kočka, kůň, pes, … 10.Značky notebooků (5) - asus, acer, hp, … 11.Američtí prezidenti (5) - Clinton, Bush, Kennedy, …

MBA analýza  Na vytvoření MBA jsme použili funkci „mba“, která dostane jako parametr 1.Matici četností pro doménu 2.Součet všech transakcí  Jako výstup vrací matici n x 5 (kde n je počet prvků domény) ve tvaru: "IF","THEN","podpora","spolehlivost","zlepšení", kde:  IF,THEN jsou čísla prvků v doméně (odpovídají pravidlům)  podpora, spolehlivost je v procentech  Modifikací této funkce je funkce „mba2“, která dostane ještě 3 další parametry p,s,z, které určují minimální podporu, spolehlivost a zlepšení a vrátí pouze příslušná pravidla

MBA analýza  Poznámky Při vyhledávání pomocí Googlu, může nastat, že při hledání X vrátí méně odkazů než při hledání X a Y – to vedlo na spolehlivost více než 100% Takové řádky jsme ignorovali  Obecně byli nalezena pravidla s malými podporami  U některých domén nebyla nalezena pravidla se zlepšením >= 1 nalezená pravidla byla zřejmě nepoužitelná

Výsledky (domény 1-2)

Výsledky (domény 3-4)

Výsledky (domény 5-7)

Výsledky (domény 8-9)

Výsledky (domény 10-11)

Závěr  Dotazy  Komentáře  Připomínky  …