Získávání informací z webu

Slides:



Advertisements
Podobné prezentace
Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
Advertisements

Nový přístup k aplikacím Vema
Štěpán Šípal Gymnázium Čakovice. Dnešní témata  Vznik XHTML a předchůdci  Základní prvky XHTML dokumentu  Tagy a atributy  Elementy a jejich druhy.
Jak vzniká mobilní stránka Seznamu
1 Metavyhledávací stroj Jak vybudovat efektivní a výkonný Metavyhledávací stroj.
Tutoriál EDS možnosti přizpůsobení Pro administrátory support.ebsco.com.
Dajbych Václav Pole Další stránku vyvoláte levým kliknutím na Vaší myš, nebo popřípadě rolovacím kolečkem.
Aplikace teorie grafů Základní pojmy teorie grafů
D ATABÁZE N VID D ATABÁZE N VID N OVÁ SPECIALIZOVANÁ ONLINE SLUŽBA SPOLEČNOSTI O VID PRO OŠETŘOVATELSTVÍ A DALŠÍ NELÉKAŘSKÉ ZDRAVOTNICKÉ.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Školení internetového vyhledávače. Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Školení internetového vyhledavače Co je to internetový vyhledávač Aplikace na internetu,která dokáže podle klíčového slova najít internetovou.
Varianty Turingova stroje Výpočet funkcí pomocí TS
INTERNETOVÉ VYHLEDÁVAČE
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Tutoriál EBSCO Discovery Service ~ Jednoduché vyhledávání
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
Politika výběru elektronických zdrojů publikovaných v prostředí Internetu Mgr. Ludmila Celbová
Řešení dynamických problémů s podmínkami Pavel Surynek Univerzita Karlova v Praze Matematicko-fyzikální fakulta.
Vyhledávání a analýza dat na internetu 1 Doporučený vyhledávač:
Tutoriál DynaMed ~ Jednoduché prohledávání
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
TI 7.1 NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6. TI 7.2 Nejkratší cesty z jednoho uzlu Seznámíme se s následujícími pojmy: w-vzdálenost (vzdálenost na.
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
KEG Použití vzorů při vyhledávání na webu Václav Snášel.
Systémy pro podporu managementu 2
Algoritmy vyhledávání a řazení
Výrok „Počítač je pouze tak inteligentní jako jeho uživatel.“ (Radek Lochman, dnes)
Studijní informační zdroje (a jak se k nim dostat) Pro předmět Jazykový projev (2014/15) připravila Eva Cerniňáková Jabok - Vyšší odborná škola sociálně.
Jan Majer, Tomáš Pytlík, Tomáš Vondráček IKE D o k u m e n t o g r a f i c k é i n f o r m a č n í s y s t é m y.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
EBSCOhost Collection Manager ~ Vytváření profilů Tutoriál support.ebsco.com.
Vyhledávání informací na internetu
WWW – hypertextový informační systém
Oborová brána TECH tech.jib.cz Seminář „Okna oborů dokořán! Proč a jak využívat oborové brány & jak dál v CPK? “ Praha, NTK PhDr. Lenka Hvězdová.
Systémy pro podporu managementu 2 Inteligentní systémy pro podporu rozhodování 1 (DSS a znalostní systémy)
Analýza infromačního systému. Matice afinity ISUD matice – Insert (vkládání dat) – Select (výběr dat) – Update (aktualizace dat) – Delete (vymazání dat)
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
Informace a Informatika. Terminologie Informatika – anglicky information science Zabývá se zpracováním informací nejen na počítačích. Informatika (počítačová.
MODERAČNÍ TECHNIKY brainstorming brainwriting free-wheeling
Získávání informací z webu (Information Retrieval on the Web)
Vyhledávací servery Střední odborná škola Otrokovice Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je ing. Miroslav Hubáček.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Jak vyhledávat informace na Internetu?
Podnikání na Internetu internet - zdroj informací Letní semestr 2005 Jana Holá III.
CZ.1.07/1.4.00/ VY_32_INOVACE_154_IT5 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Projekt Perfull Personifikovaný fulltextový vyhledavač Vedoucí: RNDr. Leo Galamboš, Ph.D. Řešitelé: Ondrej Bechera Vojtěch Kulvait Eva Kustrová Ondřej.
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
Úvod do studia Strategie vyhledávání zdrojů Robert Zbíral.
Jak hledat co nejefektivněji na internetu? Referát Počítačová gramotnost II. Věra Anthová,
Školení WordPress a publikování na webu Mgr. Pavel Krejčí
Ústřední knihovna FSS MU Zprávám z médií a tisku na stopě!
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Internet – služby Název školyGymnázium Zlín - Lesní čtvrť Číslo projektuCZ.1.07/1.5.00/ Název projektuRozvoj žákovských kompetencí.
Projekt LISp-Miner Milan Šimůnek. Milan Šimůnek – Projekt LISp-Miner2 Obsah Význam databází a uchovávaných informací Proces dobývání znalostí z databází.
KURZ ZÁKLADY PRÁCE S POČÍTAČEM 1 Vyhledávání na internetu Autor: Mgr. Aleš Kozák.
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Šablona:III/2č. materiálu: VY_32_INOVACE_198.
ŠkolaZŠ Třeboň, Sokolská 296, Třeboň AutorMgr. Miroslava Tomanová Číslo VY_32_INOVACE_3466 NázevInternet - úvodní pojmy Téma hodinyInternet – úvodní.
Inf Informační zdroje a jejich kvalita. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
Databáze ● úložiště dat s definovaným přístupem ● typy struktury – strom, sekvence, tabulka ● sestává z uspořádaných záznamů ● databáze – struktura – záznam.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Tribuna českého obchodu TZB
NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6.
Vyhledávání v Internetu
Číslo projektu školy CZ.1.07/1.5.00/
KIV/ZD cvičení 5 Tomáš Potužák.
VIKMA06 Rešeršní a studijně rozborová činnost
2. Jak si snadno vytvořit nový vzor pomocí bloků.
DynaMed ~ Jednoduché prohledávání
DEFINICE FUNKCE Název školy: Základní škola Karla Klíče Hostinné
Transkript prezentace:

Získávání informací z webu Jan Lánský zizelevak@matfyz.cz

Získávání informací z webu Obsah Úvod Webové vyhledávače a portály Důležitost stránek (algoritmy PR a HITS) Strojové učení Tématicky zaměřené vyhledávače 22.9.2018 Získávání informací z webu

Získávání informací z webu Úvod Web 16,5 biliónu stránek v roce 2003 Přibývá 3 milióny stran za den (59 GB) Nejlepší vyhledávače Maximální pokrytí 40 % stran 100 miliónu dotazu denně 22.9.2018 Získávání informací z webu

Rychlost, přesnost, úplnost Rychlost – Doba odpovědi Přesnost – Přesnost výsledků (zda odpovídají dotazu) z první strany odpovědi. Úplnost – Nalezení nejvýznamnějších stránek (Portály, …) Rychlost Přesnost Úplnost 22.9.2018 Získávání informací z webu

Získávání informací z webu Vyhledávací nástroje Webové vyhledávače – roboti, pavouci, červi, chodci Když vím, co přesně chci najít (specifické téma) Obejdou se bez lidské údržby Webové portály – webové adresáře Když nevím, co hledám Vyžadují lidskou údržbu Vícenásobné vyhledávače – dotaz je poslán na více vyhledávačů 22.9.2018 Získávání informací z webu

Získávání informací z webu Webové vyhledávače Vezmi další URL z fronty Stáhni obsah stránky Předzpracuj stránku Vyber klíčová slova a indexuj je Najdi všechna URL a aktualizuj frontu 22.9.2018 Získávání informací z webu

Získávání informací z webu Webové vyhledávače Na zpracování grafové struktury webových stránek se používá prohledávání do hloubky. Hledání začíná danou množinou stránek. Nelze prozkoumat všechny strany Nejsou dosažitelné z původní množiny Časové a výkonnostní omezení vyhledávačů 22.9.2018 Získávání informací z webu

Získávání informací z webu Webové vyhledávače http://www.altavista.com http://www.excite.com http://www.google.com http://www.hotbob.com http://www.lycos.com http://www.northerenlight.com 22.9.2018 Získávání informací z webu

Získávání informací z webu Webové portály Získání odkazů na stránky Ohodnocení důležitosti stránek Indexovat a periodicky aktualizovat Zařadit odkaz do tématu Vyrob info o stránce Naplánovat aktualizaci 22.9.2018 Získávání informací z webu

Získávání informací z webu Webové portály Stromový adresář témat V kořeni 14 – 26 témat Stránky jsou v listech stromu http://www.yahoo.com http://www.looksmart.com http://www.dmoz.com 22.9.2018 Získávání informací z webu

Vícenásobné vyhledávače Uživatel zadá dotaz Dotaz se pošle na jednotlivé vyhledávače Získání výsledků z vyhledávačů Odstranění duplicit, přehodnocení výsledků Zobrazení výsledků uživateli 22.9.2018 Získávání informací z webu

Vícenásobné Vyhledávače Dotaz je poslán velkému množství webových vyhledávačů. Jsou 3 typů. 1) Izolované Každý posílá své výsledky nezávisle na ostatních. Šetří čas uživatele. 2) Sekvenční čeká se na posledního a pak se jejich výsledky spojí. Velmi pomalé. 22.9.2018 Získávání informací z webu

Vícenásobné Vyhledávače 3) Souběžné Hned jak skončí první vyhledávač dostanu výsledky. Snižuje dobu čekání na data. Při skončení dalších se tyto výsledky doplní. http://www.dogpile.com http://www.mamma.com http://www.metacrawler.com 22.9.2018 Získávání informací z webu

Získávání informací z webu Důležitost stránky Web je orientovaný graf. Mezi stránkami A a B vede hrana, pokud ze stránky A vede odkaz na stránku B. vstupní stupeň stránky - počet odkazů vedoucích na stránku výstupní stupeň stránky - na kolik stránek vedou z této stránky odkazy. 22.9.2018 Získávání informací z webu

Získávání informací z webu Důležitost stránky Důležitý je vstupní stupeň stránky Na populární stránky vede hodně odkazů Není odkaz jako odkaz. Odkaz z významné stránky (např. Yahoo), je cennější než několik odkazů ze bezvýznamných stránek. Počet citací má význam i v praktickém životě (udělování Nobelových cen) 22.9.2018 Získávání informací z webu

Algoritmus ohodnocování PR Stránka A má odkazy ze stran T1, ..., Tn. Tlumící faktor d  [0,1], obvykle 0,85 Funkce C(A) určuje výstupní stupeň strany PR(A) je ohodnocení strany dané vzorcem PR(A) = (1-d) + d  ((PR(Ti) / C (Ti)) Používá Google, stránka s větším PR (Page rank) se prohledává dříve. 22.9.2018 Získávání informací z webu

Získávání informací z webu Algoritmus HITS Stránky, které odkazují na velký počet významných stránek nazýváme rozcestníky. Jsou dobrou zásobárnou odkazů Stránky, na které odkazuje velký počet rozcestníků nazýváme autority. Stránky, na které odkazuje velký počet stránek (a žádné rozcestníky) nazýváme nerelevantní. (např. Yahoo) 22.9.2018 Získávání informací z webu

Získávání informací z webu Algoritmus HITS váha rozcestníku x<p> =  y<q> pro (q,p) E váha autority y<p> =  x<q> pro (p,q) E Problémy algoritmu (co zkresluje výsledek) automaticky generované odkazy nerelevantní odkazy (na jiné téma) Řešení - přidat do vzorce váhu listu 22.9.2018 Získávání informací z webu

Získávání informací z webu HITS x PG HITS Rozliší rozcestník od nerelevantních odkazů Preferuje hodně citované stránky o daném tématu před portály PG (Page rank) Slepě počítá vstupní a výstupní stupně Dává přednost portálům před citovanými stránkami 22.9.2018 Získávání informací z webu

Získávání informací z webu Strojové učení „Učící se agent“ rozhoduje o dokumentu, podle slov které obsahuje, do jaké kategorii dat patří. např. : obsahuje dokument relevantní informace k zadanému dotazu. Způsoby učení Kontrolované učení (klasifikace) Polokontrolované učení Nekontrolované učení 22.9.2018 Získávání informací z webu

Získávání informací z webu Kontrolované učení „Učící se agent“ se učí na množině dat M, která jsou označkována (rozdělena do tříd). V trénovací fázi zná správnou odpověď pro každý vstup z množiny dat M. V testovací fázi musí správně určit třídu pro každý vstup z množiny dat M Aplikace: Naivní Bayesův klasifikátor 22.9.2018 Získávání informací z webu

Naivní Buyesův klasifikátor wt : slovo t v dokumentu di : dokument i obsahující slova cj : třída dokumentů j v trénovací množině P( cj ) : frekvence dokumentu mezi cj všemi P(wt | cj ) : Pravděpodobnost alespoň jednoho výskytu slova wt v dokumentu cj P(cj | di ) : Pravděpodobnost, že dokument i patří do třídy j 22.9.2018 Získávání informací z webu

Naivní Buyesův klasifikátor P(cj | di ) = P( cj ) * P(di | cj ) Tento vztah pro jedno slovo se zobecňuje na více slov. Spočteme pravděpodobnosti pro všechny třídy a dokument zařadíme do té, která bude mít tuto pravděpodobnost nejvyšší Naivní – protože bereme slovo bez ohledu na salší slova v dokumentu 22.9.2018 Získávání informací z webu

Polokontrolované učení Oproti kontrolovanému učení: je množina označkovaných dat M malá. Musíme zařazovat do tříd i data, která nejsou z množiny M Polokontrolované učení je použitelnější pro praktické problémy. 22.9.2018 Získávání informací z webu

Získávání informací z webu Nekontrolované učení „Učící se agent“ nedostane žádná označkovaná data (M = 0) „Učící se agent“ dostane množinu N neoznačených dat. V této množině hledá podobnosti a na základě nich dělí data do tříd. 22.9.2018 Získávání informací z webu

Tématicky zaměřené vyhledávače Vyhledávací nástroje Obecné Specializované Na typ dokumentu Na téma 22.9.2018 Získávání informací z webu

Tématicky zaměřené vyhledávače Díky specializaci dosahují lepších parametrů přesnosti a úplnosti Pro rozpoznání relevantních dokumentů používají strojové učení, například Naivní Buyesův klasifikátor IBM Focused Crawler, Context Focused Crawler, Cora 22.9.2018 Získávání informací z webu

Získávání informací z webu IBM Focused Crawler Téma je reprezentováno množinou dokumentů, které zadá uživatel. Systém má tři části Klasifikátor rozhoduje o relevanci procházeného dokumentu vzhledem k dotazu Používá upravenou verzi Naivního Buyesova klasifikátoru 22.9.2018 Získávání informací z webu

Získávání informací z webu IBM Focused Crawler Destilátor Rozhoduje o kvalitě stránky (PR, HITS) a určuje pořadí stran v jakém se budou zpracovávat Snaží se najít nejprve autority Dynamický prohledávač Prochází web podle podle měnící se prioritní fronty stránek 22.9.2018 Získávání informací z webu

Získávání informací z webu Literatura A. Barfourosh, H. Nezhad, M. Anderson a D. Perlis, Information Retrival on World Wide Web and Active Logic: A survey and Problem Definition 22.9.2018 Získávání informací z webu