Www.seznam.cz Seznam.cz, a.s. I Radlická 2 I 150 00 Praha 5 I Tel.: +420 234 694 111 I Fax: +420 234 694 115 Fulltextový vyhledávač Štěpán Škrob.

Slides:



Advertisements
Podobné prezentace
Standardní knihovní funkce pro práci s textovými řetězci
Advertisements

Vyhledávací stoje na Internetu. (vyhledavače pro začátečníky)
VY_32_INOVACE_54_MS_Word_ III. Autor : Trýzna Stanislav Školní rok : 2011/2012 Určeno pro : šestý ročník Předmět: informatika Téma : základní orientace.
Štěpán Šípal Gymnázium Čakovice. Dnešní témata  Vznik XHTML a předchůdci  Základní prvky XHTML dokumentu  Tagy a atributy  Elementy a jejich druhy.
Tvorba webových stránek
ZÁKLADY HTML Číslo DUM: VY_32_INOVACE_04_11 Autor: Mgr. Ivana Matyášková Datum vytvoření: duben 2013 Ročník: tercie Vzdělávací obor: informační technologie.
Základní škola a mateřská škola Bzenec Číslo projektu: CZ.1.07/1.4.00/ Číslo a název šablony klíčové aktivity: III/2: využívání ICT – inovace Vypracoval/a:
HTML (XHTML) 3. 2 META INFORMACE V závěru se opět vracím k hlavičce dokumentu, kde se definují tzv. META informace. Zapisují se jako nepárová značka s.
Základy HTML.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
LMS Unifor Live! Inovace kombinovaného studia. Teoretická část (45 minut) Definice pojmů Přihlášení do LMS Unifor Live! Program.
Informatika pro ekonomy II přednáška 4
Praha6.cz Nové trendy v e-publishingu Statické stránky, mapa stránek, menu a fulltextové vyhledávání.
MySQL - Vytvoření nové tabulky  create table jméno_tabulky (jméno_položky typ_položky,... ) Přehled nejběžnějších datových typů Přehled nejběžnějších.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Vyhledávání dat podle určených kritérií Máte za úkol vytvořit databázi klientů v bance s jejich osobními údaji, čísly účtů a konečnými zůstatky na těchto.
Microsoft Access Prezentace základních uživatelských nástrojů
A1PRG - Programování – Seminář Ing. Michal Standardní knihovní funkce pro práci se soubory 13 Verze
WWW stránky – Struktura, adresování, hosting Mgr. Lenka Švancarová.
PHP – zasílání dat z formuláře
Rozšíření dotazu a vývoj tématu v IR Jiří Dvorský Jan Martinovič Václav Snášel.
Architektura databází Ing. Dagmar Vítková. Centrální architektura V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická.
Číslo projektuCZ.1.07/1.5.00/ Číslo materiáluVY_32_INOVACE_258 Název školyGymnázium, Tachov, Pionýrská 1370 Autor Ing. Roman Bartoš Předmět Informatika.
PHP – Základy programování
KIV/PPA1 cvičení 7 Cvičící: Pavel Bžoch. Osnova cvičení Zadání samostatné práce –Vysvětlení nejasností –Způsob odevzdání –Hodnocení Řazení Vyhledávání.
Oborová informační brána KIV Jak ji využívat. Bránu KIV vytvořili Hlavní garant: Knihovnický institut NK ČR Technologie: Ústav výpočetní techniky UK v.
Databázové systémy Přednáška č. 7 Uživatelské rozhraní.
Bc. Martin Dostal. Co to je sémantické vyhledávání? Vyhledávání s využitím "umělé inteligence" Vyhledávání v množině dat na stejné téma katastrofy sport.
IGrid index Roman Krejčík. Obsah Motivace Prokletí dimenze Míry podobnosti IGrid, IGrid+ Experimentální porovnání.
Nové funkce v novém Skliku
WWW – hypertextový informační systém
Vítejte při prezentaci některých zajímavých vlastností slovníků Lingea Lexicon. Mezi stránkami můžete přecházet pomocí kláves, myší nebo počkat na automatické.
Filtrace web stránek s využitím profilu uživatele Petr Doskočil
URL v HTML URL - Unique Resource Locator Příklad:
Základy syntaxe jazyka PHP PHP JE TECHNOLOGIE BĚŽÍCÍ NA SERVERU. PHP JE TECHNOLOGIE BĚŽÍCÍ NA SERVERU. Typický PHP skript obsahuje: Typický PHP skript.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Úvod do problematiky elektronických informačních zdrojů a rešerší Martina Machátová.
2 Petr Žitný znalosti.vema.cz 3 Báze znalostí Nová služba zákazníkům ▸Báze naplněná informacemi, ke které mají uživatelé přímý přístup Základní cíl ▸Poskytovat.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B13 Autor Ing. Jiří Kalousek Období vytvoření březen.
BLAST (basic local alignment search tool) Vyhledává podobné sekvence v databázích. Stal se nástrojem pro všechno. Určitou dobu kolektiv autorů držel krok.
Novinky ve vývoji Martin Stančík 2014.
Jak vyhledávat informace na Internetu?
Personalizace výuky prostřednictvím e-learningu. Struktura učebnice pro e-learning Obsah učebnice = struktura předmětu, kapitol cíleTabulka aktivni slovesa.docTabulka.
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
EndNoteWeb a ResearcherID – užitečné nástroje Web Of Science
KORPUSY A KVANTITATIVNÍ DATA Úvod do korpusové lingvistiky 11.
Analýza webu pomocí vyhledávače Google metodou MBA Dobývání znalostí 2008 Vladislav Kozák, Jan Ondruš.
Web of Science - Web of Science TM Core Collection Mgr. Libuše Simandlová Centrum informačních a knihovnických služeb Odbor informační podpory studia a.
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
PRAXE V ČESKÉM PROSTŘEDÍ Úvod do korpusové lingvistiky 5.
- osnova přednášky Obecný popis služby Suchá statistika PP prostor
Jana Holá Tvorba rešerše Jana Holá
1 Martin Vojnar Bibliografie jako nezbytná součást jednotného vyhledávaní SNK v Martine, 7. listopadu 2011.
Reprezentace dat v počítači. základní pojmy  BIT označení b nejmenší jednotka informace v paměti počítače název vznikl z angl. BINARY DIGIT (dvojkové.
Inf Webová stránka, princip HTML a CSS. Výukový materiál Číslo projektu: CZ.1.07/1.5.00/ Šablona: III/2 Inovace a zkvalitnění výuky prostřednictvím.
Přehled změn na portálu upgrade redakčního systému Marwel, nasazení modulu pro správu souborů a fulltextové vyhledávání
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Ukládání dat biodiverzity a jejich vizualizace
Vyhledávání v Internetu
Ověřování první sbírky
Přehled změn na portálu
Fulltextové vyhledávání
Jana Holá Tvorba rešerše Jana Holá
Přehled změn na portálu
Optimalizace SQL dotazů
Algoritmizace a datové struktury (14ASD)
Úložiště dokumentů Fulltextové vyhledávání
Ing. Alžběta Králová SEFIRA spol. s r.o.
HASH.
Transkript prezentace:

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Fulltextový vyhledávač Štěpán Škrob

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: O čem bude přednáška? 1.Úvod 2.Přehled architektury vyhledávače 3.Důležité datové struktury 4.Použité algoritmy a)Crawlování b)Indexace c)Vyhledávání 5.Výkonové statistiky

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Úvod Vyhledávače jsou si prakticky velmi podobné, liší se pouze v implementačních detailech :-) Je to jako s auty…

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Přehled architektury vyhledávače

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Přehled architektury (1) Původní škálovatelnost do 100 M dokumentů Nyní až 1 G dokumentů –Rozdělení databáze do svazků –Zkrácení odezvy vyhledávače Současná databáze –Počet dokumentů 30 M –Datová velikost 100 GB

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Přehled architektury (2) Výkon robota (crawlera) –2 M dokumentů / den Dvě úzká hrdla –Výběr dokumentu k reindexaci –Přeložení URL na url_id –Obojí je náhodný přístup k datům…

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Přehled architektury (3)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Důležité datové struktury

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Důležité datové struktury 1.Lexikon 2.Invertovaný index 3.Texty dokumentů

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Lexikon (1)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Lexikon (2) Lemmatizátor je spojený s lexikonem do jedné komponenty Obsah lexikonu –Lemmatizovaná slova => lemmata –Nelemmatizovaná slova => termy

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Lexikon (3) Statistické údaje –450 MB celková velikost –22 miliónů slov –16 miliónů hashů (využitých 75%) –Největší kolize 13 slov / hash Výkon – slov / sec

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Invertovaný index (1)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Invertovaný index (2) Rozdílová + prostorová komprimace ideček Prostorová komprimace ostatních int čísel Uchovávané informace o slově: –Tvar slova (5 bitů) –Číslo odstavce –Pozice v odstavci

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Invertovaný index (3) Pro nalezení záznamu slova v barrelu (invertovaného indexu) slouží další index –Trvale přítomný v paměti (no I/O) –Obsahuje informace o souboru, pozici, délce –Seřazený podle word_id => binární půlení Statistické údaje (30 M dokumentů) –Invertovaný index 50 GB –Trvale načtené struktury ~250 MB

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Texty dokumentů (1)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Texty dokumentů (2) Texty všech zaindexovaných stránek včetně balastu –Zachované informace o odstavcích –Označkované začátky a konce slov –Neobsahuje HTML značky Použití pro dynamický popisek dokumentu Automatický abstrakt dokumentu

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Texty dokumentů (3) Statistické informace –Celková velikost 50 GB na 30 M dokumentů –Průměr 200 slov na dokument –Průměrná velikost slova 7 znaků

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Použité algoritmy

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Použité algoritmy 1.Crawlování a)Filtrace dokumentů b)Detekce českého jazyka 2.Indexace a)Lemmatizace b)Identifikace podobných dokumentů 3.Vyhledávání a)Doplňování diakritiky b)Výběr vhodného lemmatu c)Hodnocení relevance

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Filtrace dokumentů (1) Základní filtrace textových dokumentů podle Content-Type –Uhádnutého z URL –Zjištěného z HTTP hlaviček serveru –Pozor na CGI scripty a URL zakončená lomítkem (

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Filtrace dokumentů (2) Vyřazení binárních souborů –Citlivost na řídící znaky ASCII < 32 –Hledání tokenů podobných slovům (mezery a délka slova) Vyřazení zcela duplicitních dokumentů –MD5 hash z textového derivátu

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Detekce českého jazyka Kombinace slovníkové a statistické metody –Slovník ze článků novinky.cz –Frekvence slov –Charakterističnost slov pro češtinu (žížala…) Vysoká citlivost na přítomnost českého jazyka Nutná spolehlivá funkce i pro krátké texty Ruční nastavení vah, neumí se učit

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Lemmatizace textu (1) Lemmatizátor Lingea –Zaměření na spisovnou češtinu –Více správných možností => dvě lemmata (citron a citrón) –Názvy, jména, příjmení… Lemmatizace pouze podstatných a přídavných jmen

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Lemmatizace textu (2) Neznámá slova –Indexace termu Nejednoznačná slova –Zaindexování ve prospěch všech lemmat –Problémy: „Jana Králová“ Text bez diakritiky –Doplňuje se pokud je celý odstavec bez diakritiky –Výskyt hlavně v diskuzích

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Určení podobnosti dokumentů (1) Zkoumá se podobnost každého dokumentu se všemi ostatními dokumenty Pro každý dokument se spočítá N hashů –N hashovacích funkcí –Hashe se počítají pro plovoucí okno m-tic slov –Výstupem je max(hash) z každé funkce

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Určení podobnosti dokumentů (2) Podobné dokumenty jsou takové, kde X z N hashů je stejných Výstupem výpočtu je X souborů s identifikovanými podobnostmi Bohužel neplatí transitivita –Pokud existuje A ~ B, B ~ C –Pak neplatí, že A ~ C

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Určení podobnosti dokumentů (3) Ze souborů vytvoříme třídy podobných dokumentů jako kdyby podobnost byla transitivní

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Doplňování diakritiky (1) Účel –Stále nezanedbatelné procento dotazů bez diakritiky –Nesprávně psané dlouhé samohlásky (á, é, í, ó) (Slávia, ale myslí Slavia) –Překlepy (Śkoda místo Škoda)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Doplňování diakritiky (2) Postup –Úplné odstranění diakritiky z dotazu –Doplnění diakritiky do očištěného dotazu –Nalezení možných lemmat pro doplněná slova => Zvětšení nejednoznačnosti => Nutný výběr

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výběr vhodného lemmatu (1) Pro každé slovo dotazu existuje N možných lemmat Musíme vybrat jedno lemma pro každé slovo –Výkon: nelze hledat všechna slova –Smysl dotazu: musíme určit slovo které uživatel myslel

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výběr vhodného lemmatu (2) Preference lemmat ze znalosti situace Typická podoba dotazů –Drtivá většina podstatná a přídavná jména (dovolená chorvatsko) –Slovesa vyjímečně (běží liška k táboru) –1. pád jedn. i mn. čísla (krby)

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výběr vhodného lemmatu (3) Použití frekvenčního slovníku dvojic lemmat –Kombinace všech možností lemmatizace dotazu –Ohodnocení každé kombinace podle frekvence výskytu Výsledek – rozdílná lemmata pro: –Německých tancích –Německých lidových tancích

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výběr vhodného lemmatu (4) Výsledek z administračního rozhraní pro „Německých tancích“

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výběr vhodného lemmatu (5) Výsledek z administračního rozhraní pro „Německých lidových tancích“

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Hodnocení relevance (1) Vyhodnocuje se pozice a vzdálenost slov Hledá se uspořádání slov co nejpodobnější dotazu Příklady (dotaz A B): –A Bvzdálenost 0 –A x Bvzdálenost 1 –A x x Bvzdálenost 2 –B Avzdálenost 1

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Hodnocení relevance (2) V textu musejí být všechna slova Hodnocení slov v: –Titulku –URL –Textu Hledání složeného slova v URL (

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Hodnocení relevance (3) Celková relevance dokumentu –Nelineární kombinace částečných relevancí všech nalezených výskytů –Připočítání ranku dokumentu Výsledek seřazen podle celkové relevance Ze skupiny podobných dokumentů je vybrán ten nejrelevantnější

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výkonové statistiky

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Výkonové statistiky 1.Dotazy na web interface 2.Úspěšnost query cache 3.Odezva index searcheru 4.Odezva content serveru

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Dotazy na web interface (1) Počet dotazů / sec 1 ze 3 metasearchů

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Dotazy na web interface (2) Průměrná latence odpovědí v msec Špička = update db, pokles = zapnutí cache

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Úspěšnost query cache Úspěšnost cache v % Skok na konci = zapnutí částečného cachování

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Odezva index searcheru Průměrná latence odpovědi v msec Špička = update db

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Odezva content serveru Průměrná latence odpovědi v msec Pokles na konci = zapnutí cachování

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Další rozvoj Zapojení pokročilých lingvistických metod Zvyšování počtu dokumentů v databázi Zlepšování výpočtu relevance … Zde je šance pro Vás!

Seznam.cz, a.s. I Radlická 2 I Praha 5 I Tel.: I Fax: Konec Děkuji za pozornost.