Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.

Slides:



Advertisements
Podobné prezentace
PLAYBOY Kalendar 2007.
Advertisements

IX. Řešení úloh v testech Scio z obecných studijních předpokladů
Produkce odpadů 2002 – 2007 obce ORP Šumperk
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 4 Vytvořila: Mgr. Martina Bašová VY_32_Inovace/1_028.
Zpracování informací a znalostí Další přístupy k vyhledávání textových dokumentů Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.
Odborná terminologie knihovnictví a informační vědy očima uživatelů databáze TDKIV Předběžné výsledky projektu Helena Kučerová VOŠIS Praha 1.
Zpracování informací a znalostí Booleovský model vyhledávání dokumentů a jeho rozšiřování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního.
Vlastní skript může být umístěn: v hlavičce stránky v těle stránky
Rozhodovací matice.
*Zdroj: Průzkum spotřebitelů Komise EU, ukazatel GfK. Ekonomická očekávání v Evropě Březen.
Kvantitativní metody výzkumu v praxi
Vyhledávání dopravního spojení na internetu
Spektra zatížení Milan Růžička 1 Dynamická pevnost a životnost
Cvičení Úloha 1: Rozhodněte zda posloupnost znaků v poli délky n tvoří palindrom (slovo, které je stejné při čtení zprava i zleva). Př.: [a,l,e,l,a] [a,n,n,a]
Vyhodnocování dotazů slajdy k LS I155 Jaroslav Pokorný.
Rozvozní úloha s dělenou dodávkou Jan Fábry Vysoká škola ekonomická v Praze ___________________________________________________________________________.
SQL – tříhodnotová logika
PROGRAM PRO VÝUKU T ČLÁNKU
AutorMgr. Lenka Závrská Anotace Očekávaný přínos Tematická oblastOperace s reálnými čísly Téma PředmětMatematika RočníkPrvní Obor vzděláváníUčební obory.
Teorie zpracování dat Ukázková písemka. Kapitola 4 Je dána tabulka Zam (login, jmeno, plat, funkce), implementovaná je v SŘBD používajícím indexové soubory.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
ENERGIE KLASTRŮ VODY ZÍSKANÁ EVOLUČNÍMI ALGORITMY
AnotacePrezentace, která se zabývá opakováním znalostí o zlomcích. AutorMgr. Václav Simandl JazykČeština Očekávaný výstupŽáci opakují znalosti o zlomcích.
ROZHODOVACÍ PROCESY PRO VÍCECESTNÉ TELEMATICKÉ APLIKACE Filip Ekl
Násobíme . 4 = = . 4 = = . 4 = = . 2 = 9 .
Metody řazení s lineární časovou složitostí
Skip-List je datová struktura, která může být použita jako náhrada za vyvážené stromy. představují pravděpodobnostní alternativu k vyváženým stromům (struktura.
Zpracování informací a znalostí Přesnost a úplnost vyhledávání
Téma: SČÍTÁNÍ A ODČÍTÁNÍ CELÝCH ČÍSEL 2
Bibliografická a rešeršní činnost
Diplomová práce Autorka: Ing. et Ing. Zuzana Hynoušová
Vizualizace projektu větrného parku Stříbro porovnání variant 13 VTE a menšího parku.
Vzdělávací materiál / DUMVY_32_INOVACE_02B14 Příkazový řádek: obsah souborů PŘÍKLADY AutorIng. Petr Haman Období vytvořeníLeden 2013 Ročník / věková kategorie3.
Rovnice se závorkami.
ČLOVĚK A JEHO SVĚT 2. Ročník - hodiny, minuty Jana Štadlerová ŽŠ Věšín.
Dělení se zbytkem 3 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
AnotacePrezentace, která se zabývá opakováním znalostí o zlomcích. AutorMgr. Václav Simandl JazykČeština Očekávaný výstupŽáci opakují znalosti o zlomcích.
MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA reg. č.: CZ.1.07/1.4.00/ Základní škola, Šlapanice, okres Brno-venkov, příspěvková organizace Masarykovo nám.
VY_32_INOVACE_ 14_ sčítání a odčítání do 100 (SADA ČÍSLO 5)
Střední škola Oselce Škola: SŠ Oselce, Oselce 1, Nepomuk, Projekt: Registrační číslo: CZ.1.07/1.5.00/ Název: Modernizace.
Tematická oblast: Hardware, software a informační sítě
1 Vyhledávání Principy vyhledávání Klasifikace klíče:  Interní klíč – je součástí prohlížených záznamů  Externí klíč – není jeho součástí, je jím např.
Získávání informací Získání informací o reálném systému
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
Dělení se zbytkem 6 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Dělení se zbytkem 5 MODERNÍ A KONKURENCESCHOPNÁ ŠKOLA
Obchodní akademie, Ostrava-Poruba, příspěvková organizace
M O R A V S K O S L E Z S K Ý K R A J 1 Vedení správních řízení ve spisové službě a statistika vyřizování dokumentů.
Jazyk vývojových diagramů

Projekt PŘEDPOVĚĎ POČASÍ. Předpověď počasí na
Nejmenší společný násobek
Násobení zlomků – teorie a cvičení VY_32_INOVACE_19
předpověď počasí na 14. května 2009 OBLAČNOST 6.00.
Zásady pozorování a vyjednávání Soustředění – zaznamenat (podívat se) – udržet (zobrazit) v povědomí – představit si – (opakovat, pokud se nezdaří /doma/)
AZ - KVÍZ Procvičení procent
TI 7.1 NEJKRATŠÍ CESTY Nejkratší cesty - kap. 6. TI 7.2 Nejkratší cesty z jednoho uzlu Seznámíme se s následujícími pojmy: w-vzdálenost (vzdálenost na.
Projekt PŘEDPOVĚĎ POČASÍ. projekt PŘEDPOVĚĎ POČASÍ.
EDITOR BY: SPRESS 15. ledna ledna ledna 2015.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není – li uvedeno jinak, je tento materiál zpracován.
Fyzika 2 – ZS_3 OPTIKA.
Téma: ABSOLUTNÍ HODNOTA CELÝCH ČÍSEL 2
Algoritmy vyhledávání a řazení
Jazyk vývojových diagramů
Copyright (C) 1999 VEMA počítače a projektování, spol. s r.o.1 Lucián Piller Intranet HR.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost 1. KŠPA Kladno, s. r. o., Holandská 2531, Kladno,
Teorie čísel Prvočíslo Generování prvočísel: Erathosenovo síto
Algoritmizace a datové struktury (14ASD)
Transkript prezentace:

Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

Datové struktury a algoritmy pro vyhledávání informací Literatura: Rauch, J.: Metody zpracování informací II, kapitoly 13, 14 KUČERA, L.: Kombinatorické algoritmy. Praha, SNTL 1983, 280 str. SALTON, G. - McGILL, M.: Introduction to Modern Information Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s.

Datové struktury a algoritmy pro vyhledávání informací Základní pojmy Sekvenční vyhledávání Binární vyhledávání Invertovaný soubor

Vyhledávání informací Základní pojmy záznam (bibliografický záznam) pole klíč je pole, podle jehož hodnoty vyhledáváme Novák Vyhledávání informací GRADA 2000 počítač, tezaurus, knihovna Kadlec Historie počítačů PASEKA 1999 počítač, historie, DOS Zounar Informační služby UK 2001 počítač, tezaurus, knihovna …….

Základní pojmy Hodnocení algoritmů : - typická operace (např. porovnání klíčů) - maximální počet typických operací - průměrný počet typických operací - složitost aktualizace potřebných datových struktur - … viz literatura …

Datové struktury a algoritmy pro vyhledávání informací Základní pojmy Sekvenční vyhledávání Binární vyhledávání Invertovaný soubor

Sekvenční vyhledávání Situace A: - neuspořádaný seznam N záznamů (Autor - Název - Deskriptory obsahu), - může být více záznamů s jednou hodnotou klíče (např. více záznamů s jedním autorem) Úloha: Nalézt všechny záznamy se zadanou hodnotou daného klíče (např. všechny knihy, jejichž autorem je Novák)

Sekvenční vyhledávání Situace A (může být více záznamů s jednou hodnotou klíče) Příklad: N záznamů … - Počet potřebných porovnání: N - Aktualizace: bez problémů Novák ABC... Kadlec ZDU… Adam REP.. Zounar ZJK.. Novák XYZ…

Sekvenční vyhledávání Situace B: - neuspořádaný seznam záznamů - právě jeden záznam pro danou hodnotu klíče (slovník autorů) Úloha: Nalézt záznam se zadanou hodnotou klíče

Sekvenční vyhledávání Situace B (právě jeden záznam pro danou hodnotu klíče) Příklad: N záznamů Novák ABC... Kadlec ZDU… Adam REP.. Zounar ZJK.. Jonáš XYZ… … Po nalezení záznamu lze skončit! Počet porovnání pro nalezení N záznamů: 1 + 2 + 3 + … + N = N*(N + 1) / 2 Průměrný počet porovnání na nalezení 1 záznamu: (N + 1) / 2 Aktualizace: bez problémů

Sekvenční vyhledávání Situace C: - neuspořádaný seznam záznamů - maximálně jeden záznam pro danou hodnotu klíče („neúplný slovník autorů“) Úloha: Nalézt záznam se zadanou hodnotou klíče

Sekvenční vyhledávání Situace C (maximálně jeden záznam pro danou hodnotu klíče) Příklad: 5 záznamů Novák ABC... Kadlec ZDU… Adam REP.. Zounar ZJK.. Jonáš XYZ… K nenalezení autora Jonáše nutno 5 porovnání (obecně N) Průměrný počet porovnání na nalezení 1 záznamu: nelze určit, záleží na počtu hledání nevyskytujících se autorů Maximální počet porovnání na nalezení 1 záznamu: N (obecně) Aktualizace: bez problémů

Modifikované sekvenční vyhledávání - Právě jeden záznam pro danou hodnotu klíče Známe pravděpodobnosti požadavků na vyhledávání podle jednotlivých hodnot klíče

Modifikované sekvenční vyhledávání autor Novák Kadlec Jonáš Kovář Zounar Pravděpodobnost požadavku na vyhledání 0.2 0.04 0.4 0.06 0.3 Úsilí na vyhledání: 0.2 * 1 + 0.04 * 2 + 0.4 * 3 + 0.06 * 4 + 0.3 * 5 = 3.22 Po přerovnání autor Jonáš Zounar Novák Kovář Kadlec Pravděpodobnost požadavku na vyhledání 0.4 0.3 0.2 0.06 0.04 Úsilí na vyhledání: 0.4 * 1 + 0.3 * 2 + 0.2 * 3 + 0.06 * 4 + 0.04 * 5 = 2.04

Datové struktury a algoritmy pro vyhledávání informací Základní pojmy Sekvenční vyhledávání Binární vyhledávání Invertovaný soubor

Binární vyhledávání Příklad: Vyhledáváni osob podle rodných čísel – hledáme ženu s rodným číslem 736021/0054 I) Uspořádáme záznamy podle velikosti: (čísla nevidíme) 741212/0053 725612/7865 730930/0067 736021/0054 737214/0012

Binární vyhledávání Příklad: Vyhledáváni osob podle rodných čísel – hledáme ženu s rodným číslem 736021/0054 Princip řešení: I) Uspořádání do pole (např. vzestupně) podle rodných čísel II) Půlení intervalu: - Inicializace: interval := celé pole - Vyhledávanou hodnotu porovnáme s prostředním záznamem intervalu: = ... nalezeno, konec < ... dále hledáme v první polovině intervalu > ... dále hledáme ve druhé poloviné intervalu - Interval nelze rozpůlit: nenalezeno, konec

Binární vyhledávání Maximální počet potřebných porovnání: úměrný Log2(N+1) Aktualizace: Složitá, třeba zachovat uspořádání, viz doplňkovou literaturu.

Porovnání sekvenčního a binárního vyhledávání Předpoklady: - jeden záznam pro danou hodnotu klíče, - 1 operace = 1/1000 vteřiny. počet průměrný případ pro nejhorší případ pro záznamů sekvenční vyhledávání binární vyhledávání operací čas (vteřiny) operací čas (vteřiny) 31 16 0.016 5 0.005 119 60 0.060 7 0.007 1 999 1 000 1 11 0.011 9 999 5 000 5 14 0.014 999 999 500 000 500 20 0.020

Datové struktury a algoritmy pro vyhledávání informací Základní pojmy Sekvenční vyhledávání Binární vyhledávání Invertovaný soubor

Invertovaný soubor Invertovaný soubor: MZI II – kapitola 14 oprava: MZI II, str. 83: má být místo