Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství.

Podobné prezentace


Prezentace na téma: "Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."— Transkript prezentace:

1 Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

2 2 Literatura: Rauch, J.: Metody zpracování informací II, kapitoly 13, 14 KUČERA, L.: Kombinatorické algoritmy. Praha, SNTL 1983, 280 str. SALTON, G. - McGILL, M.: Introduction to Modern Information Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s. Datové struktury a algoritmy pro vyhledávání informací

3 3  Základní pojmy  Sekvenční vyhledávání  Binární vyhledávání  Invertovaný soubor Datové struktury a algoritmy pro vyhledávání informací

4 4  záznam (bibliografický záznam)  pole  klíč je pole, podle jehož hodnoty vyhledáváme Novák Vyhledávání informací GRADA 2000 počítač, tezaurus, knihovna Kadlec Historie počítačů PASEKA 1999 počítač, historie, DOS Zounar Informační služby UK 2001 počítač, tezaurus, knihovna ……. Základní pojmy

5 5 Hodnocení algoritmů : - typická operace (např. porovnání klíčů) - maximální počet typických operací - průměrný počet typických operací - složitost aktualizace potřebných datových struktur - … viz literatura … Základní pojmy

6 6  Základní pojmy  Sekvenční vyhledávání  Binární vyhledávání  Invertovaný soubor Datové struktury a algoritmy pro vyhledávání informací

7 7 Situace A: - neuspořádaný seznam N záznamů (Autor - Název - Deskriptory obsahu), - může být více záznamů s jednou hodnotou klíče (např. více záznamů s jedním autorem) Úloha: Nalézt všechny záznamy se zadanou hodnotou daného klíče (např. všechny knihy, jejichž autorem je Novák) Sekvenční vyhledávání

8 8 Situace A (může být více záznamů s jednou hodnotou klíče) Příklad: N záznamů … - Počet potřebných porovnání: N - Aktualizace: bez problémů Novák ABC... Kadlec ZDU… Adam REP.. Novák XYZ… Zounar ZJK.. Sekvenční vyhledávání

9 9 Situace B: - neuspořádaný seznam záznamů - právě jeden záznam pro danou hodnotu klíče (slovník autorů) Úloha: Nalézt záznam se zadanou hodnotou klíče Sekvenční vyhledávání

10 10 Situace B (právě jeden záznam pro danou hodnotu klíče) Příklad: N záznamů Novák ABC... Kadlec ZDU… Adam REP.. Jonáš XYZ… Zounar ZJK.. … Po nalezení záznamu lze skončit! Počet porovnání pro nalezení N záznamů: … + N = N*(N + 1) / 2 Průměrný počet porovnání na nalezení 1 záznamu: (N + 1) / 2 Aktualizace: bez problémů Sekvenční vyhledávání

11 11 Situace C: - neuspořádaný seznam záznamů - maximálně jeden záznam pro danou hodnotu klíče („neúplný slovník autorů“) Úloha: Nalézt záznam se zadanou hodnotou klíče Sekvenční vyhledávání

12 12 Situace C (maximálně jeden záznam pro danou hodnotu klíče) Příklad: 5 záznamů Novák ABC... Kadlec ZDU… Adam REP.. Jonáš XYZ… Zounar ZJK.. K nenalezení autora Jonáše nutno 5 porovnání (obecně N) Průměrný počet porovnání na nalezení 1 záznamu: nelze určit, záleží na počtu hledání nevyskytujících se autorů Maximální počet porovnání na nalezení 1 záznamu: N (obecně) Aktualizace: bez problémů Sekvenční vyhledávání

13 13 - Právě jeden záznam pro danou hodnotu klíče - Známe pravděpodobnosti požadavků na vyhledávání podle jednotlivých hodnot klíče Modifikované sekvenční vyhledávání

14 14 autor NovákKadlecJonášKovářZounar Pravděpodobnost požadavku na vyhledání Úsilí na vyhledání: 0.2 * * * * * 5 = 3.22 autor JonášZouna r Nová k KovářKadlec Pravděpodobnost požadavku na vyhledání Úsilí na vyhledání: 0.4 * * * * * 5 = 2.04 Po přerovnání Modifikované sekvenční vyhledávání

15 15  Základní pojmy  Sekvenční vyhledávání  Binární vyhledávání  Invertovaný soubor Datové struktury a algoritmy pro vyhledávání informací

16 16 Příklad: Vyhledáváni osob podle rodných čísel – hledáme ženu s rodným číslem /0054 I) Uspořádáme záznamy podle velikosti: (čísla nevidíme) Binární vyhledávání / / / / /0054

17 17 Příklad: Vyhledáváni osob podle rodných čísel – hledáme ženu s rodným číslem /0054 Princip řešení: I) Uspořádání do pole (např. vzestupně) podle rodných čísel II) Půlení intervalu: - Inicializace: interval := celé pole - Vyhledávanou hodnotu porovnáme s prostředním záznamem intervalu: =... nalezeno, konec <... dále hledáme v první polovině intervalu >... dále hledáme ve druhé poloviné intervalu - Interval nelze rozpůlit: nenalezeno, konec Binární vyhledávání

18 18 Maximální počet potřebných porovnání: úměrný Log 2 (N+1) Aktualizace: Složitá, třeba zachovat uspořádání, viz doplňkovou literaturu. Binární vyhledávání

19 19 Předpoklady: - jeden záznam pro danou hodnotu klíče, - 1 operace = 1/1000 vteřiny. počet průměrný případ pro nejhorší případ pro záznamů sekvenční vyhledávání binární vyhledávání operací čas (vteřiny) operací čas (vteřiny) Porovnání sekvenčního a binárního vyhledávání

20 20  Základní pojmy  Sekvenční vyhledávání  Binární vyhledávání  Invertovaný soubor Datové struktury a algoritmy pro vyhledávání informací

21 21 Invertovaný soubor: MZI II – kapitola 14 oprava: MZI II, str. 83: má být místo Invertovaný soubor


Stáhnout ppt "Zpracování informací a znalostí Datové struktury a algoritmy pro vyhledávání informací Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství."

Podobné prezentace


Reklamy Google