Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Dotazy na částečnou shodu v hašovacích schematech Předpokládá se adresový prostor o velikosti 2 d Pro každý atribut A i je k dispozici hašovací funkce.

Podobné prezentace


Prezentace na téma: "Dotazy na částečnou shodu v hašovacích schematech Předpokládá se adresový prostor o velikosti 2 d Pro každý atribut A i je k dispozici hašovací funkce."— Transkript prezentace:

1 Dotazy na částečnou shodu v hašovacích schematech Předpokládá se adresový prostor o velikosti 2 d Pro každý atribut A i je k dispozici hašovací funkce do d i bitů,  i=1,..,n d i = d V dotazech jsou bity atributů s nespecifikovanou hodnotou nahrazeny ´?´ Je-li k počet ?-bitů, pak dotaz pak stojí 2 k  více

2 Částečná shoda v hašovacích schematech – cena dotazu Pravděpodobnosti dotazů na jednotlivé atributy jsou P i,  P i = 1 Dotaz může být zadán jako podmnožina atributů q  {1,..,n} P q pravděpodobnost dotazu q Průměrná cena dotazu:  q  Q (P q *  i  q 2 d i )

3 Částečná shoda v hašovacích schematech - rozvržení 1.d i = (d -  j=1,..,n log P j )/n + log 2 P i 2.d i < 0: polož d i = 0, eliminuj A i, zpět na 1. 3.d i > d: polož d i = d, ostatní d j = 0 Nevyjdou-li d i celá, zaokrouhlíme je tak, aby součet byl d.

4 Částečná shoda v hašovacích schematech – upravené rozvržení 1.d i = (d -  j=1,..,n log 2 P j )/n + log 2 P i 2.d i < 0: polož d i = 0, eliminuj A i, zpět na 1. 3.d i > d: polož d i = d, ostatní d j = 0 4.d i >  log 2 |A i |  : polož d i =  log 2 |A i | , eliminuj A i, polož d := d - d i, přepočítej pravděpodobnosti a začni opět od 1. Nevyjdou-li d i celá, zaokrouhlíme je tak, aby součet byl d.

5 Deskriptory stránek Ke každému záznamu je vytvořena w- bitový deskriptor záznamu. Každému atributu A i odpovídá úsek deskriptoru w i tak, aby  i=1..n w i = w. Ze všech deskriptorů záznamů v každé stránce se pomocí OR vytvoří deskriptory stránek.

6 Deskriptory stránek - dotaz K dotazu se vytvoří deskriptor dotazu podobně, jako se postupovalo při konstrukci deskriptorů záznamů; kde není hodnota atributu známa, doplní se nulami. Prochází se deskriptory stránek: tam, kde je v dotazu ´1´ a v deskriptoru stránky ´0´, nemá smysl ve stránce hledat.

7 Deskriptory stránek - tvorba Pro každý atribut nastavíme pevný počet bitů (k) Vrstvení deskriptorů pomocí OR dává naději vybrat i záznamy, které dotazu nevyhovují; můžeme si předem určit, jak velká část to bude (F) k = (1/ln 2).ln(1/F) w = (1/ln 2) 2.n.ln(1/F)

8 Deskriptory stránek - optimalizace Pro velké soubory deskriptorů stránek je možné vytvořit další úroveň, kdy se z deskriptorů stránek dělají deskriptory segmentů (větších částí souboru) – opět pomocí OR Technika blízká signaturovým metodám pro hledání v kolekcích textů, je tedy možné použít i obdobná vylepšení.

9 Grayovy kódy Binární kódy, kde po sobě jdoucí hodnoty se liší vždy pouze v jediném bitu. dekadickýGrayůvbinárnídekadickýGrayůvbinární 00000 811001000 10001 911011001 2001100101011111010 3001000111111101011 4011001001210101100 5011101011310111101 6010101101410011110 7010001111510001111

10 Grayovy kódy (2) Při použití Grayových kódů v kombinaci s dotazy na částečnou shodu v hašovacích schematech je počet shluků dat ke čtení vždy nejvýše takový jako při běžném binárním kódování Počet shluků se pohybuje mezi 50% a 100%

11 RAID Redundant Array of Inexpensive Disks Slouží k zvýšení kapacity, rychlosti nebo bezpečnosti disků. Navenek se chová jako jediná disková jednotka s pozměněnými vlastnostmi. Existuje celá řada různých uspořádání, každé z nich vhodné pro jinou aplikaci.

12 RAID 0 - schema

13 RAID 0 - Stripping Data rozložena na více disků Není to klasický RAID – nedochází k redundanci Při výpadku jediného disku můžeme přijít o veškerá data Zvyšuje výkon jak pro čtení, tak pro zápis

14 RAID 1 A B C A B C

15 RAID 1 - Mirroring Disky instalovány ve dvojicích Vždy se zapisuje na oba disky v páru Čtení se realizuje tam, kde to jde rychleji Při výpadku jediného disku jej stačí vyměnit a nakopírovat na něj data z jeho partnera Může „přežít“ i výpadek až n disků z 2n – za předpokladu, že z každé dvojice vypadne nejvýše jeden.

16 RAID 0+1, RAID 10 Kombinace principů RAID 0 a 1 pro 4 disky Disky je nutné dávat v sudém počtu 0+1: stripe + mirror … levné souborové servery 10: mirror + stripe … databáze Toto chování odpovídá již samotnému RAID 1 pro více než 2 disky Podpora již u levných a jednoduchých řadičů (0,1,0+1)

17 RAID 3 Jeden z disků je vyhrazen na paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku – data je možné dopočítat Pracuje po bitech – disky musí být synchronizovány

18 RAID 4 Data jsou zapisována po blocích na jednotlivé disky Jeden z disků je vyhrazen na paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku – data je možné dopočítat Úzkým hrdlem je paritní disk – pomalý zápis

19 RAID 5 Parita zapisována postupně na různé disky Použitelné od 3 disků výše Rozumný kompromis mezi bezpečností dat, kapacitou a výkonem Vyžaduje složitější elektroniku (bývá na řadičích s procesorem a větší pamětí)

20 RAID 6 Odolné proti výpadku až 2 disků Zvýšená redundance Menší využití kapacity Potřebuje složitější řadič Vhodné pro mission-critical aplikace

21 Systémy výměnných disků Zařízení umožňující bezobslužný přístup k více CD nebo DVD diskům Někdy včetně podpory zápisu Několik různých forem: –Mechanika na více CD –Stojan s mnoha mechanikami po jednom CD –Mechanika s přídavným zařízením na výměnu CD (jukebox)

22 Parametry jukeboxu Až stovky CD/DVD (tj. až cca 5,5TB) Může obsahovat i více mechanik Doba výměny disků 2,5-10s Někdy i možnost otáčet média (u oboustranných)

23 Magnetická páska Několik různých systémů lišících se výrazně svými parametry A –Kapacita 20/40/60 GB –Zálohování 43,2 GB/hod –Hledání 60s B –Kapacita 160 GB –Rychlost čtení/zápisu 16 MB/s

24 Páskové výměnné systémy Obdobně jako u CD/DVD existují i bezobslužné systémy s jednou či několika málo mechanikami a mnoha páskami Kapacity až desítky TB

25 Bezpečnost dat RAID bývá bezpečnější než samotné disky (s výjimkou RAID 0), ale i zde může dojít ke ztrátám dat  je třeba zálohovat, případně využívat další typy pamětí (diskové a páskové jukeboxy) Kritické systémy i jejich záložní kopie je dobré mít umístěné na dostatečně vzdálených a různých místech (požáry, povodně)


Stáhnout ppt "Dotazy na částečnou shodu v hašovacích schematech Předpokládá se adresový prostor o velikosti 2 d Pro každý atribut A i je k dispozici hašovací funkce."

Podobné prezentace


Reklamy Google