Dotazy na částečnou shodu v hašovacích schematech Předpokládá se adresový prostor o velikosti 2 d Pro každý atribut A i je k dispozici hašovací funkce do d i bitů, i=1,..,n d i = d V dotazech jsou bity atributů s nespecifikovanou hodnotou nahrazeny ´?´ Je-li k počet ?-bitů, pak dotaz pak stojí 2 k více
Částečná shoda v hašovacích schematech – cena dotazu Pravděpodobnosti dotazů na jednotlivé atributy jsou P i, P i = 1 Dotaz může být zadán jako podmnožina atributů q {1,..,n} P q pravděpodobnost dotazu q Průměrná cena dotazu: q Q (P q * i q 2 d i )
Částečná shoda v hašovacích schematech - rozvržení 1.d i = (d - j=1,..,n log P j )/n + log 2 P i 2.d i < 0: polož d i = 0, eliminuj A i, zpět na 1. 3.d i > d: polož d i = d, ostatní d j = 0 Nevyjdou-li d i celá, zaokrouhlíme je tak, aby součet byl d.
Částečná shoda v hašovacích schematech – upravené rozvržení 1.d i = (d - j=1,..,n log 2 P j )/n + log 2 P i 2.d i < 0: polož d i = 0, eliminuj A i, zpět na 1. 3.d i > d: polož d i = d, ostatní d j = 0 4.d i > log 2 |A i | : polož d i = log 2 |A i | , eliminuj A i, polož d := d - d i, přepočítej pravděpodobnosti a začni opět od 1. Nevyjdou-li d i celá, zaokrouhlíme je tak, aby součet byl d.
Deskriptory stránek Ke každému záznamu je vytvořena w- bitový deskriptor záznamu. Každému atributu A i odpovídá úsek deskriptoru w i tak, aby i=1..n w i = w. Ze všech deskriptorů záznamů v každé stránce se pomocí OR vytvoří deskriptory stránek.
Deskriptory stránek - dotaz K dotazu se vytvoří deskriptor dotazu podobně, jako se postupovalo při konstrukci deskriptorů záznamů; kde není hodnota atributu známa, doplní se nulami. Prochází se deskriptory stránek: tam, kde je v dotazu ´1´ a v deskriptoru stránky ´0´, nemá smysl ve stránce hledat.
Deskriptory stránek - tvorba Pro každý atribut nastavíme pevný počet bitů (k) Vrstvení deskriptorů pomocí OR dává naději vybrat i záznamy, které dotazu nevyhovují; můžeme si předem určit, jak velká část to bude (F) k = (1/ln 2).ln(1/F) w = (1/ln 2) 2.n.ln(1/F)
Deskriptory stránek - optimalizace Pro velké soubory deskriptorů stránek je možné vytvořit další úroveň, kdy se z deskriptorů stránek dělají deskriptory segmentů (větších částí souboru) – opět pomocí OR Technika blízká signaturovým metodám pro hledání v kolekcích textů, je tedy možné použít i obdobná vylepšení.
Grayovy kódy Binární kódy, kde po sobě jdoucí hodnoty se liší vždy pouze v jediném bitu. dekadickýGrayůvbinárnídekadickýGrayůvbinární
Grayovy kódy (2) Při použití Grayových kódů v kombinaci s dotazy na částečnou shodu v hašovacích schematech je počet shluků dat ke čtení vždy nejvýše takový jako při běžném binárním kódování Počet shluků se pohybuje mezi 50% a 100%
RAID Redundant Array of Inexpensive Disks Slouží k zvýšení kapacity, rychlosti nebo bezpečnosti disků. Navenek se chová jako jediná disková jednotka s pozměněnými vlastnostmi. Existuje celá řada různých uspořádání, každé z nich vhodné pro jinou aplikaci.
RAID 0 - schema
RAID 0 - Stripping Data rozložena na více disků Není to klasický RAID – nedochází k redundanci Při výpadku jediného disku můžeme přijít o veškerá data Zvyšuje výkon jak pro čtení, tak pro zápis
RAID 1 A B C A B C
RAID 1 - Mirroring Disky instalovány ve dvojicích Vždy se zapisuje na oba disky v páru Čtení se realizuje tam, kde to jde rychleji Při výpadku jediného disku jej stačí vyměnit a nakopírovat na něj data z jeho partnera Může „přežít“ i výpadek až n disků z 2n – za předpokladu, že z každé dvojice vypadne nejvýše jeden.
RAID 0+1, RAID 10 Kombinace principů RAID 0 a 1 pro 4 disky Disky je nutné dávat v sudém počtu 0+1: stripe + mirror … levné souborové servery 10: mirror + stripe … databáze Toto chování odpovídá již samotnému RAID 1 pro více než 2 disky Podpora již u levných a jednoduchých řadičů (0,1,0+1)
RAID 3 Jeden z disků je vyhrazen na paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku – data je možné dopočítat Pracuje po bitech – disky musí být synchronizovány
RAID 4 Data jsou zapisována po blocích na jednotlivé disky Jeden z disků je vyhrazen na paritu Rychlé I/O pro sekvenční data Neumí zároveň číst i zapisovat Systém je odolný proti selhání jednoho disku – data je možné dopočítat Úzkým hrdlem je paritní disk – pomalý zápis
RAID 5 Parita zapisována postupně na různé disky Použitelné od 3 disků výše Rozumný kompromis mezi bezpečností dat, kapacitou a výkonem Vyžaduje složitější elektroniku (bývá na řadičích s procesorem a větší pamětí)
RAID 6 Odolné proti výpadku až 2 disků Zvýšená redundance Menší využití kapacity Potřebuje složitější řadič Vhodné pro mission-critical aplikace
Systémy výměnných disků Zařízení umožňující bezobslužný přístup k více CD nebo DVD diskům Někdy včetně podpory zápisu Několik různých forem: –Mechanika na více CD –Stojan s mnoha mechanikami po jednom CD –Mechanika s přídavným zařízením na výměnu CD (jukebox)
Parametry jukeboxu Až stovky CD/DVD (tj. až cca 5,5TB) Může obsahovat i více mechanik Doba výměny disků 2,5-10s Někdy i možnost otáčet média (u oboustranných)
Magnetická páska Několik různých systémů lišících se výrazně svými parametry A –Kapacita 20/40/60 GB –Zálohování 43,2 GB/hod –Hledání 60s B –Kapacita 160 GB –Rychlost čtení/zápisu 16 MB/s
Páskové výměnné systémy Obdobně jako u CD/DVD existují i bezobslužné systémy s jednou či několika málo mechanikami a mnoha páskami Kapacity až desítky TB
Bezpečnost dat RAID bývá bezpečnější než samotné disky (s výjimkou RAID 0), ale i zde může dojít ke ztrátám dat je třeba zálohovat, případně využívat další typy pamětí (diskové a páskové jukeboxy) Kritické systémy i jejich záložní kopie je dobré mít umístěné na dostatečně vzdálených a různých místech (požáry, povodně)