Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

EMC deduplikace Data Domain a Avamar

Podobné prezentace


Prezentace na téma: "EMC deduplikace Data Domain a Avamar"— Transkript prezentace:

1 EMC deduplikace Data Domain a Avamar
Title Month Year EMC deduplikace Data Domain a Avamar Petr Rada Technický konzultant, EMC

2 Odhaduje se, že 40 exabajtů unikátních nových informací vzniklo loni na celém světě

3 To je více než za předchozích 5 000 let

4 Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009
Digitální Svět: 2009 Vznik nových informací: Jediný růstový koeficient, který není v době ekonomické krize negativní Digitální Svět zdvojnásobuje objem každých 18 měsíců About the only growth rate that hasn’t gone negative since the recession began is the creation of new digital information. People are still taking pictures, making phone calls, sending s, blogging, and putting up videos on YouTube. Enterprises are still capturing daily transaction records, adding to their data warehouses. Governments are still requiring more information be kept and protected, forcing the migration to digital TV, and taking surveillance photos of their citizens. In fact, since the economic crisis got hot and heavy in late 2008, IDC estimates that information passed over the Internet, phone networks, and airwaves actually picked up. The amount of information created in 2008 came in ahead of what IDC forecast last year by 16,000,000 gigabytes, or 3%. And the Digital Universe will continue to double every 18 months… What the IDC study demonstrates is that however fast the IT function runs, we find it more and more challenging to keep up with the growth of information. And for organizations that are already behind, the challenge is exponentially greater -- we're learning that the course is always steeper than it seems. What does the relentless growth of the Digital Universe mean to your organization? Note: The Digital Universe study measures the amount of all digital information, including copies, that is created and replicated in the world in a given year. It also provides a forecast of the growth of digital information through 2012. Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

5 Exploze Digitálního Vesmíru
2,502 Exabajty Exabajty 5 2,500 4 x DVD RFID Digital TV MP3 players Digital cameras Camera phones, VoIP Medical imaging, Laptops, Data center applications, Games Satellite images, GPS, ATMs, Scanners Sensors, Digital radio, DLP theaters, Telematics Peer-to-peer, , Instant messaging, Videoconferencing, CAD/CAM, Toys, Industrial machines, Security systems, Appliances nárůst za roky 2,000 1,500 1,000 The Digital Universe will grow from 487 Exabytes (487 billion gigabytes) in 2008 to 2,502 Exabytes (or 2.5 Zattabytes) in that’s a 5-fold growth in only four years. The implications are huge: Organizations that understand how fast the digital universe is expanding and manage their businesses accordingly will be the ones that can compete cost-effectively and win in the coming years. Note: Calculated at 487 billion gigabytes in size, the amount of information created in 2008 is the equivalent of more than: 237 billion fully-loaded Amazon Kindle wireless reading devices 4.8 quadrillion online bank transactions 3 quadrillion Twitter feeds 162 trillion digital photos 30 billion fully-loaded Apple iPod Touches 19 billion fully-loaded Blu-ray DVDs 486 Exabajtů 500 2008 2009 2010 2011 2012 Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

6 Digitální Svět – charakter dat
Úložiště podle typu dat (Petabajty) 50,000 Strukturovaná & Replikovaná 40,000 Nestrukturovaná 30,000 20,000 Another clear challenge for enterprise IT is the rapid growth in the amount of unstructured information which brings with new management requirements not associated with structured information. Note: Content Depot: Information stored by large Internet content sites like Flikr, YouTube, Hulu, iTunes, etc. 10,000 2005 2006 2007 2008 2009 2010 2011 2012 Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

7 Paradox zodpovědnosti
Digitální svět v roce 2012 Paradox zodpovědnosti 85% Organizace budou zodpovědné za zabezpečení, ochranu soukr. údajů, soulad s legislativou a předpisy, důvěryhodnost … Budgets and staff growth will be far behind not only the growth of digital information, but also the increased responsibilities of enterprise IT. While more than 70% of the information in the Digital Universe in 2012 will be created by individuals (consumers and information worker, organizations (businesses, government agencies, non-profits) will have responsibility or liability for 85% of the same information. 70% Bude vytvořeno jednotlivci Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009

8 Zálohování pod lupou palčivé výzvy zálohování
obrovský nárůst zálohovaných dat – primární data se zálohují 15-20x dodržení doby zálohy/obnovy (SLA) spotřeba energie, chlazení a zaplnění serverovny nákladný a nebezpečný transport pásek mimo datové centrum výzvy spojené s páskami spolehlivost manipulační náročnost mechanická poškození delší časy obnovy technologické upgrady narust dat rychlost obnovy truck transport do DR lokality ledovec

9 Zálohovací schéma = potřebná kapacita
Primární data 1x Záložní data 15x-20x dano zalohovacimi schematy – full backup/inkrementalni zalohy dano retencnimi schematy – tyden/mesic/mesice zalohovaci storage – vyvoj

10 Řešení? DEDUPLIKACE

11 Deduplikace. Je to zázrak?
Title Month Year Deduplikace. Je to zázrak? ...a potom nastane zázrak... Zákazník EMC konzultant Myslím, že by jste měl být více konkrétní zde, v kroku dva.

12 Hlavní typy deduplikace
Typy deduplikace dle různých kritérií SOUBOROVÁ SUB-SOUBOROVÁ FIXNÍ DÉLKA BLOKU VARIABILNÍ DÉLKA BLOKU POST-PROCES INLINE NA ZDROJI NA CÍLI

13 DEDUPLIKOVANÁ STORAGE
Storage 3.0 – další krok PRIMÁRNÍ PÁSKY Storage 1.0 PRIMÁRNÍ SATA & RAID PÁSKY Storage 2.0 proc i ve verzi 3 stale jeste paska? auditnich duvodu historicky mentalni duvody fyzicke premistovani Low upfront cost Tape can store the massive amount of redundant data created by backups Transportable for offsite DR dd architektura – protokoly apod. DEDUPLIKOVANÁ STORAGE Logická data Fyzická data Storage 3.0 PRIMÁRNÍ PÁSKY

14 Deduplikace mění zálohovací paradigma
Title Month Year Deduplikace mění zálohovací paradigma Data Domain Deduplikační storage Avamar Deduplikační zálohovací řešení Deduplikace bez nutnosti cokoliv měnit Nikdy nezálohuje stejná data dvakrát

15 Data Domain - profil společnosti
založena v roce 2001 vize deduplikované storage od samého začátku 900 zaměstnanců součást EMC BRS divize nejrychleji rostoucí storage společnost v roce 2004 u kolika zakazniku je DD pritomno (3600) kolik DD systemu je prodano celosvetove (9500) kolik kapacity je v techto boxech (16,5 exabajtu) kolik je celkove dedup ratio napric vsemi boxy (13,4x) – autosupport report

16 Data Domain - lídr v deduplikaci
Deduplikační storage systémy Data Domain první a nejvíce rozšířený deduplikační systém 9500 systémů instalováno celosvětově 3600 koncových uživatelů > 1650 petabajtů dat je bezpečně uloženo na Data Domain řešení čtvrté generace průměrný deduplikační poměr dosažený celosvětově - 13,4:1 co to znamena DD ratio 13,4x? dd ratio 2x = 50 % uspora kapacity dd ratio 5x = 80 % uspora kapacity dd ratio 10x = 90 % uspora kapacity dedup ratio vs uspora zalohovacich kapacit 2003 2004 2005 2006 2007 2008 2009 Dedupe NAS Dedupe Gateway Nejrychlejší Inline Kontroller Dedupe Replikace Největší dedupe pole Dedupe VTL Dedupe Nearline Storage

17 Deduplikační poměr aneb kolik kapacity ušetřím?
kapacita všech záloh uložených na zálohovací storage vůči kapacitě skutečně obsazené deduplikační poměr % ušetřené kapacity 2 : 1 50 % 5 : 1 80 % 10 : 1 90 % 13,4 : 1 92,5 % 15 : 1 93 % 20 : 1 95 % 25 : 1 96 % ušetřená kapacita v % = 100-(100/x), kde x=deduplikační poměr

18 Reálný zákazník: 20ti násobné snížení kapacity
DD560 180 TB uloženo 8 TB využité kapacity 20x redukce 5ti měsíční retence 6U v racku replikace mimo lokalitu červená linka = množství dat uložených v Data Domain (virtuální storage) zelená linka = obsazená kapacita (fyzická storage) modrá linka = kumulovaný deduplikační faktor

19 Data Domain storage systémy
zduraznit hranici mezi DD140-DD630 a DD660/DD690/DD880 ES20 expanzni police zminit DDX HW overview DD610-DD660 Series DD690 DD880 DD140 pro vzdálené pobočky DDX Array Series DD140 DD610 DD630 DD660 DD690 DD880 Rychlost (GB/hod.) 450 6751 1.1 TB/hr1 2 TB/hr2 2.7 TB/hr2 5.4 TB/hr2 Logická kap. (TB)* 17 75 165 520 710 1420 Hrubá kap. (TB) 1.5 6 12 36 48 96 Použitelná kap. (TB) .86 3.98 8.4 26.1 35.3 71 *Logická kapacita je počítána pro deduplikační poměr 20:1 1) maximální propustnosti bylo dosaženo VTL protokolem přes 4 Gbps FC porty 2) maximální propustnosti bylo dosaženo OST protokolem přes 10 Gb Ethernet porty

20 Data Domain architektura a nasazení
Ethernet NIC (1/10 GbE) FC HBA Použijte interface, který vám vyhovuje nebo oba zároveň CIFS NFS OST REPL VTL Použijte protokol, který vám vyhovuje nebo je zkombinujte inline dedup a post proces a DR CPU a Paměť Inline deduplikace, komprese a prefetching Datové kontajney uloženy v optimalizovaném dedikovaném filesystému DD OS a FileSystem disk disk disk disk disk disk Mohou být interní SATA nebo LUNy externí SAN storage

21 Infrastruktura a ekosystém s Data Domain
Data Domain Overview September 2009 Infrastruktura a ekosystém s Data Domain Záloha Archiv midrange a mainframe partneři VMware Microsoft Microsoft SharePoint Oracle SAP NAS, SAN, DAS Primární storage LaserVault Luminex Archivační aplikace Zálohovací aplikace EMC Symantec CommVault CA HP Vizioncore IBM Tivoli Atempo Bakbone Symantec CommVault F5 EMC Mimosa Disaster Recovery síť Replikace přes WAN File System / Ethernet VTL / Fibre Channel EMC Data Domain deduplikační storage 21

22 Data Domain deduplikace – DD OS
deduplikace na cíli - SATA disky s RAID6 ochranou sub-souborová deduplikace s variabilní délkou bloku - velikost segmentu 4 – 12 KB inline deduplikace - 99 % duplicitních segmentů je identifikováno v RAM CPU centric deduplikace - zvýšením výkonu procesoru se navyšuje rychlost deduplikace Global Compression Local Compression RAID File System Generate Checksum Verify Data Re-Checksum and Compare

23 Deduplikovaná replikace - minimalizuje nároky na přenosové linky
Lokalita A Lokalita B 200 GB 10 TB 10 TB Zdroj 200 GB zápisů Replika 200 GB zápisů Zálohovací Server A Zálohovací Server B 10 TB 10 TB 10 TB 10 TB 10 TB 10 TB 10 TB 10 TB 10 TB 10 TB jsou přenášeny pouze unikátní segmenty a metadata všechny zálohy jsou dostupné v obou lokalitách pro obnovu či jako kopie žádný management na denní bázi nebo transport pásek

24 Využití Data Domain deduplikované storage
funkční deduplikace snadná integrace se stávajícím zálohovacím sw deduplikovaná replikace do vzdálené lokality (DR) CPU centric deduplikace Lokální záloha ZÁLOHOVACÍ SERVERY nejen zalozni storage, ale i archiv a filesystem DEDUPLIKOVANÁ IP REPLIKACE ARCHIVAČNÍ SERVERY Disaster Recovery APLIKAČNÍ SERVERY

25 Někteří zákazníci s Data Domain
referencovatelnost zakazniku realisticky az stridmi pristup

26

27 AVAMAR VIRTUAL EDITION pro VMware
Title Month Year EMC Avamar AVAMAR SOFTWARE Zálohovací řešení s globální deduplikací na zdroji Možnost instalace na předepsané typy serverů redukuje velikost zálohy na zdroji, dříve než je přenesena po síti rychleji vytváří plné zálohy při využití stávající infrastruktury deduplikuje napříč servery a lokalitami a zmenšuje až 50x fyzickou velikost záložní storage ideální pro zálohování virtualizovaných prostředí, vzdálených poboček, serverů i uživatelských stanic/laptopů řeší problémy, na které konvenční zálohovací sw nestačí AVAMAR DATA STORE Zálohovací zařízení včetně software/hardware AVAMAR VIRTUAL EDITION pro VMware Avamar VM Operating System Avamar server implementovaný jako virtuální stroj

28 Avamar základní přehled
Title Month Year Avamar základní přehled Avamar je kompletní zálohovací software/hardware Každá záloha je logická plná záloha při Avamar záloze se přenáší mnohem méně dat než při inkrementální záloze nicméně se logicky jeví jako plná záloha a obnova je pouze jednokroková Redundant Array of Independent Nodes (RAIN) architektura každý node obsahuje interní disky a CPU zaručuje vysokou dostupnost a ochranu proti chybě napříč nody Gridová architektura zaručuje online škálovatelnost a výkonnost Avamar Server Parita napříč storage nody Verifikované checkpointy Utility a spare node 28

29 Zálohovací cyklus: Sticky-byte Factoring
První záloha: data jsou rozdělena na segmenty s proměnnou délkou Sticky Byte Factoring Algorithm 18K 10K 25K 22K 8K Následující záloha beze změn v souboru: segmenty jsou rozděleny identicky jako při předešlé záloze Sticky Byte Factoring Algorithm 18K 10K 25K 22K 8K Sticky-byte Factoring is Avamar’s patented variation of data de-duplication. The client separates raw data into segments or objects that vary in size between 1 byte and 64K bytes. Data segments average 24KB in size. Sticky-byte factoring will always produce the same segment results as long as the data has not changed. Where there is a change of data since the previous snapup, it locates where the data has been changed and quickly re-synchronizes the data chunking process to match data segments created during the previous snapup. Další záloha po změně v souboru: velice rychle jsou segmenty v synchronizaci s předešlými Sticky Byte Factoring Algorithm 20K 8K 25K 22K 8K

30 Zálohovací cyklus: komprimace
Komprimuje segmenty v rozsahu 30 až 70 %. Průměrná velikost segmentu po kompresi je ~12KB. Sticky Byte Factoring Algorithm 20K 8K 25K 22K 8K Immediately following sticky-byte factoring is a Compression cycle that compresses the segments created during sticky-byte factoring in the range of 30 to 50% of their original size. This is accomplished with a compression algorithm that is optimized for speed. Average segment size after compression is between 12 KB and 16 KB. Compression 12K 4K 15K 13K 4K

31 Zálohovací cyklus: SHA-1Hashing
používá SHA-1 secure hash algoritmus vytváří 20-bytový datový řetězec z komprimovaných datových segmentů Sticky Byte Factoring Algorithm 20K 8K 25K 22K 8K Compression 12K 12K 4K 4K 15K 15K 13K 13K 4K 4K Hashing is the process of creating a short fixed-length data string from a large block of data. During the hashing cycle, data segments are input to the SHA-1 hashing algorithm. SHA-1 processes the data and creates a unique 20-byte (160-bit) data string called a hash. The hash is then used to identify the data segment. The hash created from each data object is called an Atomic Hash. Note: The original data segment remains intact. It is used to create the hash, but it is not converted into the hash. After the hashing process, both the data segment and the hash exist. Hashing 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash atomic hashes

32 Zálohovací cyklus: Hash File System
Atomics (Data segments) 12K 4K 15K 13K 4K Atomic Hashes 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash 20-byte hash Composite Hashes 20-byte hash 20-byte hash 20-byte hash Atomic Hashes are combined to create Composite Hashes. This continues until a single Root Hash for the Snapup is created. 20-byte hash 20-byte hash 20-byte hash Root Hash

33 Množství primárních dat Množství přenesených dat
Title Month Year Dosahované deduplikační poměry Typ dat Množství primárních dat Množství přenesených dat Dedup. poměr na “cíli” Windows file systémy 3,573 GB 6.1 GB (586:1) 45:1 Mix Windows, Linux a UNIX file systémů 5,097 GB 11.7 GB 40:1 Engineering soubory na NAS zařízeních (NDMP zálohy) 3,265 GB 24.2 GB 21:1 Mix 20 % databáze a 80 % souborové systémy (Windows a UNIX) 9,583 GB 80.0 GB 19:1 Mix Linuxových file systémů a databází 7,831 GB 104.2 GB 14:1 Here are real world numbers—massive benefits of de-duplication—especially across the network 90 denní retence 33

34 Avamar – záloha VMDK souboru
s Windows XP o velikosti 33,7 GB Popis zálohy % nových dat inkrement zálohovaných dat inkrement v rámci VM První záloha 60.60% 20.42 GB Druhá záloha beze změny souboru VMDK 0.00% 0.00 MB Třetí záloha po spuštění a ukončení činnosti s VM <0,05% 17.25 MB Čtvrtá záloha - změněny dva PPT soubory o velikosti 10 MB celkem v rámci VM 10 MB Pátá záloha - nakopírován soubor 356 MB a nainstalován sw o velikosti 354 MB do VM 2.50% 863 MB 710 MB

35 Avamar – různé způsoby nasazení
Title Month Year Avamar – různé způsoby nasazení Větší pobočka Menší pobočka (ENCRYPTED) Primární systémy (ENCRYPTED) Pouze Avamar agenti na primárních systémech Avamar Single Node Data centrum Záložní lokalita WAN Primární systémy (ENCRYPTED) Primární systémy (ENCRYPTED) Avamar Data Store Tape Vault Avamar Software Agent Avamar Data Store

36 Avamar optimalizuje zálohování VMware
Title Month Year Avamar optimalizuje zálohování VMware až 95% redukce přenesených dat až 90% zkrácení zálohovacích časů až 50% snížení zátěže na zdrojových discích až 95% redukce využití NIC až 80% redukce zatížení CPU až 50% snížení využití paměti všechny zálohy jsou uchovávány jako „virtuální plné zálohy“ a jdou okamžitě obnovit Tradičně se přenáší ~200% týdně x86 Architecture VMware Virtualization Layer Application Operating System Disk NIC Memory CPU Avamar přenáší ~2% týdně x86 Architecture VMware Virtualization Layer App OS Disk NIC Memory CPU

37 Tradiční zálohování vs Avamar - při zátěži
Avamar dovoluje regulovat vytížení CPU per klient pro zákazníky, kteří jsou citliví na CPU utilizaci

38 Avamar deduplikovaná replikace pro DR
Title Month Year Avamar deduplikovaná replikace pro DR Bez deduplikace nulová redukce kapacity v data centru nezkrácená délka replikace a vysoké zatížení sítě vysoké nároky na kapacitu i ve vzdálené lokalitě S využitím deduplikace redukované požadavky na kapacitu v primárním data centru zkrácení délky replikace a nároků na síť snížené nároky na kapacitu v cílové pobočce Vzdálená replikace bez deduplikace Replikace po deduplikaci Backup de-duplication Primární lokalita Vzdálená lokalita Primární lokalita Vzdálená lokalita

39 Deduplikace na zdroji vs na cíli
Title Month Year Deduplikace na zdroji vs na cíli Obě technologie mají své opodstatnění, nicméně pouze deduplikace na zdroji pomáhá redukovat zatížení sítě a snižuje zatížení zdrojů v průběhu zálohování. DEDUPLIKACE NA CÍLI DEDUPLIKACE NA ZDROJI Přenáší týdně ~ 200 procent primárních dat Až 50x menší úložný prostor pro zálohy Obnova tradičně probíhá z inkrementálních a plných záloh Přenáší týdně ~ 2 procenta primárních dat Až 50x menší úložný prostor pro zálohy Až 500x menší zatížení sítě Až 10x rychlejší denní plné zálohy Všechny zálohy jsou plné zálohy; okamžitá obnova v jednom kroku síť síť

40 Licencování Data Domain a Avamar
Title Month Year Licencování Data Domain a Avamar Data Domain Avamar dle modelu a využitelné kapacity žádné tirované licence dle kapacity licence na celý box pro replikace retenční zámek pro archivní data zprovoznění OpenStorage protokolu zprovoznění VTL protokolu pouze podle využitelné fyzické kapacity neplatí se za: klienty – servery/desktopy aplikační moduly apod.

41 Deduplikace mění zálohovací paradigma
Title Month Year Deduplikace mění zálohovací paradigma Data Domain Deduplikační storage Avamar Deduplikační zálohovací řešení Deduplikace bez nutnosti cokoliv měnit Nikdy nezálohuje stejná data dvakrát

42 Title Month Year


Stáhnout ppt "EMC deduplikace Data Domain a Avamar"

Podobné prezentace


Reklamy Google