Netezza – to pravé řešení pro analytický datový sklad – technický pohled na řešení Martin Pavlík 23. Listopadu 2011.

Slides:



Advertisements
Podobné prezentace
Skupenské přeměny látek
Advertisements

Aplikační a programové vybavení
Tomáš Prejzek ZŠ T. Stolzové Kostelec nad Labem Prosinec 2012
Zpracování SQL Lubomír Andrle 5. přednáška
Robert Havránek Microsoft
Aplikační a programové vybavení
Jazyk SQL Ing. Zdena DOBEŠOVÁ. SQL Structured Query Language 1974 SEQUEL (Structured English Query Language) neprocedurální relační dotazovací jazyk norma.
Databáze.
Business intelligence
Rozdělení registrů.
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
DB1 – 9. cvičení Optimalizace dotazu Konkurenční přístup a deadlock Indexace Transakce.
Fakulta elektrotechniky a informatiky
SQL Structured Query Language
Informatika pro ekonomy II přednáška 11
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Netezza – to pravé řešení pro Vaše náročné analytické potřeby Martin Pavlík 14. Června 2011.
Architektura databáze Oracle
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
KIV/ZI cvičení 11 Tomáš Potužák. Procvičení funkcí I Příklad 1 – Do buňky E3 zapíšeme vzorec =C3*$C3+C$3 a zkopírujeme ho do buněk E2, D3 a D2. Co bude.
KIV/ZI cvičení 8 Tomáš Potužák.
1IT Relační datový model
MySQL - Vytvoření nové tabulky  create table jméno_tabulky (jméno_položky typ_položky,... ) Přehled nejběžnějších datových typů Přehled nejběžnějších.
Vnější paměť Ukládání dat pouze do operační paměti by při práci s počítačem nestačilo. Pro uchování vytvořených dat mají počítače ještě další, tzv. diskové.
Databázové systémy Mgr. Lenka Švancarová. Úvod Doposud jsme uvažovali jen o modelu databázového systému, kde jsou veškerá data a systém řízení báze dat.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
ROVINNÉ ŘEZY MNOHOSTĚNŮ
Architektura databází Ing. Dagmar Vítková. Centrální architektura V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická.
Základy informatiky část 5. 5 Databáze Databáze – historie Nejprve děrné štítky Hollerith – sčítání lidu USA Univac Zdroj: Wikipedia.
Netezza – to pravé řešení pro analytický datový sklad Martin Pavlík 23. Listopadu 2011.
Relační databáze.
Základy informatiky část 5
Databázové systémy. Práce s daty Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace.
KIV/ZIS cvičení 6 Tomáš Potužák. Pokračování SQL Klauzule GROUP BY a dotazy nad více tabulkami Stáhnout soubor studenti_dotazy_sql.mdb.
Bezpečnost IS David Krch Solutions Specialist IS Technolog. Fyzická Osobní Organizační Komplexní pohled na bezpečnost Technolog. IS.
Informatika pro ekonomy II přednáška 10
Databázové systémy I Cvičení č. 6 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2013.
Databázové systémy Přednáška č. 6.
SQL – základní pojmy Ing. Roman Danel, Ph.D.
Rozdělení registrů.
Číslo šablony: III/2 VY_32_INOVACE_P4_3.8 Tematická oblast: Aplikační software pro práci s informacemi II. Databáze – základy SQL Typ: DUM - kombinovaný.
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Informatika II PAA DOTAZOVACÍ JAZYKY
Aplikační a programové vybavení
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_01B13 Autor Ing. Jiří Kalousek Období vytvoření březen.
Databázové systémy 2 Cvičení č. 5 Fakulta elektrotechniky a informatiky Univerzita Pardubice.
Databázové systémy SQL Výběr dat.
Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou I NFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE Ing. Jan Roubíček.
Double – Take Availability CREDE EXPERTO s.r.o. Michal Hendrich.
Data Warehousing Růst obratu: $10 miliard v 1999
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Administrace Oracle Paralelní zpracování.
SQL Server 2008 SKUs -All prices are ‘Open’ rounded up -Workgroup ~$140/CAL *Require a CAL to connect to paid SKUs **Free download with MSDN subscription.
Velké databáze High Performance Databases Miroslav Křipač Vývojový tým IS MU Služby počítačových sítí,
Accelerating Your Success TM IBM Tivoli NEWS Petr Klabeneš
Diskový oddíl. Diskové oddíly (partition) slouží k rozdělení fyzického disku na logické oddíly, se kterými je možné nezávisle manipulovat jeden disk se.
Databázové systémy přednáška 5 – Přístup na data
Financováno z ESF a státního rozpočtu ČR.
Vlastnosti souborů Jaroslava Černá.
Ing. Athanasios Podaras, Ph.D 2016
Databázové systémy I Přednáška 11 Databázové systémy 1 – KIT/IDAS1
Identity management v UIS
Dokumentový server Bc. Filip Matuška
Databázová aplikace 1 Aplikace soubory se sekvenčním přístupem
Informatika pro ekonomy přednáška 8
Optimalizace SQL dotazů
Správa disků
Přednáška 7 SQL – JOIN.
Transkript prezentace:

Netezza – to pravé řešení pro analytický datový sklad – technický pohled na řešení Martin Pavlík 23. Listopadu 2011

MPP architektura – Koncept “Shared Nothing” – Rozdělení práce na několik menších úloh Velká úloha je rozdělena vertikálně do série menších úloh Menší úlohy běží paralelně / naprosto nezávisle Pro každou menší úlohu je přiděleno stejné množství fyzických zdrojů Komunikace mezi jednotlivými úlohami je jen na začátku a konci Přínosy – Obrovské úlohy jsou vykonány ve významně kratším čase – Maximální využitelnost zdrojů Masivní paralelní architektura “Rozděl a panuj”

Massively Parallel Intelligent Storage  Network Fabric SMP Host Front End Netezza TwinFin Appliance High-Speed Loader/Unloader ODBC 3.X JDBC Type 4 OLE-DB SQL/92 Execution Engine SQL Compiler Query Plan Optimize Admin Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS TRU64 High-Performance Database Engine Streaming joins, aggregations, sorts S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic

High-Performance Database Engine Streaming joins, aggregations, sorts S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic Execution Engine Massively Parallel Intelligent Storage  Network Fabric SMP Host Front End Netezza TwinFin Appliance High-Speed Loader/Unloader SQL Compiler Query Plan Optimize Admin SQL Snippets SQL Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS TRU64

Zpracování toku dat jednotkou S-Blade Jádro (Core) FPGAJádro CPU Dekomprese dat Projekce Selekce, Autorizace Komplexní ∑ Joiny, Aggr, atd. Datová Cache Select sex, age, count(*) From MultiBillionRowTable Where BirthDate < ’01/01/1967’ And PostCode like ’SW%’ Group by sex, age; Každý S-Blade obsahuje 8 n-tic s vlastním: Diskem Datovou cache Jádrem FPGA jednotky Jádrem CPU

High-Performance Database Engine Streaming joins, aggregations, sorts, etc. S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic S-Blade Processor & streaming DB logic Asymmetric Massively Parallel Processing™ Massively Parallel Intelligent Storage  Network Fabric SMP Host Front End Netezza TwinFin Appliance High-Speed Loader/Unloader SQL Compiler Query Plan Optimize Admin Consolidate Execution Engine ODBC 3.X JDBC Type 4 OLE-DB SQL/92 Source Systems Client High Performance Loader 3rd Party Apps DBA CLI ETL Server SOLARIS LINUX HP-UX AIX WINDOWS TRU64

Specifikace IBM Netezza Kapacita (uživatelská data):128 TB Scan rate:144 TB/h Load Speed: 0.5 TB/h Počítáme s kompresním poměrem 1:4

S-Blade / SPU / Snippet Processing Unit

Propojení S-Blades a disků 5 ze 6 S-Blades vlastní 8 disků Každý S-Blade má v sobě: 8 jader CPU 8 jader FPGA => CPU:FPGA:disk je 1:1:1 6. S-Blade vlastní pouze 6 disků 2 jádra CPU a FPGA jsou nevyužitá Protože 2 disky zůstavají volné do zálohy Níže uvedené údaje platí pro half-rack systém IBM Netezza , který má 6 S- Blades

V systému jsou použity 1TB disky – Ty jsou rozděleny na 1/3 Všechna uživatelská data jsou replikována z Primary do Mirror oblasti Výpadek disku je transparentní pro uživatelské dotazy – Na Spare (volný) disk jsou automaticky zreplikovaná data„nemocného“ disku S využitím odpovídajícího disku z páru (jen se otočí Primary a Mirror oblasti) Disk mirroring & řešení výpadku disku

Disky, které patřily „nemocné“ jednotce S-Blade jsou rovnoměrně rozdistribuovány zbývajícím jednotkám S-Blade Read-only dotazy jsou automaticky restartovány Všechny zápisové operace jsou přerušeny, označeny jako aborted a spustí se znovu od místa posledního checkpointu Řešení výpadku jednotky S-Blade

Data jsou na jednotlivé disky (a potažmo tedy i jádra CPU a FPGA) distribuována pomocí hashování dle tzv. distribučního klíče – Rovnoměrná distribuce je základem vysoké výkonnosti Implicitní distribuce je RANDOM Distribuce dat a její dopad na výkonnost

Data jsou na disk ukládána po tzv. extentech – Má velikost 3 MB Pro sloupce tabulek jsou udržovány tzv. zónové mapy – Udržují informace o minimální a maximální hodnotě v daném extentu Využití tzv. zónových map

Jak mohou zónové mapy omezit čtení z disku Cust_ID = 300 Ext 1 Ext 3 Vysoká selektivita je především u tabulek, které jsou setřízené podle atributu z where klauzule

Clustered Based Tables a jejich přínos Jsou řešením pro časté situace, kdy se v … Ve WHERE klauzulích V JOINech … … používá více než 1 atribut Data jsou v tabulce seřazena dle křivky vyplňující Hilbertův prostor 2 atributy 3 atributy 2 hodnoty4 hodnoty 8 hodnot ….

A B C D ZM IZM II A 2 A4 A – B3 – 4* B4 B3 A3 A2 A – B1 – 2** A1 B1 B2 C2 C – D1 – 2* C1 D1 D2 D3 C – D3 – 4 C3 C4 D4 Clustered Base Tables – ilustrační příklad Myšlenka tzv. Clustered base tables je založena na křivce vyplňující hilbertův prostor

Implicitní výkonnost je vysoká Zónové mapyClustered Base Tables Koncepty, které posouvají výkonnost ještě o kus dál Výkonnost systému je extrémně vysoká i bez nich Masivní paralelismus a FPGA Distribuční klíče

sloupce Původní záznam je označen jako smazaný Záznam je INSERTován Do tabulky je vložen nový záznam Záznam je UPDATEován I „změněný“ záznam je označen jako smazaný Záznam je DELETEován Realizace transakcí v Netezze

Děkuji za pozornost