Roman Péchal, Jan Čongva, Martin Durák Cloud Data warehouse Roman Péchal, Jan Čongva, Martin Durák
Data warehouse - všeobecně Databáze určená pro analytické a reportovací účely Historizace dat Data jsou tříděná do podoby faktů a dimenzí Typicky obsahuje data z mnoha zdrojů dat na jednom místě pro účely datové analýzy Považuje se za stavební kámen Business Intelligence řešení
Úvod Výběr cloud based data warehouse řešení pro menší firmu Současný stav Současný ekosystém postaven v cloudu Převážně strukturovaná data a data ve formě JSON dokumentů Firma pracuje s nižšími stovkami GB dat Problémem je rostoucí množství analytických dotazů
Cíl práce Najít vhodný cloud based data warehouse umožňující Import dat ze současných systémů Práci analytiků pomocí jazyka SQL Zpracování JSON dokumentů Kvalitní zabezpečení
Snowflake Architektura - storage, query processing (virtual warehouse), cloud services Přístup pomocí Webové rozhraní Příkazová řádka - SnowSQL ODBC a JDBC drivers Nativní konektory pro Python atd. Data ve formátu CSV, JSON, Parquet, Avro atd. Snowflake Time travel, Instantní snapshot Šifrování dat pomocí AES 256, privátní cloud, white/blacklisting IP adres, řízený přístup
Google BigQuery spracovanie veľkej sady dátových údajov rýchly a jednoduchý import (insert SQL, CSV, JSON, Avro, Parquet, ORC) použitie verejnej dátovej sady, zdieľanie dát prístup pomocou Web UI, príkazového riadku, REST API, knižnice, nástroje tretích strán cena (ukladanie dát, vkladanie, načítanie a exportovanie dát)
Amazon RedShift(RDS)
Vytvořeno, za pár minut - stojí přibližně 1/10 ve srovnání s tradičními řešeními - kdokoliv může začít svoje podnikání už od $0.25 /h. - lze rozšířit až na úroveň petabytů od $250 za terabyte na rok
3 5 4 Hledisko BigQuery Redshift Snowflake Koeficient Možnosti importu dat 3 5 4 0,25 Práce s nestrukturovanými daty 0,2 Výkon 0,1 Záloha dat Zabezpečení datového skladu 0,15 Cena 0,05 Napojení aplikací třetích stran Nároky na správu Celkem * koeficient 4,2 4,25 4,6
Děkujeme za pozornost