Big Data Ing. Roman Danel, Ph.D.

Slides:



Advertisements
Podobné prezentace
Robert Havránek Microsoft
Advertisements

Systémová integrace Big Data
S MARTPHONE Mgr. Rostislav Harenčák 2014 OKO – občanské kompetence občanům registrační číslo: CZ.1.07/3.1.00/
Použití počítačů NÁZEV ŠKOLY2. ZŠ J. A. Komenského Milevsko, J. A. Komenského 1023, okres Písek ČÍSLO PROJEKTUCZ.1.07/1.4.00/ ČÍSLO ŠABLONYIII/2.
LOGISTIKA NOVÉ MATURITNÍ ZKOUŠKY TELČ CERMAT - Centrum pro zjišťování výsledků vzdělávání
Mobilní aplikace Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Jitka Vlčková. Dostupné z Metodického portálu ISSN
Marketingové informace a marketingový výzkum. Marketingový informační systém sběr informací třídění informací analyzování informací distribuce informací.
POČÍTAČOVÉ VIRY A ANTIVIROVÉ PROGRAMY. Viry a antivirové programy VIR program, který se dokáže sám šířit bez vědomí uživatele. pro množení se vkládá do.
Co je Open Access (OA) Bc. Miroslava Pourová. Open Access = Otevřený přístup mezinárodní iniciativa k zajištění: – trvalého – okamžité – bezplatného přístupu.
Název materiálu: Internetová úložiště Anotace: Výklad nového učiva Autor: Iveta Pasterňáková, 2013 Ověření ve výuce , 5.třída Vyučovací předmět:
Název školyZákladní škola praktická Rožnov pod Radhoštěm Číslo projektuCZ / / Číslo materiáluVY_32_INOVACE_225 AutorMgr. Romana Rybiařová.
Inteligentní analýza bezpečnostních událostí (iABU) Jan Vykopal
Síťové operační systémy OB21-OP-EL-KON-DOL-M Orbis pictus 21. století.
Software Licence a distribuce Karel Nymsa Dotkněte se inovací CZ.1.07/1.3.00/
Tvorba WWW stránek. Obsah Princip fungování WWW Současné trendy Zásady tvorby WWW stránek Netiketa.
ŠKOLA: Gymnázium, Chomutov, Mostecká 3000, příspěvková organizace AUTOR:Mgr. Jiří Kolář NÁZEV:VY_32_INOVACE_08B_15_Sítě_internet2 TEMA:HARDWARE A SOFTWARE.
VYSOKÁ ŠKOLA TECHNICKÁ A EKONOMICKÁ ČESKÉ BUDĚJOVICE ÚSTAV PODNIKOVÉ STRATEGIE Autor bakalářské práce: Jitka Macháčková Vedoucí bakalářské práce: Ing.
Software =je v informatice sada všech počítačových programů používaných v počítači, které provádějí nějakou činnost. - Software je protiklad k hardwaru,
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
Temporální databáze jOpenSpace 2015 Petr Jůza.
Ústřední knihovna FSS MU
Možnosti připojení k internetu
TNH 2 – 1. seminář Finanční trh a peníze
Autor: Zuzana Dvořáková Vedoucí práce: Ing. Ludmila Opekarová, Ph.D.
Výukový materiál zpracován v rámci projektu
Seminář Evaluace poskytovatelů „Zajištění vybraných služeb sociální prevence na území Jihomoravského kraje“ Tato konference je financována z.
Letecká informační služba pro GA 2017
EU_62_A_sada 2_02_M_Finanční produkty_Pol
Internet.
Měnová soustava, měnová politika
Procesní management v oddělení logistiky
Demoverze QI Informace pro partnery DCC
Detekce malware na základě informací z PE hlaviček
Big Data-Analytics.
charakteristiky údajů (Struktura, rozměry) – BI jako IS
EIZ - bilance Profesionální informační zdroje
ODHADOVÉ METODY.
Číslo projektu Číslo materiálu název školy Autor Tematický celek
ORGANIZACE DAT V POČÍTAČI
Uživatelem definované datové typy
Snížení nákladů na vytápění budov
LAN Switching and Wireless – Chapter 1
Vedoucí odboru strategického rozvoje města Vsetín
ŘEMESLO - TRADICE A BUDOUCNOST
Software počítače 1 - opakování
JEdit Open source programování – – Marek Bílý.
DIGITÁLNÍ UČEBNÍ MATERIÁL
Průmysl Game Changer ? Kdo jsem ? Proč tu jsem ? Matěj Včelák
Střední odborná škola a Střední odborné učiliště, Hradec Králové, Vocelova 1338, příspěvková organizace Registrační číslo projektu: CZ.1.07/1.5.00/
VY_32_INOVACE_
Elektronické informační zdroje pro obor pedagogika
GEOGRAFICKÁ KARTOGRAFIE
Databázové systémy, datové modelování
Finanční trh a peníze TNH 2 (S-5)
Vysoká škola technická a ekonomická v Českých Budějovicích
Microsoft Office Access
Pořadové číslo návrhu: 6 Název: Inteligentní lavička Lokalita: Heroldovy sady Navrhovatel: Žákovský parlament ZŠ Karla Čapka Předpokládané náklady:
Základy práce s informačními zdroji ZUR163
Nové scénáře a ArcGIS Enterprise
Prodeji produktu nebo služby
VIKBA32 Informační vzdělávání
DIGITÁLNÍ UČEBNÍ MATERIÁL
Bezpečnost Windows pro pokročilé: účty počítačů
Analýza informačního systému
Směrování II.
Vzdělávání jako hlavní složka řízení lidských zdrojů
Digitální učební materiál
SQL Server 2017: Automatic tuning
KOMUNIKACE NA INTERNETU
Transkript prezentace:

Big Data Ing. Roman Danel, Ph.D. roman.danel@vsb.cz Institut ekonomiky a systémů řízení Hornicko–geologická fakulta

Obsah Definice Řešení NoSQL Hadoop

Big Data - definice Gartner: „soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými nástroji v rozumném čase.“

Big data Big data tedy nejsou pouze o objemu dat, ale i o rychlosti jejich zpracování (často chceme výsledky ihned) Příklad – Google a jeho nápověda při zadávání vyhledávaného textu – v případě překlepu nabídne možnosti na základě obrovské databáze častých překlepů a oprav

Big Data 3V Objem (Volume) – množství dat vznikajících v rámci provozu firem roste exponenciálně každý rok, Typ (Variety) – různorodost typů dat vzrůstá, například nestrukturované textové soubory, semi-strukturovaná data (XML), data o geografické poloze, data z logů, Rychlost (Velocity) – rychlost s jakou data vznikají a potřeba jejich analýzy v reálném čase vzrůstá díky pokračující digitalizaci většiny transakcí, mobilním zařízením a vzrůstajícímu počtu internetových uživatelů.

Big Data 3V Variety: Structured -> Unstructured Volume: Terabytes -> Zettabytes Velocity: batch -> streaming data

Real-time database and analytics: These are typically in-memory, scale-out engines that provide low-latency, cross-data center access to data, and enable distributed processing and event-generation capabilities. Interactive analytics: Includes distributed MPP (massively parallel processing) data warehouses with embedded analytics, which enable business users to do interactive querying and visualization of big data. Batch processing: Hadoop as a distributed processing engine that can analyze very large amounts of data and apply algorithms that range from the simple (e.g. aggregation) to the complex (e.g. machine learning). http://blogs.vmware.com/vfabric/2012/08/4-key-architecture-considerations-for-big-data-analytics.html

Řešení big data Distribuce dat na větší počet uzlů a jejich paralelní zpracování Hadoop, NoSQL databáze Analýza a vizualizace – trend: in-memory

NoSQL databáze - motivace Jednoduchost designu Škálovatelnost Kontrola dostupnosti CAP teorém - potlačuje konzistenci (podpora transakcí) ve prospěch dostupnosti a tolerance k narušení sítě; nemají podporu ACID

Hadoop Apache Foundation Framework – sada open-source komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat HDFS (Hadoop Distributed File Systém) Verze 2012 – až 4000 uzlů Programový model: map-reduce

Hadoop Podstata spočívá v uložení dat na velkém množství samostatných počítačích Alternativa k HW s vysokou dostupností Distribuovaný souborový systém – např. HDFS (Hadoop Distributed File Systém)

http://www.adastra.cz/hadoop Zdroj: adastra.cz

Hadoop - použití Automobilový průmysl Filmový průmysl Vyhodnocení crash testů Vyhodnocení testů airbagů Analýza výkonnosti produkce Filmový průmysl

Příklad: Instant Messenger 2006 150 Gb / day - log file 1 měsíc (2006) - 4,5 TB June 2006 – 245 mil uživatelů zalogovaných, 180 mil konverzujících 255 miliard zpráv

2011 12 TB tweet na Twitteru 30 miliard RFID tagů 4,6 miliardy mobilních zařízení 100 milionů GPS zařízení se prodá ročně Přes 2 miliardy lidí na Internetu

Learning Batch On-line

Batch (off-line) learning Observe a batch of training data Learn a model from them Predict new samples accurately

On-line learning Observe a sequence of data Learn a model incrementally as instances come Make the sequence of online predictions accurately Vysoká adapatabilita, paralelizace…

On-line learning Sociální sítě – sentiment analysis Internetová bezpečnost – spam filtering. Credit card transaction detection, intrusion detection Finance – finanční rozhodování – online portfolio selection, sequential onvestment…