Systémová integrace Big Data

Slides:



Advertisements
Podobné prezentace
systém pro sběr, organizaci, analýzu a syntézu dat
Advertisements

1IT PVY Klasifikace programového vybavení Ing. Jiří Šilhán.
Systémová integrace Sociální sítě Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko–geologická fakulta.
Základy informatiky úvod
Robert Havránek Microsoft
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Business intelligence
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
Přednáška č. 5 Proces návrhu databáze
Základy informatiky Ing. Roman Danel, Ph.D.
Systémová integrace RFID & Internet of Things Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko–geologická fakulta.
METODOLOGIE PROJEKTOVÁNÍ NÁVRH IS PRO TECH. PROCESY Roman Danel VŠB – TU Ostrava HGF Institut ekonomiky a systémů řízení.
IS V EKONOMICKÝCH SUBJEKTECH Ing. Jiří Šilhán. IS IS – data+lidi+HW, prvky + relace mezi uživateli, které splňují nějaké cílové chování – tak aby byly.
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Základy informatiky Internet Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko – geologická fakulta.
Přínosy a druhy počítačových sítí. Jednou z nejvýznamnějších technologií používaných v oblasti výpočetních systémů jsou již řadu let počítačové sítě.
IQ PACK dáváme inteligenci obalům Prezentace projektu Ing. Roman Kortus RFID projektový manažer.
Microsoft Access Prezentace základních uživatelských nástrojů
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Protokol TCP/IP a OSI model
CZ.1.07/1.4.00/ VY_32_INOVACE_169_IT 9 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Relační databáze.
Vypracoval: Ondřej Dvorský Třída: VIII.A
Databázové systémy. Práce s daty Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace.
Databázové systémy Architektury DBS.
David Kratochvíl. * Linux – označení pro operační systém (OS) * 1,3 milionu mobilních zařízení s Androidem aktivováno každý den * Většina ze TV.
Základy informatiky Aplikační SW - licence Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko – geologická fakulta.
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
uložené procedury (stored procedures) triggery, sekvence, pohledy, funkce, parametrické dotazy (prepared statements) komplexní agregace a SQL dotazy jiné.
Telefónica O 2 Business Solutions Platform as a Service – Overview Praha, Ing. Jan Kepič, CISA –
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Web 2.0, folksonomie a uživatelská rozhraní Lenka Němečková Eliška Pavlásková Založeno mimo jiné na prezentacích prof. B. Whitea „The Promise of Rich User.
Access Vysvětlení pojmu databáze - 01
Redakční systém dopravní informace pro státní správu ISSS 4. dubna 2006.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM VY_32_INOVACE_02A18 Autor Ing. Jiří Kalousek Období vytvoření duben 2014.
INTERNET VE STÁTNÍ SPRÁVĚ A SAMOSPRÁVĚ 2008 © Copyright IBM Corporation 2008 Správa obsahu v podání IBM 7. – 8. dubna 2008 ibm.com/cz/public Daniel Beneš.
NÁZEV ŠKOLY: Základní škola Javorník, okres Jeseník REDIZO: NÁZEV: VY_32_INOVACE_389_Počítačové sítě AUTOR: Ivana Mikulenková ROČNÍK, DATUM:
GORDIC spol. s r. o. pobočka Ostrava. Obsah prezentace Varianty řešení -TC Kraje -TC Kraje – hosting dodavatele Maintenance, kompletní aplikační podpora.
Tento výukový materiál vznikl v rámci Operačního programu Vzdělávání pro konkurenceschopnost Číslo projektu: CZ.1.07/1.5.00/ Číslo materiálu: VY_32_INOVACE_PSK-4-04.
Global network of innovation easyXchange Milan Mydlář Siemens Business Services.
Publikování prostorových dat na Internetu (prezentace pro VLE Dílna) Ing. Jan Růžička Institut geoinformatiky VŠB-TU Ostrava, HGF tř. 17.listopadu
Základy informatiky Aplikační SW Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko – geologická fakulta.
Velké databáze High Performance Databases Miroslav Křipač Vývojový tým IS MU Služby počítačových sítí,
ZÁKLADY GEOINFORMATIKY
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
Projektový management Certifikace a normy Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko–geologická fakulta VŠB-TU.
Základy informatiky Aplikační SW - licence Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko – geologická fakulta.
Základy informatiky Aplikační SW Ing. Roman Danel, Ph.D. Institut ekonomiky a systémů řízení Hornicko – geologická fakulta.
Geografické informační systémy pojetí, definice, součásti
Klient pro správu databází MySQL 1 Klient pro správu databází MySQL Zbyněk Munzar České vysoké učení technické v Praze Fakulta elektrotechnická.
B2B Systémová integrace Jiří Macháček. Osnova ► Úvod ► Terminologie ► Parametry – požadavky ► Způsoby integrace ► Web-Services ► Příklady.
Business Activity Monitoring Jiří Kolář. Pojmy a zkratky ● SOA ● Servis Oriented Architecture ● BPMS ● Business Process Management System ● BAM ● Business.
Moderní informační systémy - úvod do teorie, druhy IS v cestovním ruchu.
České vysoké učení technické v Praze Fakulta dopravní Ústav dopravní telematiky Geografické informační systémy Doc. Ing. Pavel Hrubeš, Ph.D.
Kapitola 5: Úvod do analytických technologií Webu Vítězslav Šimon (SIM0047) Adaptivní webové systémy (AWS)
Databázové systémy Roman Danel Institut ekonomiky a systémů řízení 2016.
Responsivní design ANALÝZA A PROJEKTOVÁNÍ SYSTÉMŮ Roman Danel VŠB–TU Ostrava Hornicko-geologická fakulta Institut ekonomiky a systémů řízení.
Formy komunikace na internetu. 1. Elektronická pošta -  Jeden z nejstarších způsobů komunikace na internetu  - odděluje v ové adrese.
Big Data Ing. Roman Danel, Ph.D.
Geografické informační systémy
Dobývání znalostí z databází znalosti
DIGITÁLNÍ UČEBNÍ MATERIÁL
Budování Integrovaného informačního systému Národního památkového ústavu Petr Volfík, NPÚ ÚP
Ing. Athanasios Podaras, Ph.D 2016
Informatika INTERNET ISŠ SEMILY Zpracoval: Vít Rutkovský
Geografické informační systémy
METODOLOGIE PROJEKTOVÁNÍ
Analýza velkých dat strukturovaně či nestrukturovaně?
Transkript prezentace:

Systémová integrace Big Data Ing. Roman Danel, Ph.D. roman.danel@vsb.cz Institut ekonomiky a systémů řízení Hornicko–geologická fakulta

Obsah Definice Řešení NoSQL db Hadoop

Big Data - definice Gartner: „soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými nástroji v rozumném čase.“

Big Data 3V Objem (volume) – množství dat vznikajících v rámci provozu firem roste exponenciálně každý rok, Typ (variety) – různorodost typů dat vzrůstá, například nestrukturované textové soubory, semi-strukturovaná data (XML), data o geografické poloze, data z logů, Rychlost (velocity) – rychlost s jakou data vznikají a potřeba jejich analýzy v reálném čase vzrůstá díky pokračující digitalizaci většiny transakcí, mobilním zařízením a vzrůstajícímu počtu internetových uživatelů.

Big Data 3V Variety: Structured -> Unstructured Volume: Terabytes -> Zettabytes Velocity: batch -> streaming data

Real-time database and analytics: These are typically in-memory, scale-out engines that provide low-latency, cross-data center access to data, and enable distributed processing and event-generation capabilities. Interactive analytics: Includes distributed MPP (massively parallel processing) data warehouses with embedded analytics, which enable business users to do interactive querying and visualization of big data. Batch processing: Hadoop as a distributed processing engine that can analyze very large amounts of data and apply algorithms that range from the simple (e.g. aggregation) to the complex (e.g. machine learning). http://blogs.vmware.com/vfabric/2012/08/4-key-architecture-considerations-for-big-data-analytics.html

Řešení big data Hardware – konsolidovaná integrovaná řešení s důrazem na výkonnost (storage, server, …) Distribuce dat – např. Hadoop Data Management – např. NoSQL Analýza a vizualizace – trend: in-memory

NoSQL databáze Jiné řešení databáze než relační schéma (relacemi propojené tabulky + ACID) Např. úložiště typu klíč – hodnota nebo stromová sturktura Není primárně ACID

NoSQL databáze - motivace Jednoduchost designu Škálovatelnost Kontrola dostupnosti CAP teorém - potlačují konzistenci ku prospěchu dostupnosti a tolerance k narušení sítě.

Hadoop Apache Foundation Framework – sada open-source komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat HDFS (Hadoop Distributed File Systém) Verze 2012 – až 4000 uzlů Programový model: map-reduce

Hadoop Podstata spočívá v uložení dat na velkém množství samostatných počítačích Alternativa k HW s vysokou dostupností Distribuovaný souborový systém – např. HDFS (Hadoop Distributed File Systém)

http://www.adastra.cz/hadoop Zdroj: adastra.cz

Příklad: Instant Messenger 2006 150 Gb / day - log file 1 měsíc (2006) - 4,5 TB June 2006 – 245 mil uživatelů zalogovaných, 180 mil konverzujících 255 miliard zpráv

2011 12 TB tweet na Twitteru 30 miliard RFID tagů 4,6 miliardy mobilních zařízení 100 milionů GPS zařízení se prodá ročně Přes 2 miliardy lidí na Internetu

On-line learning Sociální sítě – sentiment analysis Internetová bezpečnost – spam filtering. Credit card transaction detection, intrusion detection Finance – finanční rozhodování – online portfolio selection, sequential onvestment…

Learning Batch On-line

Batch (off-line) learning Observe a batch of training data Learn a model from them Predict new samples accurately

On-line learning Observe a sequence of data Learn a model incrementally as instances come Make the sequence of online predictions accurately Vysoká adapatbilita, paralelizace…