Úvod do Stream Analytics

Slides:



Advertisements
Podobné prezentace
Základy databázových systémů
Advertisements

Aplikační a programové vybavení
1. 3 Business priorita Scénář Řešení Produkty Rozvoj a podpora Partneři.
Integrace aplikací s využitím komunikačního serveru Vema
METODOLOGIE PROJEKTOVÁNÍ NÁVRH IS PRO TECH. PROCESY Roman Danel VŠB – TU Ostrava HGF Institut ekonomiky a systémů řízení.
Temporální databáze a TSQL
Zpracování programu programovatelným automatem. Zpracování programu na PA se vykonává v periodicky se opakujícím uzavřeném cyklu, tzv. scanu. Nejprve.
Medians and Order Statistics Nechť A je množina obsahující n různých prvků: Definice: Statistika i-tého řádu je i-tý nejmenší prvek, tj., minimum = statistika.
Úvod do databází Databáze.
GORDIC ® + CA = vaše cesta ke zvýšení kvality a efektivity služeb DRMS FORUM Ing. Jakub Fiala vedoucí týmu CA Technologies programátor,
Audit IT procesů ve FNOL
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Architektura databází Ing. Dagmar Vítková. Centrální architektura V této architektuře jsou data i SŘBD v centrálním počítači. Tato architektura je typická.
Informační technologie pro české a slovenské zdravotnictví Integrační a komunikační centrum zdravotnických informací.
Richard Lipka Katedra informatiky a výpočetní techniky Fakulta aplikovaných věd Západočeská univerzita, Plzeň 1.
Load Balancer RNDr. Václav Petříček Lukáš Hlůže Václav Nidrle Přemysl Volf Stanislav Živný
Databázové systémy. Práce s daty Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace.
Databázové systémy Architektury DBS.
Přehled
Příručka jakosti Ing. Zdeněk Aleš, Ph.D.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Informatika pro ekonomy II přednáška 10
Databázové systémy II Přednáška č. X Ing. Tomáš Váňa, Ing. Jiří Zechmeister Fakulta elektrotechniky a informatiky
Reporting Ing. Jan Přichystal, Ph.D.. Úvod Uživatelé obvykle přistupují k DW pomocí BI aplikace Většina využívá předdefinované reporty Poskytují standardizovaný.
Strana: 1 © Vema, a. s. Ucelené řešení pro řízení lidských zdrojů, ekonomiky a logistiky.
ESET - služby informační bezpečnosti Filip Navrátil, Sales Engineer, ESET software spol. s
David Šupita, Adam Řešetka, Petr Horák
Transakce Roman Špánek TU v Liberci Transakce Transakce = série příkazů čtení a zápisu do databáze A Atomic C Consistency I Isolation D Durability.
Databáze.
Georeporty aplikované využití geoprostorových informací
Výhody Cloud Computingu PLATBA ZA PŘÍSTUP – NE VLASTNICTVÍ – KE ZROJŮM SDÍLENÍ „DOČASNÉHO A NEHMOTNÉHO“ VÝPOČETNÍHO VÝKONU MEZI VÍCE PRONAJÍMATELY OPTIMALIZUJE.
Systémová integrace Big Data
7. Typ soubor Souborem dat běžně rozumíme uspořádanou množinu dat, uloženou mimo operační paměť počítače (na disku). Pascalský soubor je abstrakcí skutečného.
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Synchronizace Přednášky z distribuovaných systémů Ing. Jiří Ledvina, CSc.
8 ZÓN 16 KLÁVESNIC 32 TYPŮ ZÓN 6 VÝSTUPŮ 10 UŽIVATELSKÝCH KÓDŮ 100 UDÁLOSTÍ V HISTORII DETEKTORY KLÁVESNICE G8.
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Tento materiál vznikl v rámci projektu ESF CZ.1.07/2.2.00/
IBM Global Services Ing. Stanislav Bíža, Senior IT Architect, CISA © 2005 IBM Corporation Rizika napadení webových aplikací Konference ISSS 2005 Title.
Špička v každém směru IT 3 Podpora obchodování s elektrickou energií SOAP komunikace Seminář AEM 30. května 2006.
Databázové systémy Informatika pro ekonomy, př. 18.
Databáze velké množství dat pevně dané struktury
Architektura počítače
ŘÍZENÍ DOPRAVY POMOCÍ SW AGENTŮ Richard Lipka, DSS
GORDIC spol. s r. o. pobočka Ostrava. Obsah prezentace Varianty řešení -TC Kraje -TC Kraje – hosting dodavatele Maintenance, kompletní aplikační podpora.
Administrace Oracle Paralelní zpracování.
Směrování -RIP. 2 Základy směrování  Předpoklady:  Mějme směrovač X  Směrovač nemůže znát topologii celé sítě  X potřebuje určit směrovač pro přístup.
Možnosti využití programu HYDATA. Co je HYDATA? program pro tvorbu databáze dat a jejich dalšího zpracování –(srážky, průtok, výpar a další meteorologická.
Internet protocol Počítačové sítě Ing. Jiří Ledvina, CSc.
Možnosti využití mobilní komunikace při krizových situacích
Architektura databází DBS=SŘBD+DB
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Perzistence XML dat Kamil Toman
Vypracováno kolektivem autorů České společnosti pro technickou normalizaci Úřad pro technickou normalizaci, metrologii a státní zkušebnictví
Accelerate your ambition Internet of Things Zbyszek Lugsch Adrián Čech Zbyszek Lugsch Adrián Čech.
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Lehký úvod do HW pro IoT Štěpán
Základní nástroje pro vysokou dostupnost aplikace v Azure
Internet věcí (IoT) v síti SIGFOX
Bezpečnost dat.
SQL – příkaz SELECT Ing. Roman Danel, Ph.D.
Inicializace portů mikrokontroléru
Soubor Soubor v informatice označuje pojmenovanou sadu dat uloženou na nějakém datovém médiu, se kterou lze pracovat nástroji operačního systému jako.
Informatika pro ekonomy přednáška 8
Číslicové měřící přístroje
Monitoring sítě.
Správa disků
Roman Péchal, Jan Čongva, Martin Durák
Simple IoT platform.
Vážení vozidel za jízdy WIM
Azure DevOps Terraform QA FTW
Transkript prezentace:

Úvod do Stream Analytics Ing. Filip Tesař Technical Leader, Kentico Software

Data kolem nás Internet věcí (IoT) Softwarové aplikace Motivace Data kolem nás Internet věcí (IoT) Softwarové aplikace Velké objemy dat (high-volume data) Vysokorychlostní data (high-velocity data) Kde vznikají data? IOT Aktuálně přes 20 miliard zařízení připojených k internetu Předpokládá se, že do roku 2020 bude připojeno více než 50 miliard zařízení Smart Homes, Smart Cities, Průmysl 4.0 Software – program zlepšování software

Big Data Data at rest Data in motion Motivace Definice big data Velký objem Přichází velkou rychlostí Například IoT - data senzorů Data at rest – analýza shromážděných dat Příliš pozdě Data in motion – analýza přicházejících dat v reálném čase Není čas zastavit analyzovat data, musíme pracovat s proudy dat, které prochází z místa na místo

Proč analyzovat data v reálném čase Motivace Proč analyzovat data v reálném čase Alerting Rychlá reakce na kritické změny v systému Monitoring Včasná identifikace rizik Předcházení ztrát Filtrování nebo agregace dat Ukládání pouze významných dat Alert – změny, nepředpokládané stavy, detekce podvodných jednání (kradené auto, výběr z ATM,…) Monitoring – průmysl – předcházení nefunkčnosti zařízení (RollsRoyce pronajímá motory apod.) Filtrování/agregace – teploměr za oknem – změna granularity ukládání dat podle významnosti změny teploty, routing

Kentico Cloud Kentico Cloud je produkt poskytovaný jako služba Účtování dle skutečného využívání zákazníkem Sondy v produktu odesílají zprávy do Event Hubu, například při vytvoření nového obsahu Pro efektivní ukládání a následné zpracování dat je vyžadována jejich agregace Záleží na časové posloupnosti akcí

Problémy, které je třeba řešit Kentico Cloud Problémy, které je třeba řešit Vlastní implementace Čtení dat ze vstupu (Event Hub) Transformace dat Zápis výstupních dat (Table Storage) Odolnost proti výpadku infrastruktury Dočasně nedostupný zdroj nebo výstup dat Škálovatelnost řešení v budoucnosti Neustále rostoucí množství vstupních dat Anomálie v datech Pozdě doručené zprávy Zprávy mimo pořadí Monitorování Správa infrastruktury

Azure Stream Analytics Vysoce škálovatelná služba pro analýzu dat v reálném čase Transformace dat 1-N vstupních kanálů 1-N výstupních kanálů Dotazovací jazyk vycházející z SQL Stream Analytics Soutředění se na problém, ne na infrastrukturu nebo technické řešení Velmi rychlé = levné nasazení Integrované s ostatními službami Azure Začněte v malém, buďte připravení na expanzi

Proč použít Stream Analytics? Azure Stream Analytics Proč použít Stream Analytics? Vlastní implementace Čtení dat ze vstupu (Event Hub) Transformace dat Zápis výstupních dat (Table Storage) Odolnost proti výpadku infrastruktury Dočasně nedostupný zdroj nebo výstup dat Škálovatelnost řešení v budoucnosti Neustále rostoucí množství vstupních dat Anomálie v datech Pozdě doručené zprávy Zprávy mimo pořadí Monitorování a schopnost zotavení se při vzniku problému Správa infrastruktury

Příklad použití Azure Stream Analytics

Vstupy (stream) Event Hub IoT Hub Blob storage Jednosměrná komunikace Azure Stream Analytics Vstupy (stream) Event Hub Jednosměrná komunikace IoT Hub Obousměrná komunikace Vyšší škálovatelnost Řízení přístupu pro každé připojené zařízení Blob storage Zpracovávání logů Uložená historická data Event Hub Jednosměrná komunikace Zamýšleno na použití mezi cloud službami Zprávy max. 256 kB Bezpečnost - Shared access policies Persistence až 7 dní IoT Hub Obousměrná komunikace (možnost ovládání IoT zařízení) Zprávy max 256 kB Možnost zasílat soubory Vyšší škálovatelnost – miliony současně komunikujících zařízení Bezpečnost - řízený přístup pro každé jedno zařízení Blob storage Zpracovávání logů Uložená historická data Příklad SPZ aut projíždějících mýtnou branou

Referenční data Statická nebo málo se měnící data Pouze Blob storage Azure Stream Analytics Referenční data Statická nebo málo se měnící data Pouze Blob storage Formát JSON nebo CSV Limit velikosti blobu 100 MB SA automatický použijí aktuální blob (datum a čas v cestě) Příklad databáze majitelů SPZ

Výstupy Event Hub SQL Databáze Blob storage Table storage Service Bus Azure Stream Analytics Výstupy Event Hub SQL Databáze Blob storage Table storage Service Bus Cosmos DB Power BI Data Lake Store

SAQL (SA Query Language)

Datové typy bigint float nvarchar(max) datetime record (JSON objekt) SAQL Datové typy bigint float nvarchar(max) datetime record (JSON objekt) array

Filtrování, projekce SAQL INTO tam být nemusí pokud chceme výstup do ‚output‘

Více výstupů v jednom dotazu SAQL Více výstupů v jednom dotazu

SAQL Čas událostí Výchozí chování - používá se čas zapsání události do Event Hubu Neexistují zpožděné události ani události mimo pořadí TIMESTAMP BY <scalar_expression> klauzule Datetime String – ISO 8601

SAQL Vícekrokové dotazy

Jak použít GROUP BY na nekonečný proud dat? SAQL Agregační funkce Jak použít GROUP BY na nekonečný proud dat? V omezených časových intervalech!

SAQL Tumbling Window Každých 10 sekund je získán počet nových tweetů v jednotlivých časových zónách

SAQL Hopping Window Každých 5 sekund je získán počet tweetů se stejným topicem vytvořených za posledních 10 sekund

SAQL Sliding Window Získávání topiců, které byly v posledních 10 sekudách tweetnuty více než 10 krát

Agregační funkce - rozšíření SAQL Agregační funkce - rozšíření Collect() vrátí všechny záznamy z okna CollectTOP(N) OVER (ORDER BY <col>, <col2>) vrátí TOP N záznamů z okna dle definovaného seřazení TopOne() OVER (ORDER BY <col>, <col2>) vrátí TOP 1 záznam z okna dle definovaného seřazení

Analytické funkce ISFIRST SAQL Analytické funkce ISFIRST Indikuje, zda jde o první událost za dané období LAG (LAST) Hledání poslední hodnoty, například pro výpočet vzrůstu teploty: Lag může mít offset – předposlední, předpředposlední… - Je možné definovat default value pro případ, že se nic nenajde OVER má partition volitelný, může mít i WHEN condition ISFIRST - Může mít klauzuli OVER ([partition] [when])

Geoprostorové funkce Body Úsečky Polygony SAQL Geoprostorové funkce Body Úsečky Polygony Operace výpočtu vzdáleností, průniků ploch, … Geofencing Geofencing, monitorování stavu vody a vyrování lidí, kteří jsou v záplavové zóně

Spojování vstupních dat SAQL Spojování vstupních dat Pouze INNER JOIN nebo LEFT OUTER JOIN Při spojování streamovaných vstupů je povinné časové omezení pomocí ON DATEDIFF(datepart, S1, S2)

Vlastní funkce JavaScript user-defined functions (UDF) Azure Stream Analytics Vlastní funkce JavaScript user-defined functions (UDF) JavaScript user-defined aggregates (UDA) AccumulateOnly AccumulateDeaccumulate Machine Learning UDF – bezstavove, staticke UDA – stavove objekty pracující s time window (aggregate only a aggregatedeaggregate)

Azure Stream Analytics Testování

Možnosti konfigurace Tolerance ke zpožděným zprávám Azure Stream Analytics Možnosti konfigurace Tolerance ke zpožděným zprávám Tolerance ke zprávám mimo pořadí Strategie pro chybný zápis výstupu Spuštění jobu Hned Od určitého data Od posledního vypnutí

Monitorování Garantovaná dostupnost Garantované zpracování dat Azure Stream Analytics Monitorování Garantovaná dostupnost Garantované zpracování dat Automatické zotavení z chyb Reporty – 30 dní Konfigurovatelné alerty

Škálovatelnost Propustnost až 1 GB/s (miliony událostí za sekundu) Azure Stream Analytics Škálovatelnost Propustnost až 1 GB/s (miliony událostí za sekundu) Princip škálování pomocí Streaming Unit (SU) - 1, 3, 6, 12, 18, 24, … 1 SU = propustnost cca 1 MB/s 1 Výpočetní uzel = 6 SU => maximum pro úlohy, které nelze paralelizovat Paralelizace Vstupní partitions = výstupní partitions Dotazy používající klauzuli PARTITION BY PartitionId Více kroků (WITH klauzule), každý používající stejné PARTITION BY Držet využití pod 80% - když dojde paměť, job se zastaví Záleží na možnostech partitioning vstupu a výstupu Paměť – JOIN, Reference data, out of order buffer, input partition buffer

Cena 1 SU = 0,101 € / hodina (datacentra v Evropě) Azure Stream Analytics Cena 1 SU = 0,101 € / hodina (datacentra v Evropě) Cena za měsíc přibližně 72,72 € (30 × 24 × 0,101 €)

Co dál? https://azure.microsoft.com/en-us/free/ https://azure.microsoft.com/en-us/services/stream-analytics/ https://github.com/Azure/azure-stream-analytics/tree/master/Sample%20Data

Děkuji za pozornost Filip Tesař www.filiptesar.cz www.linkedin.com/in/filiptesar