Ing. Tomáš Vondra kat. kybernetiky FEL ČVUT v Praze

Slides:



Advertisements
Podobné prezentace
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
Advertisements

Případová studie ČEPS AZURE CDR, Provident
Present Simple and Continuous
Jméno autora: Mgr. Olga Bayerlová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_11_AJ1G Ročník: I. Anglický jazyk Vzdělávací oblast: Jazyk a jazyková.
Václav Rada OEM Distribution and Reseller Manager.
Podpora rozvoje cizích jazyků pro Evropu 21. stol. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tento projekt je spolufinancován Evropským sociálním fondem a státním.
Novinky ze zahraničí IVIG 2008
Základní technická terminologie Poznámka: značka * za slovem znamená pokračování kliknutím, zbytek je načasován.
Základní elektrická terminologie Poznámka: značka * za slovem znamená pokračování kliknutím, zbytek je načasován.
Evoluce Katalýza. © 2011 Nature Publishing Group. Published by Nature Publishing Group.2 Figure 1 Rapid evolutionary innovation during an Archaean.
Architektury softwarových systémů Architecture of Software Systems
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_02_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_FT Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Daniel.steigerwald.cz Třídy, dědičnost a OOP v Javascriptu.
Tutorial: Mechanic - electrician Topic: Electric measurement the 2nd. year Measuring devices 1 Prepared by: Ing. Jiří Smílek Projekt Anglicky v odborných.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_14_AJ_CM Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
Lada Leszkowová, Gymnázium K.V. Raise Hlinsko, 2014 leden
Název a adresa školy: Střední odborné učiliště stavební, Opava, příspěvková organizace, Boženy Němcové 22/2309, Opava Název operačního programu:OP.
2.1 School Practise „have got“
Unit One TO BE To Have. To Be / být  I am  You are  He, she,it is  We are  You are  They are  Já jsem  Ty jsi  On, ona,ono je  My jsme  Vy.
Počítačová grafika pro inženýry - CAD systémy pro DTP - znaky, stránky, dokumenty, tisk, osvitové jednotky pro manažery - obrázky, interpretace pro autory.
Prof. Ing. Jan Flusser, DrSc. Digitální zpracování obrazu
Unit 4 Infinitiv Příslovečné určení místa a času What ´s the time? Číslovky násobné - ingový tvar.
Halloween 2 1. slovní zásoba Halloween – opak., kontrola podle obr. (PPT) 2. tvoření věty oznamovací a otázky s danými slovy 3. říkanka Jack-O-Lantern,
Další vývoj IT v EU – CCN2 – IT Master Plan Národní vývoj - předpoklad.
SharePoint technologie WSS 3.0 a MOSS 2007 Tomáš Kutěj TSP – Office platform Microsoft.
Výukový materiál zpracovaný v rámci projektu Označení:Sada: 3 Ověření ve výuce:Třída: Datum: Registrační číslo projektu:CZ.1.07/1.5.00/ VY_32_INOVACE_ANJ_VL_3_15.
Tutorial:Mechanic - electrician Topic: Electric measurement the 2nd. year Power output- AC 3-phase Prepared by: Ing. Jiří Smílek Projekt Anglicky v odborných.
Tutorial :Mechanic - electrician Topic: Electrical measurements the 2nd. Year Performance measurement DC, AC 1f Prepared by: Ing. Jiří Smílek Projekt.
Digitální výukový materiál zpracovaný v rámci projektu „EU peníze školám“ Projekt:CZ.1.07/1.5.00/ „SŠHL Frýdlant.moderní školy“ Škola:Střední škola.
? PRESENT SIMPLE OR PRESENT CONTINUOUS. PRESENT SIMPLE PŘÍTOMNÝ ČAS PROSTÝ We read a lot. We read every day. We usually read books of fiction. Our friend,
Integrated Development Environment datové modely pro SharePoint Michal Černík.
HEJ, HEJ, MY VÍRU MÁME Say, Say, Say you believe it ZPÍVEJ, ŽE SVĚTU JI DÁME Sing for, The whole world to hear it VÍME A VYZNÁVÁME We know and we declare.
Elektronická učebnice - II
Tutorial: Engineering technology Topic: Casting to temporary forms Prepared by: Ing. Elena Nová Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Tutorial: Engineering technology Topic: Pressure – flasks casting Prepared by: Ing. Elena Nová Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Přítomné časy, budoucí – will, minulý čas prostý - 6. ročník Základní škola Jakuba Jana Ryby Rožmitál pod Třemšínem Efektivní výuka pro rozvoj potenciálu.
Předpřítomný čas Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ondřej Hoberla. Dostupné z Metodického portálu ISSN:
Jméno autora: Mgr. Olga Bayerlová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_01_AJ1G Ročník: I. Anglický jazyk Vzdělávací oblast: Jazyk a jazyková.
Podpora rozvoje cizích jazyků pro Evropu 21. stol. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tento projekt je spolufinancován Evropským sociálním fondem a státním.
Jméno autora:Mgr. Mária Filipová Datum vytvoření: Číslo DUMu:VY_32_INOVACE_06_AJ_ACH Ročník: 1. – 4. ročník Vzdělávací oblast: Jazyk a jazyková.
Modal Verbs = způsobová slovesa.
Čím pojedete na dovolenou ? Co takhle autíčkem ?.
Číslo: VY_32_INOVACE_15_05 Digitální učební materiál vznikl v rámci projektu "Inovace + DVPP", EU peníze do škol, CZ.1.07/1.4.00/ Název: UNIT 1.
Podpora rozvoje cizích jazyků pro Evropu 21. stol. INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Tento projekt je spolufinancován Evropským sociálním fondem a státním.
Jméno autora: Mgr. Olga Bayerlová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_18_AJ3E Ročník: II. Anglický jazyk Vzdělávací oblast: Jazyk a jazyková.
Jazyk a jazyková komunikace Cizí jazyk Komunikace Zjisti, o čem se mluví 1 VY_22_INOVACE_26 Sada 2 Základní škola T. G. Masaryka, Český Krumlov, T. G.
Tento Digitální učební materiál vznikl díky finanční podpoře EU- OP Vzdělávání pro konkurenceschopnost. Není –li uvedeno jinak, je tento materiál zpracován.
PRESENT, PAST AND FUTURE FORM Have to. Have to - must I must go to school. - I have to go to school. Musím jít do školy. Must – vnitřní přesvědčení Have.
September 06 – August 07 Petr Kolesa. Fulbright Commission Programy pro studenty a absolventy Fubrightovo stipendium pro doktorské studium vědy a techniky.
Educational program: Mechanic - electrician Title of program: Technical training II. class Astable multivibrator Worked out: Bc. Chumchal Miroslav Projekt.
Konverzace v anglickém jazyce ročník
Setkání uživatelů SFX Statistické reporty SFX.
Přejít na první stránkuLONDON Test yourself by Ludmila Lukavcova double-decker.
Maturita oral exam rehearsal Lada Leszkowová, GKVR Hlinsko, prosinec 2013.
Jméno autora: Mgr. Mária Filipová Datum vytvoření: Číslo DUMu: VY_32_INOVACE_01_AJ_EP Ročník: 1. – 4. ročník Vzdělávací oblast:Jazyk a jazyková.
IPZe laboratory Analysis of the communication over USB L Instructor: Straka Martin, Kaštil Jan.
Obchodní akademie, Ostrava-Poruba, příspěvková organizace Vzdělávací materiál/DUM Businessland / Operating Instructions 06B13 AutorLadislava Pechová Období.
1 Škola: Gymnázium, Brno, Slovanské náměstí 7 Šablona: III/2 – Inovace a zkvalitnění výuky prostřednictvím ICT Název projektu: Inovace výuky na GSN prostřednictvím.
Tutorial: Mechanic - electrician Topic: Technical training II. class Printed circuit boards 2 Prepared by: Melichařík Lubomír Projekt Anglicky v odborných.
Tutorial: Obchodní akademie Topic: Logical Functions Prepared by: Mgr. Zdeněk Hrdina Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/ je.
EU peníze středním školám Název vzdělávacího materiálu: B2 – Verbs – Computers Číslo vzdělávacího materiálu: ICT12-19 Šablona: III/2 Inovace a zkvalitnění.
Critical thinking Critical thinking is a general term that covers all thinking processes that strive to get below the surface of something: questioning,
Chapter 13 Chemical Kinetics
Multiplying Fractions
Image Stitching II Linda Shapiro ECE/CSE 576.
Congratulations! The members of your club have chosen You to lead them to accomplish a set of goals.
Ticker Symbol Personal Finance Lab.
CONCLUSIONS AND RECOMMENDATION
Improved Static Resolution of Dynamic Class Loading in Java
Transkript prezentace:

Ing. Tomáš Vondra kat. kybernetiky FEL ČVUT v Praze Big Data v Cloudu Ing. Tomáš Vondra kat. kybernetiky FEL ČVUT v Praze

Úvod Skupina Cloud Computing Center eClub: Enterpreneurs’ Club Summer Camp Předměty Technologie pro velká data Vývoj internetových aplikací

Cloud Computing Center Malá výzkumná skupina Vedoucí: Ing. Jan Šedivý, CSc. 6 doktorandů V tomto období nejisté množství diplomantů a bakalářů

Cloud Computing Center Cíl: aplikovaný výzkum, spolupráce s průmyslem, výuka Firmy: Cloud Computing, Machine learning, Big Data Univerzita: algoritmy deskriptivní a prediktivní analýzy Příklady projektů: Kontextuální reklama založená na topic modelu Rozpoznávání jmen a označení firem ve větě Modelování chování hráčů on-line her Generování synonym pro vyhledávání Klasifikace spamu a vyžádaných newsletterů Předpověď vytížení cloudu pomocí časových řad Deployment aplikací do cloudu řízený performance modelem Škálování Hadoopu v cloudu

Enterpreneurs’ club Podpora studentských podnikatelských nápadů Přednášky o soft skills, příběhy firem Přednášky streamujeme do dalších škol Studenti tvoří týmy, dělají prezentace Na konci soutěž o stipendium Stáž v inkubátoru v Silicon Valley V porotě také investoři

Summer Camp Tentokrát nebyl zaměřen jen na startupy Projekty zadané partnery Pro studenty stipendia (dokončilo asi 16) Témata: Automatický překlad Twitteru (UFAL MFF UK) Cloud Computing Škálovatelné prediktivní modely Uživatelská rozhraní pro tablety v autě Automatické hraní her (Atari, Angry Birds)

Předmět Big Data Volitelný předmět v letním semestru Kapacita 40, poprvé přihlášeno 28 Schvalování bylo kontroverzní Prý je zaměření příliš průmyslové Podle nás je praxe na univerzitě důlžitá Definici Big Data uvádět raději nebudu Nestrukturovaná data nebo Velký objem nebo Rychle přibývající záznamy

Předmět Big Data Učitelé: Jan Šedivý, Tomáš Vondra, Tomáš Tunys, Ondřej Pluskal, Martin Pavlík (IBM) Cíl: naučit studenty aplikovat algoritmy Platforma: Hadoop (distr. IBM BigInsights) Zvolená data: Obsah české Wikipedie Objem jen 1 GB, ale jsou nestrukturovaná Hardware: virtuální servery v cloudu TC Písek Do dvojice studentů cluster 3 strojů Celkem včetně testovací instance 45 VM Fyzicky spuštěno na 2 serverech

BDT: Program přednášek Cloud computing a platforma OpenStack Hadoop a jeho komponenty Paralelní programování a limitace Hadoopu Programování v Map-Reduce Implementace TF-IDF HDFS a databáze Hive a HBase Paralelní souborové systémy a administrace HDFS Knihovna Mahout Implementace clusterování k-Means Streaming data pomocí Apache Storm Cvíčení na Storm

HDFS – Hadoop Distributed File System File System where Hadoop components and applications expect their data Links together subsets of FS on nodes in cluster => brings new big virtual File System Uses Master / Slave architecture a b d c File1 NameNode DataNodes

Data never flows through NameNode HDFS – Write example NameNode B1 B2 B3 Data never flows through NameNode DataNodeR1N1 DataNodeR2N1 DataNodeR2N1 Name node communication Data send from client (from DataNodes to next DataNodes in the pipeline DataNodeR1N2 DataNodeR2N2 DataNodeR1N3 DataNodeR2N3 ACK of successful write of packet (typically 64kB) DataNodeR1N4 DataNodeR1N4 DataNodeR2N4 ACK of successful write of a block (typically 64MB) DataNodeR1N5 DataNodeR2N5 DataNodeR2N5 DataNodeR1N6 DataNodeR2N6 DataNodeR1N7 DataNodeR2N7 DataNodeR1N8 DataNodeR2N8

Distribute map tasks to cluster Return a single result set MapReduce - explained Data stored in HDFS spanning inexpensive computers Bring algorithms to data Distribute application to the compute resources where the data is stored Hadoop Data Nodes Map Phase(break job into small parts) Shuffle(transfer interim output for final processing) Reduce Phase(boil all output down to a single result set) public static class TokenizerMapper extends Mapper<Object,Text,Text,IntWritable> { one = new IntWritable(1); private final static IntWritable private Text word = new Text(); public void map(Object key, Text val, Context StringTokenizer itr = new StringTokenizer(val.toString()); while (itr.hasMoreTokens()) { context.write(word, one); word.set(itr.nextToken()); } public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWrita private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> val, Context context){ int sum = 0; sum += v.get(); for (IntWritable v : val) { . . . Distribute map tasks to cluster Shuffle Result Set Return a single result set

Parallel Reduce / Divide and Conquer Parallel search on CRCW-concurrent Read x, search for x in n/p, write 1 if found What about EREW PRAM? Read using parallel distribution (only 1 input) Write using parallel reduce (to get 1 result) Both have O(log p) -> O(n/p+2log p)

Map-Reduce in Hadoop Not classical map and reduce Uses the divide and conquer approach But no reduction trees - only two levels The single communication phase is managed Works with files or blocks of fixed size

WordCount algorithm

Document representation A dataset of documents: corpus. How documents can be represented? Each language has a more-less fixed vocabulary. Is order of words in text significant? How many different words are present in one document?

Vocabulary : how to build it? Should have the least amount of words, but most representative! Stop words? (a, the, or) Rare words? Advanced: Lemmatization Stemming Part of speech tagging

TF-IDF : The Idea Does the length of the document matter? TF = term frequency If we have some word in every document (e.g. word “love” in a corpus of romantic novels) does is it give enough information? IDF = inverse document frequency

Homework Assignment: Clean data and create vocabulary. Create tf-idf from Wikipedia in sparse matrix representation.

CAP theorem - CA / noSQL (CP + AP)

Hive Framework for data-warehousing in Hadoop Enable to run SQL queries on top of huge volumes of data stored in HDFS HiveQL - SQL dialect used on top of Hive Data are organized into tables Table creation Table population (no parsing, just copy / move to managed location on HDFS) CREATE TABLE records (year STRING, temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL INPATH 'input/ncdc/micro-tab/sample.txt' OVERWRITE INTO TABLE records;

HBase - data model - columns Row columns are grouped to column families All columns names has the following syntax: <col-fm-prefix>:<qualifying-tail>, e.g: temperature:air, temperature:dew_point Column families has to be defined with the table up-front members are stored in the file system together Columns can be defined and used on demand HBase is column-family store oriented Comparison of the model to RDBMS: Cells are versioned Rows are sorted according to row-key Columns can be added on the fly if family exists

Scalability, Tuning 1 CPU to disk ratio: 1 disk per 1 to 2 CPUs Local node optimization Balance CPUs and RAM, don’t let it swap Each system process and map/reduce is JVM -Xmx=1000M is default The processes are mostly single-threaded (with asynchronous I/O), so 1 map per CPU mapred.tasktracker.map.tasks.maximum Most examples set reduce.tasks.maximum to half this number All may be running at once! Don’t forget the system process overhead Slaves: Just DataNode and TaskTracker Master: A lot of them :-) CPU to disk ratio: 1 disk per 1 to 2 CPUs

Hadoop on cloud 1 Advantages: Fast deployment of Big Data infrastructure Sharing of servers with other tasks Increased utilization Disadvantages: Virtualization overhead 1s of % on CPU, 2 schedulers defeat Amdahl It is present in 10s of % on disk and net Specialties: add and remove nodes based on actual usage core datanodes and temp. tasktrackers Elastic MapReduce / Elastic Data Processing launch a cluster just for a single task

Hadoop on cloud 2 Problems: Data redundancy. Replicas on different VMs may end on the same physical disk VMware: Hadoop Virtualization Extensions, in Hadoop 1.2 and 2.1+ Data persistence. VMs are temporary Use persistent disks - may be on a separate array Use cloud’s own filesystem, not HDFS, -”- Amazon S3, OpenStack Swift Use suspend function Use the physical machine as DataNode? Impact on disk and net for other tenants?

Hadoop on cloud 3 Implementations: Public: Amazon Elastic MapReduce Microsoft HDInsight Rackspace Big Data Platform Private VMware Serengeti -> Big Data Extensions OpenStack Savanna This list is not exhaustive. There are and will be more providers.

Lloyd's k-Means Algorithm Works in 2 steps (+ initialization): Initialization: Pick randomly K samples from dataset which become the initial cluster centroids. Assignment: For each data vector find the nearest centroid and assign the vector to its corresponding cluster. Refinement: Recalculate the cluster centroids as the means of the data vectors within their corresponding clusters. When do we stop? Threshold for the maximum number of iterations. Use the detla rule - If nothing moves much, halt!

K-means: Assignment

K-means: Refinement

K-means: Assignment

K-means: Assignment -> Terminate

Machine Learning Stream Processing Batch Processing S4 Storm Spark Hadoop minutes to hours real time SAMOA MLib Mahout

Hadoop slow due to I/O operations

Spark

Storm oriented graph Terminology: Sprouts, Streams, Bolts

Vývoj internetových aplikací Volitelný předmět v zimním semestru Kapacita 40, 4.rok a přihlášeno 37 Rovněž praktický předmět Zaměřeno na propojení cloudu a mobilní aplikace (ideálně i s Big Data) Některé technologie studenti vidí poprvé OpenStack, Android, SQLite, REST Jiné již znají z ostatních předmětů Java, servlety, JSON

Vývoj internetových aplikací Učitelé: Jan Šedivý, Filip Kolařík, Radek Pospíšil (HP), Tomáš Bařina, Tomáš Tunys, Tomáš Vondra Cíl: napsat mobilní aplikaci s cloudovým backendem Platforma: Samsung Galaxy a OpenStack Forma: Týmový projekt po 4-5 lidech Zadání vymýšlí studenti sami Hardware: zatím neznámo - během let se měnil Nejdříve Google App Engine, pak Eucalyptus, minule OpenStack na nevyhovujícím kancelářském HW Každému týmu tu stačí jeden až dva VM s 0,5 GB RAM Doufáme v další spolupráci s TC Písek

VIA: Program přednášek Platforma Android Programování pro Android Architektura REST Jak napsat REST v Javě Od hostingu ke cloudu Praktické příklady cloudových služeb Cloud Computing a OpenStack Spusťte si vlastní server Komunikace v Androidu Databáze MySQL SQLite v Androidu Performance engineering a load testing Bezpečnost webových aplikací