Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Analytické aplikácie Adaptované z knihy (kap.9) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada, Praha, 2009. ISBN: 978-80-247-2615-1.

Podobné prezentace


Prezentace na téma: "Analytické aplikácie Adaptované z knihy (kap.9) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada, Praha, 2009. ISBN: 978-80-247-2615-1."— Transkript prezentace:

1 Analytické aplikácie Adaptované z knihy (kap.9) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada, Praha, ISBN:

2 9. Analytické aplikace, business intelligence Business intelligence (Bl) představuje specifický typ úloh informatiky, které téměř výlučně podporují analytické, plánovací a rozhodovací činnosti podniků a organizací a jsou postaveny na principech, které právě těmto činnostem nejvíce odpovídají.

3 Historie Pokusy směřující k podpoře manažerských a analytických úloh v podnikovém řízení se začaly objevovat již na konci sedmdesátých let minulého století v souvislosti s rozvojem on-line zpracování dat. V druhé polovině osmdesátých let přišly na trh v USA první firmy (Comshare a Pilot) s komerčními produkty označovanými jako EIS (Executive Information System), založenými na tzv. multidimenzionálním uložení a zpracování dat. Trh s EIS produkty se pak velmi rychle rozvíjel a na začátku devadesátých let se začaly prosazovat i na českém ICT trhu. Koncem osmdesátých a začátkem devadesátých let se v USA začal velmi silně prosazovat i další trend v této oblasti, a to datové sklady a datová tržiště, který se v druhé polovině devadesátých let přenesl i na český trh. Samotný termín business intelligence zavedl až v roce 1989 Howard J. Dresner, analytik společnosti Gartner.

4 Historie V současné době je rozvoj a využití business intelligence mimořádně intenzivní, rozšiřují se o celou řadu dalších technologií, např. webových, zasahují stále větší rozsah podnikového řízení a operují na stále mohutnějších objemech dat. Pozornost, jakou současná praxe věnuje business intelligence, dokumentují tuzemské i celosvětové průzkumy. Např. podle průzkumu společnosti Gartner, kterého se zúčastnilo přes 600 podnikových manažerů z celého světa, je v žebříčku priorit, pokud jde o investice do informatiky, v létech 2006, 2007 i 2008 business inelligence vždy na prvním místě Očekává se, že tento stav bude platit i pro příští léta. Rovněž meziročnímu nárůstu tržeb v různých segmentech ICT trhu dominuje business intelligence s 11,2 %, oproti většině transakčních aplikací, které se pohybují na úrovni 8 %.

5 Podstata business intelligence Pra pochopení podstaty business intelligence je účelné vyjít z rozdílů mezi transakčními a analytickými úlohami v podnikovém řízení. Budeme-li porovnávat základní pojetí práce uživatele (obchodníka, účetního, referenta) pracujícího převážně transakčním způsobem a uživatele (manažera, finančního, marketingového či jiného analytika) využívajícího data pro podnikové analýzy a reporty, pak můžeme dojít k rozdílům, které dokumentuje obrázek Zatímco v případě transakčních úloh je významný přehled detailních informací např. k jednotlivým položkám zboží, pak v případě analytických úloh se jedná o vyhodnocování určitých ukazatelů, v našem případě objemu tržeb za zboží, podle různých dimenzí (zákazníků, zboží atd.), včetně časové dimenze.

6 Rozdíly v transakčních a analytických úlohách

7 Při transakčních úlohách (v účetnictví, při práci s obchodními dokumenty) má uživatel převážně tyto nároky: 1.zajistit co nejrychlejší přístup k jednotlivým detailním datům (objednávkám, fakturám, jednotlivým zákazníkům apod.) a umožnit efektivní provedení všech požadovaných operací, 2.realizovat aktualizace jednotlivých údajů na základě změnových dat, např. aktualizovat data o zákazníkovi na základě nových skutečností, aktualizovat stav účtu podle přijaté faktury apod., 3.vytvářet na základě existujících či nových dat příslušné obchodní a další dokumenty se všemi obsahovými i formálními náležitostmi (objednávky, dodací listy, faktury).

8 Při řešení podnikových analýz, tvorbě plánů, při rozhodovacích aktivitách musí informatika pro uživatele plnit tyto nároky zajistit vyhodnocení sledovaných podnikových ukazatelů, např. objemu tržeb, na definovaném (často maximálně možném) rozsahu podnikových dat, poskytnout možnost analyzovat tyto ukazatele podle různých hledisek, resp. dimenzí a jejich nejrůznějších kombinací, např. podle objemu tržeb podle zákazníků, zboží, teritorií, typů zakázek, prodejců, prodejních kanálů a dalších, a to v přijatelné době odezvy, umožnit sledování vývoje podnikových ukazatelů a jejich výkyvů v čase, tj. vytváření časových řad, různých typů indexů apod., nabídnout možnost realizace uvedených analýz a hodnocení ukazatelů na různých úrovních detailu, resp. agregace sledovaných hodnot.

9 Princípy business intelligencie Zatímco transakční aplikace zpřístupňují a aktualizují detailní data ve svých databázích a na jejich základě umožňují vytvářet nejrůznější přehledy a dokumenty, pak analytické aplikace de facto žádná nová data nevytvářejí, ale využívají již existující databáze transakčních aplikací, transformují je a podle požadavků pak umožňují již zmíněné analýzy. Tyto nejzákladnější principy pak mají v praxi mnoho podob, modifikací a nabízených možností. Právě specifické nároky uživatelů na podporu svých rozhodovacích, analytických či plánovacích aktivit jsou základem vzniku a současného mimořádně rychlého rozvoje business intelligence.

10 Definice BI Business intelligence (Bl) je sada procesů, know- how, aplikací a technologií, jejichž cílem je účinně a účelně podporovat řídící aktivity ve firmě. Podporují analytické, plánovací a rozhodovací činnosti organizací na všech úrovních a ve všech oblastech podnikového řízení, tj. prodeje, nákupu, marketingu, finančního řízení, controllingu, majetku, řízení lidských zdrojů, výroby a dalších.

11 Business intelligence je tak orientována na vlastní využití informací v řízení a rozhodování, a nikoli na základní zpracování dat a realizaci běžných obchodních, finančních a dalších transakcí. To, jak jsou možnosti Bl využity, dnes do značné míry ovlivňuje výkonnost a kvalitu řízení firmy a v souvislosti s tím nakonec i její celkovou úspěšnost a konkurenceschopnost. Bl je úzce provázána na ostatní aplikace IS/ICT, čerpá z nich vstupní data a stále častěji i tato data do ostatních aplikací vrací. Kvalita řešení Bl je proto úzce závislá na kvalitě ostatních (transakčních) aplikací, zejména na kvalitě jejich produkčních databází.

12 Základní principy business intelligence Zatímco transakční systémy jsou primárně určeny pro pořizování a aktualizace dat a tomu odpovídá i organizace dat v databázi, pak řešení business intelligence jsou určena pro analytické aplikace a tomu musí odpovídat i výběr dat ze zdrojových databází a jejich organizace v analytických databázích.

13 Základní principy business intelligence Zatímco transakční systémy udržují data na maximální úrovni detailu (tedy na úrovni jedné transakce se všemi jejími detailními atributy), Bl řešení ukládají pouze data relevantní pro analýzy, tedy na potřebné úrovni detailu (granularity), tedy detailní i agregovaná podle požadovaných hledisek podnikového řízení.

14 Základní principy business intelligence Obrázek naznačil, že analytické aplikace pracují primárně s daty podnikových ukazatelů, a ty vyhodnocují podle nejrůznějších hledisek, dimenzí a jejich kombinací. To znamená, že Bl řešení jsou založena na multidimenzionalitě uložení a zpracování dat.

15 Základní principy business intelligence Zatímco transakční systémy obvykle udržují databáze pouze s aktuálními daty, Bl řešení jsou založena na využití časové dimenze, to znamená, že ukládají data do analytických databází postupně v jednotlivých časových snímcích.

16 Základní principy business intelligence Uvedené předchozí principy (agregace, multidimenzionalita, časová dimenze) vedou ke specifickým, podstatně vyšším nárokům business intelligence na kvalitu dat.

17 Výběr a organizace dat Obrázek naznačil, že aplikace business intelligence nevytvářejí nebo nepořizují nová data, ale využívají data vytvořená transakčními aplikacemi (ERP, CRM atd.). Databáze těchto transakčních aplikací se proto z pohledu Bl označují jako zdrojové. Podstatnou vlastností těchto databází (transakčních aplikací) je organizace jejich dat podporující přístupy k detailním datům, ukládání a aktualizace dat, tj. že jsou pro tyto operace optimalizované (např. na základě normalizace datových struktur).

18 Oproti tomu analytické Bl aplikace jsou optimalizované na efektivní poskytování analytických informací, tj. data zde musí být organizovány ve shodě s potřebami analytických úloh (viz obr. 9.1), tj. musí obsahovat hodnoty ukazatelů ve vazbě na analytická hlediska, tedy dimenze. Z toho vyplývá, že mezi zdrojovými databázemi a analytickými databázemi musí proběhnout transformace dat (viz obr. 9.2). Detailněji tento princip dokumentuje obr. 9.3.

19

20 Transformace dat

21 V rámci transformace dat dochází k fyzickému přenosu dat mezi zdrojovými a analytickými databázemi. ETL (Extract, Transform, Load), nebo také datová pumpa, je program, resp. soustava programů, který zajišťuje výběr dat (Extract) ze zdrojových databází, jejich transformace (Transform) do jiných datových struktur (jiných tabulek a struktur záznamů) a fyzické uložení dat (Load) do analytických databází.

22 Transformace dat Ze zdrojových databází musí být vybrána pouze taková data, která jsou určena pro analytické, plánovací a rozhodovací aktivity podniku, tedy nikoli všechna data. Jedním z prvních úkolů řešitelů business intelligence je takový kvalifikovaný výběr dat určit, tj. rozhodnout, co se bude z datových zdrojů vybírat. Data jsou transformována do nových datových struktur analytických databází, které musí být předem navrženy tak, aby nejlépe odpovídaly potřebám řízení podniku. To souvisí s možnostmi řešení multidimenzionality a granularity dat

23 Transformace dat Jak ukazuje obr. 9.2, data do business intelligence vstupují z různých zdrojových databází (ERP, e- Business, CRM atd.), přičemž v těchto různých zdrojích mohou být tatáž data uložena vícekrát (a k tomu ještě různě), např. různé databáze prodejců, zákazníků apod. Ale do analytických databází musí vstoupit pouze jednou; v této souvislosti se o Bl často mluví jako o „jedné verzi pravdy“

24 Transformace dat V transformační vrstvě musí dojít ke konsolidaci dat, tj. určení vstupujících dat s vyloučením duplicit či multiplicit. Se zajištěním konsolidace dat úzce souvisí i dosažení potřebné kvality dat, tj. vyloučení chyb, nepřesností atd. Právě tato část projektů Bl, tedy řešení transformační vrstvy, je pracovně, časově i finančně nejnáročnější, a obvykle představuje cca 60 % vynaložených pracovních kapacit. Pro úspěšné Bl řešení však znamená zcela nezbytný předpoklad.

25 Dimenze a granularita dat Dimenzí se z pohledu užití rozumí analytické hledisko pro hodnocení sledovaných ukazatelů, Z informatického pohledu se jeví jako struktura dat, resp. jako databázová tabulka obsahující záznamy o jednotlivých prvcích dimenze, tj. např. o zákaznících, položkách zboží apod.

26 Dimenze a granularita dat Prvky dimenzí (např. položky zboží) jsou většinou uspořádány v hierarchické struktuře, tzn., že se rozdělují na např. kategorie prvků (např. Audio, kino), skupiny (např. Auto hifi) až na jednotlivé prvky (např. Autorádio Logik). Je zřejmé, že hierarchických úrovní ve struktuře (skupin, podskupin atd.) může být podle potřeby více. Produkty business intelligence pak zajišťují agregace a další vypočtené hodnoty ukazatelů, a to podle definovaných hierarchických úrovní dimenzí. Jednoduchým příkladem takové struktury a odpovídajících agregací může být dimenze Zboží.

27 Struktura dimenze Zboží

28 Dimenze a granularita dat Do analytických databází (zejména tzv. OLAP databází, viz dále) se ukládají i agregované hodnoty ukazatelů, tj. na nižší úrovni detailu, resp. v nižší granularite. Příkladem jsou hodnoty tržeb za kategorie nebo skupiny zboží (např. tržby za skupinu zboží Audio, kino, nebo podskupinu Auto hifi apod.). Tato metoda je využívána pro urychlení odezvy systému na analytické požadavky. Pokud by totiž bylo nutné on-line vypočítávat součty při zobrazování tabulky či grafu ze statisíců či milionů hodnot, odezva systému by mohla být neúnosně veliká.

29 Dimenze a granularita dat Hierarchie uložení agregovaných dat pak uživateli umožňuje pružně se po požadovaných úrovních agregace pohybovat (na úrovni kategorie zboží, skupin či jednotlivých zbožových položek), aniž by bylo nutné vždy znovu požadované agregace počítat. Tento princip se označuje jako drill down (pohyb - zpřístupnění dat na vyšší úroveň detailu, vyšší granularitu) nebo drill up (v opačném směru).

30 Multidimenzionalita uložení a práce s daty Požadavek pohledů uživatele na sledované ukazatele z více hledisek (dimenzí) a jejich kombinací je základem pro řešení principu multidimenzionality uložení a práce s daty. To s sebou současně přináší i požadavek na specifickou organizaci dat v databázi.

31 Multidimenzionalita uložení a práce s daty Způsob realizace multidimenzionality v datech poskytuje dvě základní možnosti, a podle nich rozdělíme i další objasnění tohoto principu: 1.multidimenzionalita vyjádřená v relačních databázích, 2.multidimenzionalita dat realizovaná pomocí tzv. OLAP technologie (On Line Analytical Processing), tj. technologie vyvinuté speciálně pro tyto účely.

32 Multidimenzionalita dat v prostředí relační databáze Datové modely produkčních systémů jsou komplexní, obsahují mnoho tabulek a jejich vazeb. Takto organizovaná data jsou z hlediska jejich vytváření a aktualizace velmi efektivní, ale pro běžného uživatele se stávají dosti nepřehledná. Pro výše uvedený nedostatek se objevily snahy o zjednodušení takového uložení dat a jeho přizpůsobení pro tvorbu Bl řešení. Vznikl tak relační dimenzionální model, kterému se také běžně říká Schéma hvězdy (Star scheme) - obr. 9.5, resp. Schéma sněhové vločky (Snowflake scheme) - obr. 9.6.

33 Dimenzionální model V centru schématu je tzv. tabulka faktů, tedy tabulka sledovaných ekonomických a dalších ukazatelů, identifikovaných klíčem složeným z klíčů tzv. dimenzionálních tabulek, v nichž jsou uloženy prvky jednotlivých dimenzí. Dimenzionální tabulky tak de facto slouží pro uložení popisných informací o hodnotách uložených v tabulce faktů. Typicky si lze dimenzionální tabulku představit jako číselník.

34 Dimenzionální model

35 V některých případech je ovšem i řešení schématu hvězdy z řady důvodů nevýhodné, zejména tehdy, pokud se data v tabulce častěji aktualizují. V těchto případech se proto dimenzionální tabulky upravují, resp. normalizují. To v tomto případě znamená, že se dimenzionální tabulka rozdělí podle hierarchických úrovní dimenze do více tabulek, aby se stejná data v tabulce neopakovala. Schéma, které takto vznikne, se nazývá Schéma sněhové vločky (Snowflake scheme).

36 Schéma sněhové vločky

37 Je zřejmé, že databáze datového skladu či datových tržišť (viz dále) nemůže být řešena jedním schématem typu STAR či SNOWFLAKE, ale těchto schémat je v jejich databázích obvykle obrovské množství. Základní princip je v tom, že se sledované ukazatele dělí do tabulek faktů podle logické příbuznosti, a tedy i podle stejných přiřazených dimenzí a stejných složených klíčů. Takto se vytvářejí jednotlivá schémata, která se pak provazují pomocí společných, resp. sdílených dimenzí.

38

39 Multidimenzionalita dat v prostředí OLAP technologie Multidimenzionální databáze jsou optimalizované pro uložení a interaktivní využívání multidimenzionálních dat. Výhodou multidimenzionality, resp. nasazení OLAP (On-Line Analytical Processing) technologií je rychlost zpracování a efektivní analýzy multidimenzionálních dat (drílling, slice and dice apod.). OLAP technologie tak nabízejí efektivní přístup k datům v jednoduché struktuře vhodné pro analytické činnosti podnikových manažerů a podporu jejich rozhodování. Se zavedením pojmu Bl a současně s rozvojem nástrojů a technologií pro širokou podporu analytických činností v organizaci se však výraz OLAP poněkud zúžil

40 Multidimenzionalita dat v prostředí OLAP technologie Užší význam definuje OLAP čistě technologický, tedy jako „informační technologii založenou především na koncepci multidimenzionálních databází“. Jejím hlavním principem je několika dimenzio- nální tabulka umožňující rychle a pružně měnit jednotlivé dimenze, a měnit tak pohledy uživatele na modelovanou ekonomickou realitu.

41 Multidimenzionalita dat v prostředí OLAP technologie Základním principem technologie OLAP je několikadimenzionální tabulka umožňující velmi rychle a pružně měnit jednotlivé dimenze a nabízet tak uživateli různé pohledy na modelovanou ekonomickou realitu; tabulka zároveň nabízí možnosti drill down, drill up nebo slice and dice pro výběr („vykrojení") dat z OLAP kostky, jak dokumentuje obr OLAP kostky tak zahrnují předzpracované agregace dat podle výše uvedených hierarchických struktur dimenzí a jejich kombinací. Jde tak v podstatě o princip „n- dimenzionální Rubikovy kostky" naplněné nejdůležitějšími podnikovými daty.

42 Princip multidimenzionální databáze na bázi OLAP

43 OLAP databáze Z obrázku vyplývá, že standardními dvěma dimenzemi jsou tu ukazatele (ekonomické proměnné) a čas. Ostatní dimenze se pro jednotlivé modely definují podle potřeby, např. organizační jednotka, zboží, zákazník, dodavatel, teritorium, konkurent apod. Obsah dimenzí je tvořen prvky dimenzí, tj. konkrétními závody, provozy nebo zákazníky, dodavateli, komoditami apod. Promítnutí všech dimenzí do jednoho bodu tvoří prvek OLAP kostky Na základě technologie OLAP jsou založeny tzv. OLAP databáze, které představují jednu nebo několik souvisejících OLAP kostek.

44 OLAP databáze Technologie OLAP se prakticky realizuje v několika variantách, a to MOLAP, ROLAP, HOLAP a DOLAP: 1.Pro MOLAP (Multidimensional OLAP) je charakteristické speciální uložení dat v multidimenzionálních - binárních OLAP kostkách. 2.ROLAP (Relational OLAP) řeší multidimenzionalitu s využitím technologie relačních databází. 3.HOLAP (Hybrid OLAP) je kombinací předchozích přístupů, kdy detailní data jsou uložena v relační databázi a agregované hodnoty jsou uloženy v binárních OLAP kostkách. 4.DOLAP (Desktop OLAP) je architektura OLAP databází, která se objevila koncem 90. let. DOLAP umožňuje připojit se k centrálnímu úložišti OLAP dat a stáhnout si potřebnou podmnožinu kostky na lokální počítač. Veškeré analytické operace jsou pak prováděny nad touto lokální kostkou, takže uživatel nemusí být připojen k serveru. Toto je výhodné zejména pro mobilní aplikace a podporu mobilních uživatelů obecně.

45 Nároky na kvalitu dat Jedním z častých problémů současné podnikové informatiky je nízká kvalita dat. To se nejvíce promítá právě do řešení aplikací business intelligence, které jsou na kvalitu dat zvláště citlivé, neboť každá dílčí chyba se může v souhrnných reportech nebo analytických aplikacích mnohonásobně projevit nebo zvětšit.

46 Nároky na kvalitu dat Kvalita dat se posuzuje podle čtyř základních hledisek: Dostupnost (availability) - vyjadřuje možnosti, jak může uživatel přistupovat k informacím v okamžiku aktuální potřeby; dělí se na: 1.dostupnost v čase, 2.dostupnost v místě, lokalitě, kde mají být informace využity, 3.dostupnost v požadované struktuře, 4.dostupnost v požadovaném formátu.

47 Nároky na kvalitu dat Přesnost (accuracy) - sleduje, zda všechna data jsou ve správném kontextu (např. zda odpovídá dané PSČ zadané adrese). Úplnost (completeness) - určuje, do jaké míry jsou k dispozici všechny informace pro daný kontext, např. existuje správné PSČ, ale celá adresa je neúplná. Dalším příkladem je situace, kdy nemusí platit, že jsou všechny požadované transakce faktů naimportovány, tj. celkový jejich souhrn má pravdivý smysl jenom tehdy, když ho tvoří všechny detailní transakce.

48 Nároky na kvalitu dat Konzistence (consistency) - specifikuje možné problémy v porušení standardů nebo vazeb mezi daty. Např. databáze zákazníků v různých lokalitách mají pro stejného zákazníka různá identifikační čísla.

49 Nároky na kvalitu dat Významným aspektem kvality dat je určení a zjišťování možných zdrojů chyb, nepřesností, neúplností a porušených konzistencí. Při analýze zdrojových datových bází je proto nutné identifikovat nejen syntaxi dat (tabulky, atributy, klíče), ale i jejich sémantiku (význam jednotlivých atributů, kombinace různých příznaků apod.).

50 Nároky na kvalitu dat Největším zdrojem chyb a různých poruch v datech je obvykle provoz transakčních aplikací, resp. jejich využití koncovými uživateli. V souvislosti s tím existují následující případy způsobující obvyklé chyby v datech: – chyby, které vznikají při manuálních vstupech dat, např. prohození číslic, pravopisné chyby, špatně zadané kódy, hodnoty zapsané do nesprávného pole; – data pocházející z různých zdrojů (různých zdrojových aplikací), s tím jsou spojeny problémy sjednocení čí­ selníků, dodržení formálních standardů v datech apod.;

51 Hlavní komponenty řešení business intelligence

52 Produkční (zdrojové) databáze Produkční (zdrojové) databáze jsou databáze aplikací (také někdy označovaných jako primární, LOB - Line of Business, transakční, OLTP či legacy), ze kterých aplikace business intelligence získávají data a které nepatří do skupiny Bl aplikací. Příkladem mohou být databáze aplikací ERP, SCM, CRM, ale i běžné soubory v tabulkových kalkulátorech (Excel) nebo soubory vtextovém vyjádření s oddělovači nebo s pevnou strukturou vět (tzv. flat files). Zdrojem pro řešení Bl nemusí být pouze databáze interních aplikací podniku, ale i externí (např. databáze podnikatelských subjektů, telefonní seznamy, výstupy statistických úřadů či vládních institucí apod.). Produkční databáze jsou hlavním, a často i jediným vstupem do Bl. V praxi je většinou jejich spektrum velmi různorodé a heterogenní jak obsahově, tak technologicky. Úkolem řešení Bl je pak zajistit analýzu těchto zdrojů z pohledu potřeb řízení firmy a zajistit výběr relevantních dat pro řízení a následně jejich vzájemnou integraci.

53 ETL - Extract, Transform and Load ETL (Extract, Transform and Load) je jednou z nejvýznamnějších komponent celého komplexu Bl. Běžným označením pro prostředky ETL je rovněž datová pumpa. Jejím úkolem je data ze zdrojových systémů získat avybrat (extract), upravit do požadované formy, vyčistit (transform) a nahrát je do specifických datových struk­tur, resp. datových schémat datového skladu (load). Tyto nástroje lze tedy použít pro přenos dat mezi dvěma (či více) libovolnými aplikacemi a databázemi ETL nástroje pracují v dávkovém režimu, data jsou tedy přenášena najednou v určitých časových intervalech, např. denních, týdenních, měsíčních apod.

54 EAI - Enterprise Application Integration Nástroje EAI (Enterprise Application Integration) vznikly a dnes jsou v naprosté většině případů využívány ve vrstvě zdrojových aplikací. Jejich cílem je integrovat primární podnikové systémy a redukovat počet jejich vzájemných rozhraní. Tyto nástroje pracují principiálně na dvou úrovních: – na úrovni datové integrace, kdy jsou EAI platformy využity pro integraci a distribuci dat; – na úrovni aplikační integrace, kdy jsou EAI platformy využity nejen pro integraci a distribuci dat, ale především pro sdílení určitých vybraných funkcí aplikací. Na rozdíl od nástrojů ETL pracují EAI platformy v reálném čase. Své využití v business intelligence řešení nacházejí zejména ve vrstvě transformační, kdy jsou nástroje EAI využity pro přenos dat do datových úložišť v reálném čase, zejména operativních datových úložišť. EAI tak doplňuje dávkový přenos a umožňuje vznik datových skladů v reálném čase, resp. Real-time Data Warehouse.

55 Dočasné úložiště dat (DSA) Úkolem dočasného úložiště dat (DSA - Data Staging Area) je dočasné uložení extrahovaných dat z produkčních systémů a jejím hlavním úkolem je podporovat rychlou a efektivní extrakci (výběr) dat. DSA slouží k prvotnímu ukládání netransformovaných dat ze zdrojových systémů. Jedná se o nepovinnou komponentu řešení Bl, která nachází své uplatnění: – u neustále zatížených produkčních systémů, kde je potřeba transferovat jejich data s minimálním dopadem na jejich výkonnost; – u systémů, jejichž data je třeba před zpracováním konvertovat do databázového formátu (např. systémy pracující s textovými soubory apod.); – při malém časovém rozsahu pro extrakci dat ze zdroje.

56 Dočasné úložiště dat (DSA) Dočasné úložiště dat (DSA) - tak obsahuje data s následujícími charakteristikami: – detailní - data nejsou agregována; – nekonzistentní - data nejsou kontrolována proti externím číselníkům či ostatním datům v datovém skladu; – neobsahující historii - přenášejí se pouze aktuální data ze zdrojového systému; – měnící se- při každém snímku se berou obvykle pouze data, která ještě nebyla zpracována; po jejich zpra­ cování a přenosu do dalších komponent Bl řešení se tato data z DSA odstraní; – v přesně stejné struktuře, v jaké jsou uložena ve zdrojových systémech.

57 Operativní úložiště dat (ODS) Operativní úložiště dat (ODS - Operational Data Store) jExistují dva základní přístupy k definici ODS: První přístup definuje ODS jako jednotné místo datové integrace aktuálních dat z primárních systémů. Je to zdroj pro sledování konsolidovaných agregovaných dat s minimální dobou odezvy po zpracování (tedy sledování v téměř reálném čase). V mnoha případech takové ODS slouží jako centrální databáze základních číselníků (zákaznický, produktový) nebo pro podporu interaktivní komunikace se zákazníkem Druhý přístup vymezuje operativní úložiště dat jako databázi navrženou s cílem podporovat relativně jednoduché dotazy nad malým množstvím aktuálních analytických dat. Na rozdíl od prvního přístupu vzniká ODS jako derivace již existujícího datového skladu a obsahuje pouze aktuální záznamy vybraného množství dat.

58 Operativní úložiště dat (ODS) Stejně jako DSA, tak i ODS i obsahuje data bez historie (pouze aktuální) a měnící se po každém nahrání. Oproti DSA však ODS (díky transformačním operacím) obsahuje již data konsolidovaná, konzistentní, subjektově orientovaná, a v určitých případech i doplněná o agregace. Rozdíl mezi DSA a ODS je v jejich použití. Zatímco DSA slouží pouze jako dočasné úložiště dat před jejich zpracováním v datovém skladu (přičemž po zpracováni jsou tato data vymazána), ODS slouží jako databáze podporující analytický proces. ODS jsou vytvářeny s cílem zpřístupnit uživatelům nebo ostatním systémům data pro analýzy či dotazy s minimálním zpožděním oproti jejich pořízení. Typickým příkladem využití operativního úložiště dat je referenční databáze produktů nebo zákazníků. Tato referenční databáze slouží jako jednotný konsolidovaný zdroj příslušných dat pro všechny systémy nebo uživatele podniku.

59 Datový sklad (DWH) Technologie datových skladů představuje v současné době jeden z nejvýznamnějších trendů v rozvoji podniko­vých informačních systémů. Datový sklad (DWH - Data Warehouse) lze definovat mnoha způsoby. Za základ však budeme považovat definice jednoho ze zakladatelů DWH, Williama Inmona (Inmon, 2002): „Datový sklad je integrovaný, subjektově orientovaný, stálý a časově rozlišený souhrn dat, uspořádaný pro podporu potřeb managementu."

60 Datový sklad (DWH) Tyto pojmy lze pak interpretovat takto: Subjektově orientovaný - data jsou rozdělována podle jejich typu, ne podle aplikací, ve kterých vznikla. Jde tedy o případ, kdy jsou data o zaměstnanci uložena pouze jednou, a to v jedné databázi datového skladu, kdežto v produkčním systému bývají rozptýlena do různých souborů podle toho, pro kterou aplikaci mají být použita. Integrovaný - data jsou ukládána v rámci celého podniku, a ne pouze v rámci jednotlivých oddělení. Stálý-datové sklady jsou koncipovány převážně jako „readonly“, což znamená, že zde žádná data nevznikají a nelze je ani uživatelskými nástroji měnit. Data jsou do DWH načítána z produkčních databází či jiných externích zdrojů a existují zde po celou dobu života datového skladu. Časově rozlišený - aby bylo možné provádět analýzy za určitá období, je nutné, aby byla do DWH uložena i historie dat. Načítaná data s sebou tedy musí nést i informaci o dimenzi času.

61 Datové tržiště (DMA) Princip datových tržišť je obdobný, jako v případě datových skladů. Rozdíl je v tom, že datová tržiště (DMA -Data Mart) jsou určena pro omezený okruh uživatelů (oddělení, divize, pobočka či závod). Podstatou jsou tak decentralizované datové sklady, které se budou postupně integrovat do celopodnikového řešení. V některých případech slouží dále DMA i po vytvoření celopodnikového datového skladu jako mezistupeň při transformacích dat z produkčních databází. Data Mart je tak problémově orientovaný datový sklad, určený pro pokrytí konkrétní problematiky daného okruhu uživatelů a umožňující flexibilní „ad hoc" analýzu. Výsledkem vytváření DMA je zkrácení doby návratnosti investic, snížení nákladů a podstatné zmenšení rizika při jejich zavádění.

62 OLAP databáze OLAP databáze představují jednu nebo několik souvisejících OLAP kostek. Ty většinou, na rozdíl od datových skladů, již zahrnují předzpracované agregace dat podle definovaných hierarchických struktur dimenzí a jejich kombinací (viz předchozí text).

63 Reporting Reportingem budeme nadále rozumět činnosti spojené s dotazováním se do databází pomocí standardních rozhraní těchto databází (např. SQL příkazů). V rámci reportingu lze identifikovat tzv.: – standardní reporting, kdy jsou v určitých časových periodách spouštěny předpřipravené dotazy; – ad hoc reporting, kdy jsou na databáze (většinou) jednorázově formulovány specifické dotazy, explicitně vy­ tvořené uživatelem.

64 Analytické aplikace Analytické aplikace jsou typem klientských aplikací Bl, pro které je významné, že: jsou navrhovány speciálně pro poskytování „manažerských" informací - možňují sledovat firemní procesy, plnění cílů organizace apod.; jsou schopné přistupovat ke konkrétním datům stejně tak, jako vytvářet data agregovaná; poskytují nástroje pro on-line analýzy zahrnující především analýzy trendů, drill up, drill down, slice and dice a identifikaci výjimek; jsou jednoduše ovladatelné (standardně myší či pomocí technologie touchscreen) a zajišťují vysokou vypovídací hodnotu výstupů prostřednictvím grafického uživatelského prostředí.

65 Analytické aplikace Analytické aplikace se mohou provozovat v různém technologickém prostředí. S ohledem na zmíněnou požadovanou flexibilitu jsou však většinou realizovány klientskými aplikacemi nad OLAP databázemi. Vytvářejí a provozují se s pomocí různých prostředků, buď specializovaných produktů pro tyto aplikace, např. ProClarity, Oracle Discoverer apod., nebo pomocí kancelářských prostředků, např. Excel, Access, nebo pomocí aplikací vyvíjených ve specializovaných programových jazycích.

66 Analytické aplikace Analytické aplikace v Bl tak není nutné řešit pouze specializovanými nástroji, ale velmi efektivně se k tomu využívají prostředky kancelářského software, nejčastěji Excel, případně Access. To má velkou výhodu v jednoduché dostupnosti těchto prostředků, v minimálních nákladech a zejména ve znalostech uživatelů, kteří s těmito prostředky běžně pracují Pro realizaci funkcí Bl se využívá obvykle kontingenčních tabulek Excelu, které umožňují pružně měnit obsazení řádek a sloupců tabulky.

67 Dolování dat (Data Mining) Dolování dat umožňuje pomocí speciálních algoritmů objevovat v datech strategické informace. Je to analytická technika pevně spjatá s datovými sklady jako velmi kvalitním datovým zdrojem pro tyto speciální analýzy Dolování dat lze charakterizovat jako proces extrakce relevantních, předem neznámých nebo nedefinovaných informací z velmi rozsáhlých databází.

68 Dolování dat (Data Mining) Důležitou vlastností dolování dat je, že se jedná o analýzy odvozované z obsahu dat, nikoli analýzy předem specifikované uživatelem, a jedná se především o odvozování prediktivních informací, nikoli pouze deskriptivních. Dolování dat slouží manažerům k objevování nových skutečností, čímž pomáhají zaměřit jejich pozornost na podstatné faktory podnikání, umožňují testovat hypotézy, odhalují ve stále se zrychlujícím a složitějším obchodním prostředí skryté korelace mezi ekonomickými proměnnými apod.

69 Dolování dat (Data Mining) Existují různé druhy nástrojů pro dolování dat. Některé z nich jsou určeny specialistům se znalostmi statistiky, některé řídícím pracovníkům. Cílové určení úloh dolování dat je však podobné většině úloh business intelligence, tedy mají poskytovat strategické informace širokému spektru manažerů v organizaci. To, co odlišuje dolování dat od jiných statistických nastrojuje právě zaměření na odlišné uživatele. Statistické úlohy dolování dat jsou prováděny automaticky podle určených algoritmů, a tak jejich cílovým uživatelem může být i manažer bez speciálních znalostí statistiky, nikoli pouze specialista, který návazně zhotovuje reporty pro manažera.

70 Dolování dat (Data Mining) Dolování dat je založeno na množství matematických a statistických technik. – rozhodovací stromy, což je prediktivní model, který zobrazuje data v podobě stromu, kde každý kořen určuje kritérium pro následné rozdělení dat do jednotlivých listů – neuronové sítě, rovněž využívané pro tvorbu prediktivních modelů. – Clustering je technika sloužící pro rozdělení dat do skupin s obdobnými charakteristikami, – Klasifikace definuje podstatné atributy skupin v podobě klasifikačních kritérií.

71 Nástroje pro řízení kvality dat a správu metadat Nástroje pro zajištění datové kvality zažívají svůj prudký rozvoj s růstem nasazení analytických aplikací, zejména díky faktu, že pro úspěch nasazení řešení je kromě již zmíněné funkcionální a technické znalosti třeba korektní obsah. Vzhledem k povaze řešení - podpoře analytické práce -je důležité, aby tato práce probíhala nad korektními daty, dokumentujícími reálnou situaci podniku.

72 Nástroje pro řízení kvality dat a správu metadat Nástroje pro správu metadat odpovídají (podobně jako nástroje pro zajištění datové kvality) požadavkům, které získaly na důležitosti až s implementací řešení business intelligence. Metadata jsou definována jako data o datech, a v této souvislosti slouží pro dokumentaci konkrétních implementací informačních systémů podniku. Metadata jsou tedy popisem veškerých informačních systémů i jejich jednotlivých částí. Z pohledu řešení business intelligence zahrnují zejména datové modely, popisy funkcí, business 1 a transformačních 2 pravidel, reportů či požadavků na reporty apod.

73 Nástroje pro řízení kvality dat a správu metadat Základním důvodem pro existenci metadat je nutnost popsat obsah a principy fungování jednotlivých komponent jakéhokoli IS/ICT řešení. Výhodou existence metadat je možnost snadnějšího pochopení principů, funkcionality a obsahu jednotlivých řešení.


Stáhnout ppt "Analytické aplikácie Adaptované z knihy (kap.9) : Pour,J., Gála,L, Šedivá, Z..: Podniková informatika, 2. Vydanie,. Grada, Praha, 2009. ISBN: 978-80-247-2615-1."

Podobné prezentace


Reklamy Google