Organizace a zpracování dat I

Slides:



Advertisements
Podobné prezentace
OZD: Hašování RNDr. Michal Žemlička.
Advertisements

Úvod do databázových systémů
Základy databázových systémů
Přednáška č. 1 Úvod, Historie zpracování dat, Základní pojmy
Přednáška č. 3 Normalizace dat, Datová a funkční analýza
Aplikační a programové vybavení
Databáze.
 Informací se data a vztahy mezi nimi stávají vhodnou interpretací pro uživatele, která odhaluje uspořádání, vztahy, tendence a trendy  Existuje celá.
SOFTWARE dálkové studium PODNIKÁNÍ 2. listopad 2006.
Souborové systémy.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
SQL Lukáš Masopust Historie  Předchůdcem databází byly papírové kartotéky  děrný štítek  1959 konference  1960 – vytvořen jazyk COBOL.
Úvod do databází Databáze.
1IT Relační datový model
Databáze Jiří Kalousek.
ORGANIZACE DATOVÉ STRUKTURY SOUBOR
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Řadicí algoritmy autor: Tadeáš Berkman.
B-strom je dynamická indexová struktura.
KONCEPTUÁLNÍ MODELOVÁNÍ
D ATOVÉ MODELY Ing. Jiří Šilhán. D ATABÁZOVÉ SYSTÉMY Patří vedle textových editorů a tabulkových kalkulátorů k nejrozšířenějším představitelům programového.
Školení správců II. Petr Pinkas RNDr. Vít Ochozka.
Databázové systémy přednáška+cvičení
DBI007: Fyzické nosiče souborů RNDr. Michal Žemlička.
Algoritmy a programovací techniky
Relační databáze.
Algoritmy vyhledávání a řazení
Vypracoval: Ondřej Dvorský Třída: VIII.A
Databázové systémy. Práce s daty Ukládání dat Aktualizace dat Vyhledávání dat Třídění dat Výpočty a agregace.
Databázové systémy Architektury DBS.
Základní pojmy Systém je abstrakce, kterou si lidé vytvářejí v procesu poznávání jako nástroj zkoumání reálných objektů.
Metainformační systém založený na XML Autor: Josef Mikloš Vedoucí práce: Ing. Jan Růžička, Ph.D. V/2004.
Databázové systémy Přednáška č. 7 Uživatelské rozhraní.
Vyváženost SOS Vyvážené SOS –Omezení délky vyhledávací cesty ve struktuře počtem logických stránek M O(f(M)): O(M), O(log M), O(1), … Složitost (počet.
Informatika pro ekonomy II přednáška 10
Databázové systémy Přednáška č. 6 Proces návrhu databáze.
OSNOVA: a) Úvod do OOPb) Třídy bez metod c) Třídy s metodamid) Konstruktory a destruktory e) Metody constf) Knihovní třídy g) Třídy ve tříděh) Přetížení.
Teorie zpracování dat KONCEPTUÁLNÍ SCHÉMA.
Databáze.
Geoinformační technologie Geografické informační systémy (GIS) Výukový materiál pro gymnázia a ostatní střední školy © Gymnázium, Praha 6, Nad Alejí 1952.
Copyright (C) 2000 Vema, a. s.1 V3 klient Michal Máčel Provozní integrace G2, HR/Win a internetu.
7. Typ soubor Souborem dat běžně rozumíme uspořádanou množinu dat, uloženou mimo operační paměť počítače (na disku). Pascalský soubor je abstrakcí skutečného.
DATABÁZOVÉ SYSTÉMY. 2 DATABÁZOVÝ SYSTÉM SYSTÉM ŘÍZENÍ BÁZE DAT (SŘBD) PROGRAM KTERÝ ORGANIZUJE A UDRŽUJE NASHROMÁŽDĚNÉ INFORMACE DATABÁZOVÁ APLIKACE PROGRAM.
Databázové modelování
Databáze Lokální systémy a SQL servery VY_32_INOVACE_7B10.
Databázové systémy Informatika pro ekonomy, př. 18.
Infrastruktura pro dotazování nad sémantickými daty Jiří Dokulil, Jakub Yaghob, Filip Zavoral Katedra softwarového inženýrství, MFF UK Praha
Výrok „Vypadá to, že jsme narazili na hranici toho, čeho je možné dosáhnout s počítačovými technologiemi. Člověk by si ale měl dávat pozor na takováto.
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Teorie zpracování dat RELAČNÍ DATOVÝ MODEL.
Databázové systémy Datové modely.
MS ACCESS Databáze pro každého. Základní pojmy  Data  určitá fakta, vztahující se k objektům z reálného světa, uložená v paměti počítače  Informace.
Návrh a implementace algoritmů pro údržbu,
Kontakty slajdy: ftp://ulita.ms.mff.cuni.cz/predn/POS.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
DATABÁZE.
Úvod do databází zkrácená verze.
● Databaze je soubor dat,slouží pro popis reálného světa(např.evidence čkolní knihovny..) ● Relační databaze je databáze založená na relačním modelu.
Moderní informační systémy - úvod do teorie, druhy IS v cestovním ruchu.
YOUR LOGO C# Entity Framework. YOUR LOGO  Entity framework nám poskytuje: -Vytváří objektový model na základě databázového schématu -Mapuje tabulky,
Uvedení autoři, není-li uvedeno jinak, jsou autory tohoto výukového materiálu a všech jeho částí. Tento projekt je spolufinancován ESF a státním rozpočtem.
Databáze MS ACCESS 2010.
OPERAČNÍ SYSTÉMY Část 4 – správa souborů
Vlastnosti souborů Jaroslava Černá.
Soubor Soubor v informatice označuje pojmenovanou sadu dat uloženou na nějakém datovém médiu, se kterou lze pracovat nástroji operačního systému jako.
Informatika pro ekonomy přednáška 8
Projekt studentů oboru Informatika
Správa disků
Transkript prezentace:

Organizace a zpracování dat I DBI007 Organizace a zpracování dat I Prof. RNDr. Jaroslav Pokorný, CSc. RNDr. Michal Žemlička

Zdroje J. Pokorný, M. Žemlička: Základy implementace souborů a databází, Karolinum, Praha, 2004 J. Pokorný: Základy implementace souborů a databází, Karolinum, Praha, 1997. http://kocour.ms.mff.cuni.cz/testy/pokorny http://kocour.ms.mff.cuni.cz/~zemlicka/vyuka/DBI007

Proč sem chodit? Základy efektivní práce s persistentními daty Poznání světa, kde se setkává teorie s praxí – aneb jak o iluze přijít ne příliš bolestivě

Typické úlohy, které budeme umět lépe řešit knihovní agenda rezervace místenek či letenek nabídkové katalogy sklad …

Cíle zajistit „optimální“ provoz souborů zajistit „optimální“ uživatelské rozhraní Neboli: zajistit, aby námi vytvářené aplikace byly dostatečně efektivní při zachování dalších dobrých vlastností

vrstvy struktur + zobrazení mezi nimi Zpracování dat organizace dat na vnějších pamětech pro efektivní zpracování interpretace dat uživatelem techniky organizace dat ve formě souborů konceptuální model, dotazovací jazyky vrstvy struktur + zobrazení mezi nimi

Teze klasické techniky nepostačují pro zpracování velkých objemů dat a netriviální dotazy nelze zajistit optimálnost provozu souborů ve všech aspektech  Ať žijí kompromisy!!

Hromadné zpracování dat (HZD) Založeno na souborech a specializovaných aplikacích provádějících dílčí manipulace se soubory Využívá zejména statické organizace souborů Typicky data zpracovávána v dávkách Minimální nároky na zdroje Robustní – aplikace je většinou možné po selhání restartovat bez poškození zpracovávaných dat

Nevýhody HZD Nízké prostředky pro vytváření vazeb mezi záznamy souborů Redundance a nekonzistence dat Obtížnost přístupu k datům Izolace dat Problémy s více uživateli Problémy s integritou dat Nízké prostředky pro vytváření vazeb mezi záznamy souborů

Záznam Logický Fyzický kolekce logicky souvisejících položek – hodnot atributů Fyzický logický záznam doplněný o oddělovače, definice délek, zarážky, … Délka fyzického záznamu, R

dán jmény a doménami atributů Typ záznamu dán jmény a doménami atributů Aj: dom(Aj) A1:D1,…,An:Dn

Soubor Identifikovaná kolekce logicky souvisejících záznamů Pozor! Je to kolekce a ne množina, neboť v souboru může být více totožných záznamů.

Obsahuje pouze záznamy jediného typu Homogenní soubor Hodnoty Primitivní typy Deklarace S(A1:D1,…,An:Dn) Obsahuje pouze záznamy jediného typu

Nehomogenní soubor Opak homogenního souboru – obsahuje buď záznamy různých typů, záznamy se složitější strukturou, nebo záznamy různých délek.

Klíč Klíč souboru je množina atributů Ai1..Aik, kn, takové, že k-tice atributů <a1..ak> (klíče záznamu) jednoznačně identifikují záznamy. Vyhledávací klíč – atribut (či množina atributů), k jehož hodnotě vyhledáváme množinu záznamů obsahujících pro daný atribut právě uvedenou hodnotu

Typy vyhledávacích klíčů Hodnotové – hodnoty z dom(Ai) Hašované – algoritmická transformace hodnot Relativní – udána pozice od začátku souboru

Operace nad soubory INSERT – vložení záznamu do souboru DELETE – rušení záznamu v souboru UPDATE – změna některých položek záznamu v souboru Aktualizace souboru = posloupnost operací INSERT, DELETE a UPDATE FETCH – získání záznamu ze souboru do vnitřní paměti

Fyzický a logický záznam Logický záznam – množina atributů Fyzický záznam (délky R) – fyzická reprezentace logického záznamu na médiu Může obsahovat pomocná data navíc Fyzické záznamy se ukládají do fyzických stránek (bloků – jejich velikost značíme B) Bloky jsou minimální entitou přenášenou mezi primární a sekundární pamětí

Blokovací faktor, blokování Blokovací faktor (b) – poměr B/R Blokování (umísťování záznamů do bloků); říkáme, že záznamy jsou: Neblokované (b=1, B=R) Blokované (b > 1) Přerostlé (b < 1) Pro implementaci je důležité, zda se R mění, či nikoliv – budeme předpokládat, že se nemění

Schéma organizace souboru popis logické paměťové struktury, do níž může být původní soubor zobrazen spolu s algoritmy provádějícími operace nad touto strukturou může popisovat více logických souborů svázaných dohromady primární soubor – soubor obsahující uživatelská data; N – počet záznamů v něm

Fyzická úroveň Abstrakce fyzického zařízení Reálné fyzické zařízení fyzické schéma souboru fyzický soubor Reálné fyzické zařízení implementační schéma souboru

Abstrakce v přístupu k souborům schéma organizace souboru logické soubory fyzické schéma souboru fyzické soubory implementace fyzických souborů implementační schéma úroveň typu úroveň výskytu

Operace SOS operace nad soubory (insert, delete, update) BUILD – vytvoření struktury REORGANIZATION – uvedení SOS do nového výchozího stavu Stav souboru S (S*; extenze souboru S) – podoba SOS mezi dvěma ukončenými aktualizacemi CLOSE – aktualizuje některá data o souboru

Souborové systémy podpora práce se soubory na úrovni základního SW uchovávají metadata o souborech umožňují správu souborů včetně mapování souborů na médium

Dotazy nad soubory dotaz nad schématem souboru S – jakákoliv totální funkce vyjádřitelná programem definovaná nad množinou US, která každému stavu přiřadí odpověď – zpravidla množinu záznamů hity – prvky odpovědi v případě dokumentů

Vícerozměrné/ortogonální dotazy dotaz na úplnou shodu – zadány hodnoty všech atributů dotaz na částečnou shodu – zadány hodnoty jen některých atributů dotaz na úplnou intervalovou shodu – zadán interval hodnot pro každý z atributů dotaz na částečnou intervalovou shodu – zadány intervaly pro vybrané atributy

Další operace READ ENTIRE FILE – čtení celého souboru sériově – podle zadaného uspořádání sekvenčně – podle fyzického uspořádání záznamů v souboru

Vyváženost struktury omezení délky cesty ve struktuře při vyhledání záznamu (např. O(log M), kde M je počet logických stránek) rovnoměrná naplněnost stránek faktor naplnění stránky  (0<<1) někdy se  označuje průměrné naplnění stránek SOS splňující obě podmínky – dynamické; ostatní – statické