REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.

Slides:



Advertisements
Podobné prezentace
Vestavné mikropočítačové systémy
Advertisements

Půlbajtová komprimace
Základy ukládání dat v počítači
The Wheel of Fortune Honza Blažek -
J. Pokorný 1 DOTAZOVACÍ JAZYKY slajdy přednášce DBI006 J. Pokorný MFF UK
Aplikační a programové vybavení
Fraktálová komprese obrazu
Aplikace teorie grafů Základní pojmy teorie grafů
Základy informatiky přednášky Kódování.
Vznik a vývoj teorie informace
Genetické algoritmy. V průběhu výpočtu používají náhodné operace. Algoritmus není jednoznačný, může projít více cestami. Nezaručují nalezení řešení.
Algoritmy zpracování textů II
Komprese textových, video a audio dat.  Komprese   JPEG: 
ADT Strom.
FORMALIZACE PROJEKTU DO SÍŤOVÉHO GRAFU
Binární stromy, AVL stromy
Informatika pro ekonomy II přednáška 4
Teoretické Základy Informatiky
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
Základy informatiky přednášky Efektivní kódy.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Adaptivní Huffmanův kód.
B-strom je dynamická indexová struktura.
Základy informatiky přednášky Entropie.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Statistické metody komprese dat a Shannon-Fanův kód.
Informatika pro ekonomy II přednáška 3
Teorie komprese dat Veronika Srbová, 4.Z.
Church-Turingova teze Univerzální Turingův stroj Diagonalizace
Radim Farana Podklady pro výuku pro akademický rok 2013/2014
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
ORIENTOVANÉ GRAFY V této části se seznámíme s následujícími pojmy:
Komprimace dat a kryptologie.  Myšlenka: Jak zakódovat vstupní data do jediného čísla?  Data se zakódují do zlomku n, 0 ≤ n < 1, n ∊ R  Bezztrátová.
Algoritmy a programovací techniky
 vytváření signálů a jejich interpretace ve formě bitů  přenos bitů po přenosové cestě  definice rozhraní (pro připojení k přenosové cestě)  technická.
Základy číslicové techniky
Základy informatiky přednášky Bezpečnostní kódy.
Stromy.
Mgr. Miroslava Černá ZŠ Volgogradská 6B, Ostrava-Zábřeh
Číselné soustavy david rozlílek ME4B
Data Přednáška z předmětu Počítače I Dana Nejedlová Katedra informatiky EF TUL 1.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Úvod.
Radim Farana Podklady pro výuku
JavaScript Podmínky, cykly a pole.
III/2 Inovace a zkvalitnění výuky prostřednictvím ICT VY_32_INOVACE_1_1_06 Název vzdělávacího materiáluBezeztrátová a ztrátová komprese dat Jméno autoraIng.
VLASTNOSTI GRAFŮ Vlastnosti grafů - kap. 3.
Aplikační a programové vybavení
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Gymnázium, Žamberk, Nádražní 48 Projekt: CZ.1.07/1.5.00/ Inovace ve vzdělávání na naší škole Název: Základní pojmy počítačové grafiky Autor: Mgr.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Kompresní algoritmus LZW Dokumentografické informační systémy.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Automaty a gramatiky.
Kanonické indexování vrcholů molekulového grafu Molekulový graf: G = (V, E, L, ,  ) Indexování vrcholů molekulového grafu G: bijekce  : V  I I je indexová.
INTERNETOVÁ DOMÉNA V této prezentaci se dozvíte něco málo o internetových doménách…
DBXplorer Systém pro vyhledávání nad relačními databází podle klíčových slov. zpracovala Margarita Vishnyakova.
Algoritmy komprese dat
Radim Farana Podklady pro výuku
Multimédia Žlutířová Eva.
Databázové systémy Úvod, Základní pojmy. Úvod S rozvojem lidského poznání roste prudce množství informací. Jsou kladeny vysoké požadavky na ukládání,
Reprezentace dat v počítači. základní pojmy  BIT označení b nejmenší jednotka informace v paměti počítače název vznikl z angl. BINARY DIGIT (dvojkové.
Název šablony: ICT2 – Inovace a zkvalitnění výuky prostřednictvím ICT Vzdělávací oblast dle RVP:Základy výpočetní techniky Okruh dle RVP:Základy informatiky.
Název školyStřední odborná škola a Gymnázium Staré Město Číslo projektuCZ.1.07/1.5.00/ AutorMgr. Soňa Patočková Název šablonyIII/2.
STROMY A KOSTRY Stromy a kostry - odst. 3.2.
AUTOMATIZAČNÍ TECHNIKA Kódy
Překladače 5. Syntaktická analýza
Financováno z ESF a státního rozpočtu ČR.
Ukládání dat v paměti počítače
DIGITÁLNÍ UČEBNÍ MATERIÁL
Různé algoritmy mají různou složitost
Transkript prezentace:

REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje závislost mezi po sobě následujícími znaky Existuje řada technik, jak redukovat množství ukládaných dat (bez ztráty informace)

Výhody a nevýhody redukce Výhody redukce: snížení velikosti vnějších médií zkrácení času přístupu k datům zkrácení času přenosu dat Nevýhody redukce: přídavná složitost odpovídajících algoritmů manipulace s proměnnou délkou kódu manipulace s jednotlivými bity

ZÁKLADNÍ POJMY REDUKCE DAT Metody redukce jsou z větší části založeny na kódování. KÓDOVÉ SLOVO Je symbol či posloupnost symbolů, kterými kódujeme zdrojový objekt (jednotku). KÓD Je množina všech kódových slov. Důležitá vlastnost kódu jednoznačná dekódovatelnost Kódy mohou být: pevné délky: snadná dekódovatelnost proměnné délky : zde se posuzuje bezprostřední rozhodnutelnost

Kód je bezprostředně rozhodnutelný, jestliže poznáme konec kódového slova bezprostředně po příjmu jeho posledního znaku. Kódy jsou bezprostředně rozhodnutelné, když mají tzv. prefixovou vlastnost. Prefixová vlastnost je vlastnost kódu, kdy žádné kódové slovo kódu není předponou nějakého jiného kódového slova kódu.

Pro měření vhodnosti kompresní techniky slouží kompresní poměr, resp. zisk komprese. Kompresní poměr = D´/ D Zisk komprese = (D - D´) / D Kde: Dvelikost původního zdrojového řetězce D´velikost zakódovaného řetězce

METODY REDUKCE KOMPRESE Zabezpečuje jednoznačnou dekompresi, tzn. neztrácí se žádné informace. KOMPAKCE Zachovává pouze jisté nutné informace, neexistuje inverzní proces dekódování. Např. zkracování klíčů v souborech indexů, kdy pro rozlišení stačí pouze některá místa klíče.

KÓDY PEVNÉ DÉLKY Chceme-li zakódovat (m výskytů) n jednotek, potřebujeme k zakódování kódová slova délky l, pro které platí l =  log 2 n  npočet jednotek

Příklad Uvažujme text složený z 10 slov (n = 10): THE, OF, AND, TO, A, IN, THAT, IS, IT, ON Původní kódování: 1 znak = 1 byte  23 byte Úspornější kódování: I =  log 2 10  = 4 bity Délka kódového slova = 4 bity  x  nejbližší celé číslo, větší než x. Původní text: 23 byte = 23*8 bitů = 184 bitů Zakódovaný text: 10 slov = 10*4 bity = 40 bitů Kompresní poměr = 40/184 = 0.22 Zisk komprese = (184-40)/184 = 0.78

KÓDY PROMĚNNÉ DÉLKY Huffmanovo kódování Používá kódy proměnné délky, bylo vyřešeno v r Huffmanovo kódování je založeno na neorientovaných binárních stromech. Vstup do metody: n jednotek ke kódování, posloupnost pravděpodobností p  i  pro 1  i  n jejich výskytu.

Algoritmus: Pro každou jednotku i vytvoříme list o(p  i  ) binárního stromu, tj. uzel ohodnocený p  i . Z p  i  vybereme dvě nejmenší nenulová p  r  a p  s , kde r  s a vypočteme q := p  r  + p  s . Vytvoříme uzel ohodnocený q a hrany ohodnotíme 0 resp. 1.

Příklad: Mějme slova: THE, OF, AND, TO, A, IN, THAT, IS, IT, ON, která se vyskytují s pravděpodobností (po řadě): 0,270, 0,170, 0,131, 0,099, 0,088, 0,074, 0,052, 0,043, 0,040, 0,033. Sestrojte Huffmanův strom a stanovte kódová slova jednotlivých slov.

Výsledný strom

Kód se čte od kořene k listu Např. Slovo OF se zakóduje 000 IS 1101 Huffmanovo kódování vyžaduje známé a neměnící se p  i .