Kompresní algoritmus LZW Dokumentografické informační systémy.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Grafové algoritmy.
Počítačová grafika.
Standardní knihovní funkce pro práci s textovými řetězci
The Wheel of Fortune Honza Blažek -
PEVNÝ DISK POČÍTAČE.
Kompresní algoritmy.
Semestrální práce KIV/PT Martin Kales Hana Hůlová.
Souborové systémy.
Aplikace teorie grafů Základní pojmy teorie grafů
ALGO – Algoritmizace 1. cvičení
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Algoritmy zpracování textů II
Komprese textových, video a audio dat.  Komprese   JPEG: 
Metody zpracování vybraných témat (projektů)
ADT Strom.
DOK.
Implementace ICT do výuky č. CZ.1.07/1.1.02/ GG OP VK Studijní obor:Sociální péče Ročník: 1 Informační a komunikační technologie pro 1. ročník studijního.
Projekt – úkoly, zdroje, vazby úkolů, náklady Ing. Jiří Šilhán.
1IT S ÍŤOVÝ DATOVÝ MODEL Ing. Jiří Šilhán. S ÍŤOVÝ DATOVÝ MODEL Je historicky nejstarším datovým modelem. Jeho základem jsou vzájemně propojené množiny.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Adaptivní Huffmanův kód.
Radek Horáček IZI425 – Teorie kódování a šifrování
Algoritmizace.
B-strom je dynamická indexová struktura.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Statistické metody komprese dat a Shannon-Fanův kód.
Informatika pro ekonomy II přednáška 3
Vnější paměť Ukládání dat pouze do operační paměti by při práci s počítačem nestačilo. Pro uchování vytvořených dat mají počítače ještě další, tzv. diskové.
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
Teorie komprese dat Veronika Srbová, 4.Z.
Ukládání dat – stromová struktura
Algoritmy a programovací techniky
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Úvod.
KOMBINAČNÍ LOGICKÉ FUNKCE
Grafika a digitální fotografie Volitelný modul úrovně P díl č. 3.
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o. Osvoboditelů 380, Louny Číslo projektu CZ.1.07/1.5.00/ Číslo sady 28Číslo.
Algoritmizace a programování Třídící algoritmy - 12
Jiří Znoj - zno Tvorba konkordace Algoritmy II 3. projekt, 5. zadání Jiří Znoj - zno
DIGITALIZACE Datové formáty. Nekomprimované formáty původní algoritmy záznamu datových souborů umožnily pouze jejich převod do digitální podoby:  formát.
Dokumentace informačního systému
Test z počítačů Vytvořila:Liliana Drukerová Dne:14.června Třída:5.C.
7. Typ soubor Souborem dat běžně rozumíme uspořádanou množinu dat, uloženou mimo operační paměť počítače (na disku). Pascalský soubor je abstrakcí skutečného.
Kompresní metoda ACB Associative Coder of Buyanovsky autor: George Buyanovsky připravil Tomáš Skopal podle knihy „Data Compression“ od D. Salomona, 1997,
Číslo šablony: III/2 VY_32_INOVACE_P4_1.19 Tematická oblast: Hardware, software a informační sítě Komprimace Typ: DUM - kombinovaný Předmět: ICT Ročník:
Databázové systémy Přednáška č. 5 Datové typy a Fyzická organizace dat.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Úvodní informace Informatika pro ekonomy II ZS 2011/2012.
Ukazatele, řetězce Přednáška č. 3. Ukazatele  Ukazatel (pointer) – typ o velikosti 4 bajty (v 32bit. systémech) pro uložení adresy objektu na který ukazuje.
Systém souborů. Množina souborů různých typů – Data – Spustitelné programy – Konfigurační a pomocné informace – I/O zařízení Způsob organizace množiny.
Soubory BI-PA1 Programování a algoritmizace 1, ZS Katedra teoretické informatiky © Miroslav Balík Fakulta informačních technologií České vysoké.
Adresářová struktura Střední odborná škola Otrokovice
ACB a DIS Využití kompresní metody ACB pro potřeby DIS Tomáš Skopal VŠB-TU Ostrava.
Počítačová grafika a CAD 1 Ukládání obrázků do různých formátů.
Úvodní informace Informatika pro ekonomy II LS 2007/2008.
Výuka základů algoritmického myšlení na prvním stupni základních škol
Kontakty slajdy: ftp://ulita.ms.mff.cuni.cz/predn/POS.
Perzistence XML dat Kamil Toman
SOFTWARE I Operační software. BIOS Provádí testy hardwaru a jeho nastavení, konfiguraci celého počítače Provádí testy hardwaru a jeho nastavení, konfiguraci.
ZŠ Brno, Řehořova 3 S počítačem snadno a rychle Informatika 7. ročník III
SOFTWAROVÁ PODPORA PRO VYTVÁŘENÍ FUZZY MODELŮ Knihovna fuzzy procedur Ing. Petr Želasko, VŠB-TU Ostrava.
Ukládání dat biodiverzity a jejich vizualizace
Informatika pro ekonomy přednáška 6
Soubor Soubor v informatice označuje pojmenovanou sadu dat uloženou na nějakém datovém médiu, se kterou lze pracovat nástroji operačního systému jako.
Fulltextové vyhledávání
SOUBOR Souborový systém (anglicky file system) je v informatice označení pro způsob organizace dat ve formě souborů (a většinou i adresářů) tak, aby k.
VY_32_INOVACE_pszczolka_ Registr kruhový - aplikace
Mgr. Jan Fiala Archivace a komprese linux.
Správa disků
Algoritmizace a datové struktury (14ASD)
Systém souborů 1.
Souborové systémy 1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Ing. Libor Otáhalík. Dostupné z Metodického portálu ISSN: 
Transkript prezentace:

Kompresní algoritmus LZW Dokumentografické informační systémy

Cíl n Co je LZW algoritmus a jak pracuje.

Osnova n Historie slovníkové komprese. n Co je LZW? n Algoritmus LZW komprese. n Algoritmus LZW dekomprese. n Praktická implementace. n Výsledky testů.

Histrorie slovníkové komprese n Autoři: Ziv, Lempel u základní princip F Vyvinuty algoritmy ozn. LZ77 F Programy - PKZip, Zip, ARJ, Gzip u odlišný přístup F Vyvinuty algoritmy ozn. LZ78 F Programy - compress v Unixu, GIF, V.42 bis

Co je LZW? n Algoritmus pro kompresi textů. n Založen na slovníkové metodě komprese třídy LZ78. n Semiadaptivní komprese.

Algoritmus komprese n Postupné čtení dokumentu D. n Při čtení sestavován slovník frází. u Na počátku obsaženy fráze délky 1. n Současné vytváření výstupního zkomprimovaného souboru.

Kroky komprese n Prohledáván slovník frází. u Nalezení nejdelší fráze shodné s textem na vstupu. u Pořadové číslo fráze uloženo do výstupního souboru. u Nalezená fráze odebrána ze vstupu n Vytváření nové fráze. u = právě použitá fráze + znak na vstupu

Co to znamená n Znak na vstupu u je prvním znakem fráze použitém v příštím kroku. n Nová fráze u se vytváří vždy ze dvou po sobě použitých Fráze kroku m První znak fráze kroku m+1 Nová fráze kroku m+1

Výsledek n Opakováním kroků algoritmu, dokud není přečten celý vstupní soubor, je vytvářen výstupní zkomprimovaný soubor. Tento soubor obsahuje pořadová čísla frází ve slovníku.

Algoritmus dekomprese n Probíhá obdobně jako komprese - vytváří se slovník stejných frází u Na počátku jsou ve slovníku jen fráze délky 1.

Kroky dekomprese n Přečtení čísla fráze ze vstupního souboru. n Odpovídající fráze je uložena do výstupního souboru. n Vytvoření nové fráze a její začlenění do slovníku. u = fráze z předposledního kroku + první znak z posledního kroku. Fráze kroku m První znak fráze kroku m+1 Nová fráze kroku m+1

n Začlenění fráze do slovníku je oproti kompresi o krok zpožděno. n Pokud první znak fráze je shodný s prvním znakem fráze použité v předchozím kroku, fráze při dekompresi zatím ve slovníku neexistuje. Na základě toho lze doplnit chybějící frázi. Použitá fráze Znak na vstupu Nová fráze

Praktická implementace n Rychlost komprese - závislá na rychlosti vyhledávání fráze ve slovníku. n Kladen důraz na účelné využití paměti. n Vyhovuje - uložení frází ve stromové struktuře.

Stromová struktura slovníku Kořen a 0 b 4 c 6d 12 d 10 a 9 a 5 b 1 d 7 c 2 a 11 a 8 d 3 n Zřetězením znaků od kořene k jednotlivým uzlům stromu získáme všechny fráze.

Realizace stromu n Pomocí ukazatelů nevýhodné - spotřeba místa, rychlost. n Efektivnější tabulka - použití indexů tabulky. u Nevýhodné - vysoká arita uzlu následníků stromu.

Binarizace n-árního stromu Kořen a 0 b 4 c 6d 12 d 10 a 9 a 5 b 1 d 7 c 2 a 11 a 8 d 3 n V každém uzlu (vyjma kořenového) jen dva ukazatele. u Prvního následníka u Sousední uzel

Obvyklá implementace LZW n Na vstupu možných znaků. u Na počátku vždy slovník inicializován hodnotami n Omezený rozsah slovníku - obvykle 4096 frází. u Je-li slovník vyčerpán, slovník se zruší a znovu inicializuje. F Informace o novém slovníku uložena do výstupního souboru. n Konec komprese uložen do výstupního souboru.

Uložení čísla fráze do výstupního souboru n Číslo fráze ukládáno pomocí 12 bit u K vyjádření čísel je zapotřebí 12 bitů n Dokonalejší způsob u uloženo do 9 bitů u uloženo do 10 bitů u uloženo do 11 bitů u uloženo do 12 bitů Nový slovník 256 9ti bit. Nový slovník ti bit. 11ti bit.12ti bit.

Závěrečný test komprese n Úspěšnost komprese u 8KB textového souboru - 55% u 12KB JPEG - zvětšen o 34% u 11KB GIF - zvětšen o 28% u 55KB HTML - 53%

Děkuji Vám za pozornost. n Informace o této prezentaci naleznete na: