Informatika pro ekonomy přednáška 2 Datové formáty Informatika pro ekonomy přednáška 2
Data v počítači Data — formálně vyjádřená skutečnost (symbolicky vyjádřené údaje a hodnoty). v počítači — vše vyjádřeno dvojkovými hodnotami (důvod: technologie výroby počítačů) stanovení kódu — nekonečně mnoho možností údaje mají množinu povolených hodnot a operací — datový typ
Výběr možností uložení ze všech teoretických možností lze vybrat způsoby s vhodnými vlastnostmi uložení čísel — dvojková soustava se zarovnáním na rozměr paměťových míst, přirozená, celá, racionální čísla (viz předmět VTA) uložení textu — posloupnost znaků kódovaných podle znakového kódu, ASCII, národní znaky ostatní datové typy — většinou lze reprezentovat čísly nebo znaky nebo kombinací
Formát dat (datový formát) V operační paměti jsou obvykle data ve tvaru vhodném pro zpracování (výpočty, řazení...) Viditelný tvar (tiskárna, displej, klávesnice...) musí být složen výhradně z čitelných (zobrazitelných) znaků Formát dat (datový formát) = způsob (tvar) uložení dat v jakékoliv paměti počítače.
Souborový formát Pojem odvozený z pojmu „datový formát“ definuje způsob uložení dat v souboru. Místo popisu dat se používají jména formátů: PDF, JPG, TXT, PNG, HTML, DOC, XLS, CSV... Formáty lze rozdělit na textové a binární. 5
Textové formáty Obsahuje textová data — jen zobrazitelné znaky, konce řádků a případný konec souboru. V různých operačních systémech jsou řídicí znaky různé: Operační systém Konec řádku Název znaku Konec souboru Unix 0a lf 04 eot Mac 0d cr MS 0d 0a cr lf 1a esc 6
Textové formáty Kódování zobrazitelných znaků je různé. ASCII (pozice 0–127) — jednotné Textový soubor jen s ASCII: plain text Národní znaky, speciální znaky — rozdílné Textový soubor s národ. znaky: extended text 7
Kódování národních znaků Znakový kód na 1 B, starší. Příklady: Kameničtí, PC Latin 2, ISO 8859, Win CP 1250, KOI8čs (ukázky, rozdíl ISO a 1250). Znakový kód na větším prostoru: ISO 10646 4 B — velmi neúsporné, stručnější kódování: 2 B Unicode, 1—2 B UTF-8, 2 B UTF 16 8
Významné textové formáty CSV — Comma Separated Values (cut, grep, Excel...) Zdrojové texty programů Řada datových formátů: RTF, PS, SVG, XML 9
Dokument Soubor obsahující — vlastní text, — formátovací značky. Podle tvaru značek: textový/binární soubor textový: HTML, XML, PostScript, TeX, RTF... binární: DOC, SAM, INDD, Text602... 1010
Binární formáty Alespoň část informací vyjádřena jinak než čitelnou posloupností zobrazitelných znaků. Výhodné pro okamžité zpracování (formát dat shodný s tvarem v operační paměti) Někdy velmi náchylné k chybám, v případě poškození prakticky neopravitelné. Možnost utajení formátu, nutnost použití určitého programu, viry... 1111
Otevřené a uzavřené formáty Souborový formát, jehož specifikace je volně dostupná, je otevřený. Formáty uzavřené jsou utajovány. Uzavřenost formátu umožňuje získat monopol pro jeho zpracování a zároveň silně omezuje možnosti využití uložených dat (DOC, XLS, PPT, CDR...). Otevřené formáty jsou prostředkem pro výměnu informací, efektivní využití a zpracování dat (JPG, PDF, PNG, text...). 1212
Přenositelnost formátu Lze ji pracovně definovat jako množství programů schopných zpracovat tento formát. Důležitý faktor — zpracování v různých OS. Přenositelnost je úzce svázána s otevřeností formátu, ale závisí také na majiteli formátu (srov. DOC, PDF). Přenositelnost textových formátu je obecně daleko větší. Binární otevřené formáty rovněž přenositelné. 13
Rozpoznání formátu První krok — roztřídění na textový/binární. Využití běžných programů (type, more) Druhý krok — u rozšířeného textového formátu rozpoznat kódování textu a operační systém, kde soubor vznikl (postup!). U binárních formátů je nutné použít rozpoznávací programy: Unix: file, od; MS: není nástroj (zkusmo?) 14
Asociace formátů a aplikací Usnadňuje zpracování dat laikům v OS MS Princip — tabulka s řádky: formát -> aplikace (Tento počítač; Nástroje/Možnosti složky) Spouštění aplikace v případě aktivace souboru příslušného formátu (stažení přes IE, dvojklik v manažeru, výběr v dokumentech...) Orientace jen podle rozšíření (přípony) jména souboru, může vést ke zmatkům. 15
Asociace formátů a aplikací Ideální stav: 1 formát — 1 aplikace (platí pro speciální případy, např. CDR) Případ 1: více formátů — 1 aplikace (časté, ale neproblematické) Případ 2: 1 formát — více aplikací (problém nejednoznačnosti, aktivuje se buď posledně instalovaná aplikace, nebo podle výběru z nabídky. Nepříjemné řešení.) 16
Asociace formátů a aplikací Případ 3: 1 formát — žádná aplikace (chybové hlášení s nabídkou instalovaných aplikací, z nichž uživatel může vybrat — to ovšem prakticky nikdy nevede k úspěchu. XP: rozšíření nabídky programů z Internetu.) Případ 4: žádný formát — 1 aplikace (buď aplikace žádné formáty nepotřebuje, nebo se jedná o aplikaci DOS nebo o chybnou instalaci.) 17
Konverze formátů Změna formátu bez změny informačního obsahu. V praxi — vzácné ideální případy. Často konverze vede ke ztrátě, ale i k nabytí informací. Příklady: doc -> txt; csv -> xls Provedení konverze: — speciálním programem — službami Open a Save (As) běžných programů 18
Konverze formátů — příklady konverze čísel mezi textovou a binární podobou (algoritmus!) Unix: convert — konverze obrazových formátů cstocs — konverze kódování národních znaků Open/Save — úprava dokumentních formátů (např. DOC -> RTF, XLS -> CSV...) 19