Filosofie a metodologie vědy Kousek teorie informace dle Shannona, nikoli Aristotela Zdeněk Kratochvíl.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

Digitální reprezentace
Úvod do médií PaedDr. Zdeněk Pejsar, Ph.D.. Při vytváření pojmu multimédia je vhodné vyjít ze syntaktického složení tohoto slova. Pod pojmem multi najdeme.
Jednotky a velikosti Michal Votrubec.
Základy informatiky úvod
Co je to informace? Informace je smysluplné sdělení, skládající se z jednotlivých údajů z latinského in-formatio = utváření, ztvárnění v Informatice:
Buď ve víru dění Hurikánu.
I N F O R M A C E A I N F O R M A T I K A.
A5M33IZS – Informační a znalostní systémy Datová analýza I.
ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING
Základy informatiky přednášky Kódování.
Vznik a vývoj teorie informace
Projekt Anglicky v odborných předmětech, CZ.1.07/1.3.09/
Informační a komunikační technologie
Teorie informace Radim Farana Podklady pro výuku pro akademický rok 2013/2014.
Informatika pro ekonomy II přednáška 1
1 Číslo-název šablony klíčové aktivityIII/2–Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblastZáklady informatiky a hardware DUMVY_32_INOVACE_ODB_521.
Obchodní akademie a Střední odborná škola, gen. F. Fajtla, Louny, p.o. Osvoboditelů 380, Louny Číslo projektu CZ.1.07/1.5.00/ Číslo sady 28Číslo.
Základní číselné množiny
Základy informatiky přednášky Efektivní kódy.
Informatika pro ekonomy II přednáška 2
Základy informatiky přednášky Entropie.
Náhoda, generátory náhodných čísel
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
Základní pojmy ve VT.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Mgr. Miroslava Černá ZŠ Volgogradská 6B, Ostrava-Zábřeh
CZ.1.07/1.4.00/ VY_32_INOVACE_146_IT7 Výukový materiál zpracovaný v rámci projektu Vzdělávací oblast: Informační a komunikační technologie Předmět:Informatika.
Číselné soustavy david rozlílek ME4B
Data Přednáška z předmětu Počítače I Dana Nejedlová Katedra informatiky EF TUL 1.
Grafika a digitální fotografie Volitelný modul úrovně P díl č. 3.
ZÁZNAM A KÓDOVÁNÍ INFORMACÍ
Informace a Internet Bohumil Bareš. Informace V nejobecnějším smyslu je informace chápána jako údaj o reálném prostředí, o jeho stavu a procesech v něm.
Lineární rovnice Lineární rovnice s jednou neznámou máj vzorec
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Informace a informační zdroje. informace obecně = obsah zprávy či sdělení V informatice = kódovaná data, která lze vysílat, přijímat, uchovávat či zpracovávat.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
VÝUKOVÝ MATERIÁL V RÁMCI PROJEKTU OPVK 1.5 PENÍZE STŘEDNÍM ŠKOLÁM ČÍSLO PROJEKTU:CZ.1.07/1.5.00/ NÁZEV PROJEKTU:ROZVOJ VZDĚLANOSTI ČÍSLO ŠABLONY:
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
II. Analýza poptávky Přehled témat
Radim Farana Podklady pro výuku
2. Vybrané základní pojmy matematické statistiky
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Informatika pro ekonomy přednáška 4
Z latinského „informatio“ = vtištění formy či tvaru, utváření. Informace = srozumitelná a pochopitelná část údajů Metainformace = informace o informaci.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Uvedení autoři, není-li uvedeno jinak, jsou autory tohoto výukového materiálu a všech jeho částí. Tento projekt je spolufinancován ESF a státním rozpočtem.
Informace Zpracování informací, metainformace, zdroje, autorská práva Denisa Poštulková VIII.A.
Funkce Lineární funkce a její vlastnosti 2. Funkce − definice Funkce je předpis, který každému číslu z definičního oboru, který je podmnožinou množiny.
Název šablony: ICT2 – Inovace a zkvalitnění výuky prostřednictvím ICT Vzdělávací oblast dle RVP:Základy výpočetní techniky Okruh dle RVP:Základy informatiky.
Rastrová grafika Základní termíny – Formáty rastrové grafiky.
Petr Fodor.
Definiční obor a obor hodnot
Software počítače 2 - opakování
Orbis pictus 21. století Přenosové schéma
Financováno z ESF a státního rozpočtu ČR.
Ukládání dat v paměti počítače
Škola SOŠ a SOU Hustopeče, Masarykovo nám. 1 Autor
Informatika pro ekonomy přednáška 3
Inf Formáty grafických souborů
Teorie informace z latiny, už 1stol. př. n. l.
Informatika pro ekonomy přednáška 3
Informatika pro ekonomy přednáška 4
Šestnáctková a osmičková soustava
Lineární funkce a její vlastnosti
Číselné soustavy a kódy
Informatika pro ekonomy přednáška 4
Grafy kvadratických funkcí
Grafy kvadratických funkcí
Transkript prezentace:

Filosofie a metodologie vědy Kousek teorie informace dle Shannona, nikoli Aristotela Zdeněk Kratochvíl

Informace podle Aristotela: Informatio je tvarující stránka určité skutečnosti.

Informace v běžném významu, jak toto slovo normálně užíváme: Nepříliš kvantifikovaná míra užitečnosti sdělení. Nepříliš kvantifikovaná míra neočekávanosti sdělení, jeho „novosti“, novinky. Nepříliš kvantifikovaná míra nepravděpodobnosti sdělení. Nepříliš kvantifikovaná míra nedostupnosti sdělení. Na tohle módní užití zapomínají!

Informace v běžném významu, jak toto slovo normálně užíváme, příklady: „Metro jezdí jen do půlnoci“ je informace užitečná (byť ne zas až tak, aby se o ni lidé prali) a dost obecně známá. Když uprostřed semestru visí na nástěnce cedule „zítřejší přednášky se ruší“, je to zajímavější informace, než kdyby tam stálo „zítra přednášky normálně pokračují“. Je to novinka. Předpověď počasí typu „zítra bude v Praze teplota 5 až 10 stupňů a vichřice“ je užitečnější informace než předpověď „zítra bude v Praze teplota určitě mezi -20 až +50 stupňů“ právě proto, že je méně pravděpodobná, riskuje. Módní populistické užití slova „informace“ nerado vidí hodnotu informace ve smyslu obtížné dostupnosti, protože „informace mají být dostupné všem“. V našem zájmu samozřejmě není tajit nebo zpoplatňovat informace o hodnotách fyzikálních konstant. Přesto nezveřejňujeme hesla pro zápis známek do SISu. Ba ani Sportka nezveřejňuje výsledky tahu čísel před uzavřením sázek.

Informace v informatice: Informaci tvoří kódovaná data (protiklad šumu), která lze vysílat, přijímat, uchovávat a zpracovávat technickými prostředky. Množství informace je rozdíl mezi neurčitostí (entropií) informace (nebo stavu) před a po zprávě. S rozvojem elektronických komunikací se informace stává technickým pojmem, který se soustřeďuje na kódování informace a nezabývá se jejím smyslem či obsahem. Základním modelem pro přenos informace je soustava vysílač (kodér) – kanál – přijímač (dekodér). Roku 1948 publikoval C. Shannon, který pracoval pro Bellovy laboratoře, průkopnickou publikaci A Mathematical Theory of Communication, v níž se soustředí na přenos zpráv, kódovaných v nějaké abecedě o konečném (spočetném) množství znaků. Claude Elwood Shannon (1916 – 2001) Americký elektronik a matematik, „otec teorie informace“. Byl také zakladatelem teorie návrhu digitálních elektronických obvodů.

Informační entropie úzce souvisí s termodynamickou entropií. Toto spojení se však ukázalo až po mnoha letech nezávislého studia termodynamické entropie a informační entropie. Často je také nazývána Shannonovou entropií. Obecně pro systém s konečným počtem možných stavů : je s pravděpodobnostní distribucí P(s i ) informační entropie definována jako střední hodnota : Entropie je maximální pro rovnoměrné rozložení: H(S) = log 2 n a minimální pro zcela deterministický systém: Stručně řečeno, entropie je střední hodnota informace jednoho kódovaného znaku. Míra entropie souvisí s problematikou generování sekvence náhodných čísel (resp. pseudonáhodných) čísel), protože sekvence naprosto náhodných čísel by měla mít maximální míru entropie.

Informace je opak entropie: I = - log 2 n = log 2 1 / n Paradox: Absolutní hodnota informace a entropie je stejná! Proto Shannonova entropie udává také limit bezeztrátové komprese dat. Bez ztráty informace nelze komprimovaná data „zhustit“ víc než na jejich entropii. Data s větší entropií vyžadují přenos (nebo uchování) většího datového objemu!

Informace je opak entropie: I = - log 2 n = log 2 1 / n Příklad: V sytému, který může nabývat dvou vzájemně disjunktních a vzájemně nezávislých hodnot (například ANO, NE): n = 1 I = log 2 1 / 2 = -1 (= 1 bit) 1 bit reprezentuje informaci, získanou odpovědí na jednu otázku typu ANO/NE, u které je apriorní pravděpodobnost obou odpovědí stejná (nemáme žádnou předchozí informaci, která by jednu z možných odpovědí upřednostňovala, prostě nevíme).

Další příklad: V sytému, který může nabývat čtyři vzájemně disjunktní a vzájemně nezávislé hodnoty : n = 4 I = log 2 1 / 4 = -2 (= 2 bity) 2 bity reprezentují například informaci, získanou odpovědí na jednu otázku typu: která z hodnot (1; 2; 3; 4)? Pokud je ovšem apriorní pravděpodobnost všech odpovědí stejná (nemáme žádnou předchozí informaci, která by jednu z možných odpovědí upřednostňovala, prostě nevíme). 2 bity reprezentují například informaci, získanou odpovědí na dvě vzájemně nezávislé otázky typu: (ANO; NE)? Pokud je ovšem apriorní pravděpodobnost obou odpovědí stejná. Apriorní upřednostnění některé z odpovědí nebo provázanost otázek (pokud by odpověď na druhou byla závislá na předchozí odpovědi) by umožňovaly kompresi dat.

Přenos čísel: Psaným textem, například „třicet“ = 6 znaků po 8 bitech = 6 Bytů (bez mezery) Dekadickým ciferným zápisem „30“ alfanumericky = 2 cifry po 8 bitech = 2 Byte (do 99) Dekadickým ciferným zápisem „30“ úsporně = 2 cifry po 4 bitech = 1 Byte (do 99) Hexadecimálně „1D“ = 2 cifry po 4 bitech = 1 Byte (do 255) Binárně „ “ = 8 cifer po 1 bit = 1 Byte (do 255; hexadecimální tvar byl vlastně pouze jiným zápisem tohoto, aby byl uživatelsky přítulnější)

Přenos textu: 1 nosmostrana = 1800 znaků (alfanumerifckých, interpunkčních, plus řídící nzaky) při kódování 1 znak na 1 Byte (8 bitů, tedy 256 znaků) je to asi 1,8 kB 1 kB = 2 10 B = 1024 B 1 nosmostrana = asi 280 slov Pokud bychom kódovali slova (2 Byty na slovo, tedy cca 64 tisíc slov), pak dostaneme 560 B, ale bez gramatiky. S gramatikou nejmíň o půlku navíc. Skutečnost, že naše slova představují pouze podmnožinu všech teoreticky možných kombinací znaků, umožňuje kompresi dat. 1 normostrana přenesená jako hlas (cca 4 minuty zvuku) = 36 MB v kvalitě plnohodnotné CD nahrávky, nebo kolem 3 MB komprimovaně, ještě méně při užším pásmu. 1 normostrana přenesená jako obraz (naskenovaný) = desítky MB nebo při kompresi jednotky MB. Náš hlas je tedy informačně podobně redundantní jako grafická podoba našeho písma. Redundance = nadbytečně přenesená informace, vlastně nepotřebná, ale užitečná ke kontrole správnosti přenosu, technicky viz třeba „paritní bit“ nebo CRC (cyklická redundanční kontrola). Redundance = analogie informační entropie, ale ne šumová, nýbrž jistící spolehlivost přenosu.

Předpoklady teorie informace: Jednotlivé stavy nebo znaky jsou navzájem ryze disjunktní (není nic mezi). Jednotlivé stavy nebo znaky jsou na sobě navzájem nezávislé (jinak lze bezztrátově komprimovat, například když jde o text, protože pravděpodobnost znaku je tam ovlivněn znakem předchozím). V praxi je to splněno třeba u hodu poctivou hrací kostkou. Paradox teorie informace: Nejvíce informace obsahuje šum, např. ve zvuku nebo na obrázku. Náhodně generovaný soubor dat nelze neztrátově komprimovat, je naprosto unikátní. Každý určitý šum je unikátní. Slovní spojení „určitý šum“ je samo paradoxní. -- Nejméně informace obsahuje zcela monotónní soubor, třeba „a“ opakované milionkrát v tlusté knize, nebo obrázek naprosto monotónní plochy. Takové soubory lze podstatně bezztrátově komprimovat. Reálné případy jsou vždy někde mezi těmito extrémy, bohužel podstatně blíže tomu šumovému.