Základy informatiky přednášky Entropie.

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

VÝPOČET OC.
ZÁKLADY PRAVDĚPODOBNOSTI
Statistická indukce Teorie odhadu.
ENERGIE CO VŠECHNO SKRÝVÁ….
Třídění dat OA a VOŠ Příbram. Třídění  rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů.
1 – Informatika Nauka (tj. věda) o informacích, tj. o zápisu (kódování (angl.)), přenosu (transfer (angl.)), zpracování (procesování (angl.)) informací.
Seminární práce číslo: 7 Zpracoval : Vladimír KORDÍK T-4.C
Pravděpodobnost 11  Zásobník úloh  Opakování, procvičení VY_32_INOVACE_21-12.
ENVIRONMENTÁLNÍ INFORMATIKA A REPORTING
Základy informatiky přednášky Kódování.
Vznik a vývoj teorie informace
Teorie pravděpodobnosti
NEROVNOMĚRNÝ POHYB.
Funkce.
Vlastnosti funkcí Vypracoval: Mgr. Lukáš Bičík
Informatika pro ekonomy II přednáška 1
1 Číslo-název šablony klíčové aktivityIII/2–Inovace a zkvalitnění výuky prostřednictvím ICT Tematická oblastZáklady informatiky a hardware DUMVY_32_INOVACE_ODB_521.
Základy informatiky přednášky Pojem informace.
Regresní analýza a korelační analýza
Získávání informací Získání informací o reálném systému
Optimalizační úlohy i pro nadané žáky základních škol
Základy informatiky přednášky Efektivní kódy.
Pravděpodobnost a statistika opakování základních pojmů
Obsah prezentace Náhodná proměnná Rozdělení náhodné proměnné.
Náhodná veličina.
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Informatika pro ekonomy II přednáška 2
Poměr.
REDUKCE DAT Díváme-li se na soubory jako na text, pak je tento text redundantní. Redundance vyplývá z:  některé fráze nebo slova se opakují  existuje.
SWI072 Algoritmy komprese dat1 Algoritmy komprese dat Teorie informace.
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
Matematický aparát v teorii informace Základy teorie pravděpodobnosti
F U N K C E.
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
Základy informatiky přednášky Bezpečnostní kódy.
Nechť (, , P) je pravděpodobnostní prostor:
Číselné soustavy david rozlílek ME4B
Pravděpodobnost a genetická prognóza
„Svět se skládá z atomů“
POČET PRAVDĚPODOBNOSTI
Pravděpodobnost. Náhodný pokus.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Pojem účinného průřezu
Experimentální fyzika I. 2
Dostupné z Metodického portálu ISSN: , financovaného z ESF a státního rozpočtu ČR. Provozováno Výzkumným ústavem pedagogickým v Praze.
PRAVDĚPODOBNOST NEZÁVISLÉ JEVY Jevy A,B nazýváme nezávislými, jestliže
Základy zpracování geologických dat
Orbis pictus 21. století Tato prezentace byla vytvořena v rámci projektu.
II. Analýza poptávky Přehled témat
Radim Farana Podklady pro výuku
2. Vybrané základní pojmy matematické statistiky
SZŠ a VOŠZ Zlín ® předkládá presentaci Kabinet MAT Mgr. Vladimír Pančocha.
Informatika pro ekonomy přednáška 4
(Popis náhodné veličiny)
Molekulová fyzika 3. přednáška „Statistický přístup jako jediná funkční strategie kinetické teorie“
Ústav technických zařízení budov MĚŘENÍ A REGULACE Ing. Václav Rada, CSc. ZS – 2003/
Náhodná veličina. Nechť (, , P) je pravděpodobnostní prostor:
Podmíněné pravděpodobnosti
Náhodná veličina.
Definiční obor a obor hodnot
Pravděpodobnost. Náhodný pokus.
Informatika pro ekonomy přednáška 3
Teorie informace z latiny, už 1stol. př. n. l.
Informatika pro ekonomy přednáška 3
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Informatika pro ekonomy přednáška 4
Informatika pro ekonomy přednáška 4
Definiční obory. Množiny řešení. Intervaly.
Transkript prezentace:

Základy informatiky přednášky Entropie

ZÁKLADY INFORMATIKY – Entropie Vznik a vývoj teorie informace Matematický aparát v teorii informace Základy teorie pravděpodobnosti – Náhodné veličiny Číselné soustavy Informace Základní pojmy – jednotka a zobrazení informace, informační hodnota Entropie – vlastnosti entropie Zdroje zpráv – spojité zdroje zpráv, diskrétní zdroje zpráv Přenos informace – vlastnosti přenosu kanálů, poruchy a šumy přenosu, způsoby boje proti šumu Kódování Elementární teorie kódování Rovnoměrné kódy – telegrafní kód Nerovnoměrné kódy – Morseova abeceda, konstrukce nerovnoměrných kódů Efektivní kódy – Shannonova – Fanova metoda, Huffmanova metoda Bezpečností kódy Zabezpečující schopnosti kódů, Systematické kódy, Nesystematické kódy

ENTROPIE Hi=f(pi) děje v přírodě dělíme na : deterministické – neurčitost rovna nule náhodné – jistá míra neurčitosti – velikost neurčitosti závisí na celkovém počtu možných výsledků a na pravděpod. výskytu jednotlivých výsledků Míra neurčitosti i-tého výsledku Hi pak bude funkcí pravděpodobnosti pi Hi=f(pi) platí: f(1) = 0 f(pi) je monotónní klesající funkcí pravděpodobnosti pi, tj. f(pi)<f(pj), pro pi>pj

Jediná funkce, která těmto podmínkám vyhovuje, je funkce logaritmického tvaru: Hi = c . log pi kde c je libovolná konstanta ( když c = -1 pak H kladné) Entropie je tedy míra neurčitosti v nějaké zprávě X o daném systému. Tato míra neurčitosti se po příjmu zprávy odstraňuje a tím se vyjádří míra získané informace. Při růstu informace klesá entropie a naopak.

Je to vlastně střední hodnota náhodné veličiny. Entropie zprávy X je: Shannonův vzorec Entropii náhodné veličiny můžeme chápat i jako průměrné množství informace, které získáme, vykonáme-li několik nezávislých opakování náhodné veličiny. Je to vlastně střední hodnota náhodné veličiny.

Ze zadání vyplývá konkrétní konečné schéma: Příklad: Oblíbeným demonstračním příkladem je házení hrací kostkou se šesti stěnami. Může nastat jeden ze šesti stavů, tj. hodíme jedničku, nebo dvojku, nebo ... nebo šestku. Všechny možnosti mají stejnou pravděpodobnost výskytu = 1/6. Jaká je entropie výsledku hodu kostkou? Ze zadání vyplývá konkrétní konečné schéma: pak ENTROPIE:

Vlastnosti entropie Entropie náhodné veličiny X, která nabývá n hodnot xi s příslušnými pravděpodobnostmi pi, má tyto základní vlastnosti: Entropie je spojitá a nezáporná funkce – všechny náhodné procesy mají nezápornou neurčitost. H(X) 0 Entropie je rovna nule tehdy, když pravděpodobnost výskytu některého znaku xi je : p(xi) = 1  p(xj) = 0 pro všechny i  j. Není jednoznačnou funkcí svých argumentů. Jsou-li pravděpodobnosti výskytu jednotlivých stavů stejné má zpráva maximální entropii. H(X)  H(1/n, 1/n,….1/n) = log2 n = max H(X)

Často se vyjadřuje průměrná entropie systému jako míra průměrné neurčitosti jednoho stavu systému. Může-li systém nabývat n možných stavů s pravděpodobnostmi p1, p2,.....,pn pak průměrná entropie je rovna: pro p1= p2= ...=pn = 1/n pak platí: H(X) = -log2 1/n = log2 n = max H(X)

Informace IX o systému X, kterou jsme získali, je: Je-li skutečná entropie menší než maximální, znamená to, že zdroj se plně nevyužívá – redundance (nadbytečnost) zdroje  - relativní entropie, nebo-li účinnost zdroje Mějme nějaký systém X. Než dostaneme zprávu o jeho stavu je jeho entropie HX. Po obdržení přesné zprávy o stavu systému X je jeho entropie H’x= 0. Informace IX o systému X, kterou jsme získali, je: Množství informace, které dostaneme ve zprávě sdělující nám přesný stav nějakého systému je rovno entropii tohoto systému.

pro: p=0,3 H(A )= -0,3 log2 0,3 - (1-0,3) log2 (1-0,3) Příklad: Znázorněte graficky závislost entropie náhodné veličiny, která nabývá dvě možné hodnoty A={a1, a2} na pravděpodobnosti p. (přičemž P(a1)=p, P(a2)=1-p ). Vypočtěte hodnotu entropie pro p=0.3. Pro entropii takového systému platí: H(A ) = -p log2 p - (1-p) log2 (1-p) pro: p=0,3 H(A )= -0,3 log2 0,3 - (1-0,3) log2 (1-0,3) 0,52109 + 0,360201= 0,881291 p 0.5 H 1 Graficky si znázorníme závislost entropie dané náhodné veličiny na Pravděpodobnosti p 0, 1. A vynesení výsledku příkladu: 0,881291 0,3

1,522(bit) H(X) = - 0,4 lb 0,4 – 0,2 lb 0,2 – 0,4 lb 0,4 = Příklad: Světelný semafor vysílá červený, zelený a žlutý signál, přičemž červený a zelený signál svítí vždy 40s, kdežto žlutý signál, který vždy odděluje zbývající 2 signály , svítí jen 20s. Určete entropii H náhodné veličiny X výskytu barvy signálu. Pravděpodobnost uvedených světelných signálů, uvádí následující tabulka: X Č Ž Z Pk 0,4 0,2 1 Řešení: H(X) = - 0,4 lb 0,4 – 0,2 lb 0,2 – 0,4 lb 0,4 = = 0,5288 + 0,4644 + 0,5288 = 1,522(bit)

Výsledek 1.pokusu je tedy méně neurčitý. Příklad: (4.3 – podklady) Máme dvě urny, z nichž každá obsahuje 20 koulí. V prvním osudí je 10 bílých, 5 červených a 5 žlutých koulí. V druhém osudí je 8 bílých, 8 červených a 4 žluté koule. Z každé urny vytáhneme jednu kouli. O kterém z těchto dvou pokusů lze tvrdit, že jeho výsledek je méně neurčitý? Barva vytažené koule bílá červená žlutá Pravděpodobnost vytažení dané koule při 1. pokusu 0,5 0,25 1 Pravděpodobnost vytažení dané koule při 2. pokusu 0,4 0,2 Pro entropie jednotlivých pokusů dostaneme: H1 = -0,5 lb 0,5 - 0,25 lb 0,25 - 0,25 lb 0,25 = 0,50 + 0,5 + 0,5 = 1,50 bit H2 = -0,4 lb 0,4 - 0,4 lb 0,4 - 0,2 lb 0,2 = 0,5288 + 0,5288 + 0,4644 = 1,522 bit Výsledek 1.pokusu je tedy méně neurčitý.

Řešení: Pro 15. červen je entropie: Příklad: (4.4 – podklady) Podle dlouholetých zkušeností bylo v místě N zjištěno, že pravděpodobnost výskytu deště 15. června je p1=0,4; kdežto pravděpodobnost, že nebude uvedeného dne pršet, je p2=0,6. Podobně v témže místě N pravděpodobnost výskytu srážek (tj. deště nebo sněžení 15. listopadu je q1=0,80, kdežto pravděpodobnost, že 15. listopad bude beze srážek, je q2 = 0,20. Zajímá-li nás při počasí jen výskyt srážek, máme určit, který z obou dnů má určitější počasí. Řešení: Pro 15. červen je entropie: H1 = -0,4 lb 0,4 - 0,6 lb 0,6 = 0,971 bit Pro 15. listopad je entropie: H2 = -0,8 lb 0,8 - 0,2 lb 0,2 = 0,7219 bit Počasí 15. listopadu je v daném případě méně neurčité než počasí 15. června neboť H2 < H1.

Příklad: (str. 38 – skripta Zelinka) Mějme abecedu A, B, C, D. Text sestavený z těchto abeced má 800 písmen. Předpokládejme, že A se vyskytuje 400 krát, B – 200 krát, C a D – 100 krát. Jaká je entropie takové abecedy? Jaká je redundance? Řešení: Pravděpodobnost výskytu jednotlivých písmen je dána takto: P(A)=1/2, P(B)=1/4, P(C)=P(D)=1/8. Entropie abecedy je pak dána: Pro výpočet redundance je zapotřebí určit maximální entropii dané abecedy. Abeceda bude mít maximální entropii tehdy, budou-li pravděpodobnosti výskytu jednotlivých stavů stejné. Tzn. P(A)=P(B)=P(C)=P(D)=1/4 Maximální entropie abecedy je pak dána: Redundance je pak dána:

HXY = HX + HY HXY = HX + HY|X = HY + HX|Y V praxi často potřebujeme určit entropii systému, který je tvořen z několika podsystémů. Např. dva podsystémy X a Y, které mohou nabývat stavy: x1, ..... ,xn resp. y1, .....ym, sloučené do jednoho systému XY, který teď může nabývat stavy (xi , yj). Počet stavů tohoto systému je n x m. Pravděpodobnost daného stavu je Entropie složeného systému XY je pak dána: Jsou-li podsystémy X, Y vzájemně nezávislé, platí: HXY = HX + HY Jsou-li podsystémy X, Y vzájemně závislé, platí: HXY = HX + HY|X = HY + HX|Y

KONEC