Data s diskrétním rozdělením Poissonovo a binomické rozdělení
Co je diskrétní rozdělení Proměnná s diskrétním rozdělením může nabývat jen určitých hodnot, nejčastěji celá nezáporná čísla Nejběžněji užívanými typy diskrétního rozdělení jsou Poissonovo („počet něčeho“) a binomické („počet něčeho z celkového počtu“, podíl – pravděpodobnost) Další: negativně binomické a Neymannovo
Poissonovo rozdělení 1 X = 32 N = 9 p = 0.03125 l = 0.28125 Hrníčková metoda: mám mnoho hrníčků, házím do nich kuličkami, pokaždé se do nějakého trefím . Každý hod je nezávislý na předchozích, všechny hrníčky mají pravděpodobnost zásahu stejnou (p). Pokud mám X hrníčků a N kuliček, je p=1/X a průměrný počet kuliček v hrníčku je p*N, čili i N/X, označuje se l.
Poissonovo rozdělení 2 Střední („průměrná“) hodnota je l Variance tohoto rozdělení je také l S rostoucí hodnotu l se Poissonovo rozdělení přibližuje normálnímu (Gaussovu) Odmocněním (alternativně logaritmickou transformací) přiblížím distribuci normální a stabilizuji varianci (neporoste s průměrem) Generalized linear models (GLM)
Poissonovo rozdělení: zjišťování náhodnosti rozmístění Jsou květenství rozmístěna náhodně? Umístím přes plochu čtverce (náhodně na část nebo pravidelnou síť) Spočítám průměr a varianci: pro náhodné rozmístění budou mít počty ve čtvercích Poissonovo rozdělení, průměr rovný varianci
Náhodnost rozmístění 2 Shlukovitá distribuce: pokud najdu ve čtverci jedno individuum, zvyšuje to pravděpodobnost, že najdu další Náhodné rozmístění: pokud najdu ve čtverci individuum, nemění to pravděpodobnost nalezení dalšího Pravidelné rozmístění: pokud najdu ve čtverci individuum, snižuje to pravděpodobnost, že najdu další
Náhodnost rozmístění 3 Poměr variance k průměru (počty jedinců) je charakteristikou povahy rozmístění Lloydův index Test shody s Poissonovým rozdělením. Veličina má pro Poissonovo rozdělení přibližně c2 rozdělení s n-1 stupni volnosti
Binomické rozdělení Hrníčková metoda: mám mnoho hrníčků, do každého zvlášť házím n kuličkami (například 5), pokaždé se ale netrefím . Každý hod je nezávislý na předchozích, při každém mám pravděpodobnost zásahu p, nezávislou na pokusu a hrníčku. Binomické rozdělení mají počty úspěchů (zásahů) – tj. počet kuliček v jednotlivých hrníčcích, ale nejčastěji se pracuje s p. Pravděpodbnost neúspěchu q = 1 - p
Binomické rozdělení 2 Se zvyšujícím se n se přibližuje normálnímu Pro dané n je nejblíže normálnímu rozdělení pro p = q = 0.5
Použití binomického rozdělení 1 Máme n pokusů:100 náhodně vybraných jablek k odhadu procenta červivých (např. X=15), 250 občanů k odhadu procenta volební preference strany XYZ ... Odhad podílu je jednoduchý Variance tohoto odhadu je ... ale my neznáme p, jen jeho odhad, takže odhad variance je
Použití binomického rozdělení 2 Pak můžeme odhadnout konfidenční interval aproximací („jako by šlo o“) normálním rozdělením Z(1 - /2) je (1-/2)*100-procentní kvantil normovaného normálního rozdělení Pokud nejsou uvedená omezení dodržena, interval často bude vybočovat mimo rozsah 0 až 1.
Použití binomického rozdělení 3 Mimo rozsah „normální aproximace“ lze užít kde F je (1-a/2)*100-procentní kvantil se stupni volnosti n1=2(n-X+1) a n2=2X a tady jsou stupně volnosti n’1=2(X+1) a n’2=2(n-X)
Použití binomického rozdělení 4 Přesnost odhadu p stoupá s n Počet pozorování, která potřebujeme k tomu, aby byla střední chyba odhadu zhruba w je: Příklad: očekáváme, že v populaci je asi 20% jedinců s určitou vlastností a chceme jejich zastoupení určit se střední chybou 1%. K tomu potřebujeme z populace náhodně vybrat n = (0.2 * 0.8) / 0.012 = 1600 jedinců