A5M33IZS – Informační a znalostní systémy Testování modelů
Testování log-lineárních modelů ||x|| … “ naměřená“ kontingenční tabulka ||m|| … kontingenční tabulka “ odhadnutá ” pro model M Přijměme hypotézu, že daná data uspokojivě popisuje model M A B ||x|| x(A) = (18, 17) x(B) = (15, 20) N = 35 M = (A, B) x(A,B) = x(A). x(B) N 7,710,3 7,39,7 A B ||m|| Hypotézu přijmeme nebo zamítneme? Jsou odlišnosti mezi ||x|| a ||m|| pouze dílem náhody nebo svědčí o neplatnosti naší hypotézy?
Testování log-lineárních modelů Pearsonova statistika Chi-Square test - viz Jsou odlišnosti mezi ||x|| a ||m|| pouze dílem náhody nebo svědčí o neplatnosti naší hypotézy? V našem příkladu: Je to hodně nebo málo ? (tedy ||x|| a ||m|| jsou odlišné) (tedy ||x|| a ||m|| jsou si podobné)
Χ 2 [Chí-square] rozložení Nechá se dokázat, že Pearsonova statistika má χ 2
df = 4 df = 10 X2X2 P(X 2, df) χ 2 rozložení Frekvenční funkce χ 2 rozložení je parametrizována parametrem df (počet stupňů volnosti).
X2X2 P(X 2, df) χ 2 rozložení Dočasně ponechme počet stupňů volnosti stranou
X2X2 P(X 2, df) χ 2 rozložení Dočasně ponechme počet stupňů volnosti stranou Vyšrafovaná oblast = pravděpodobnost chyby prvního druhu = hladina významnosti α X 2 krit (α)
Model přijmeme, když hodnota Pearsonovy statistiky vyšla menší než X 2 krit (α). Při tom se můžeme dopustit dvou druhů chyby: Chyba prvního druhu – zamítneme správnou hypotézu Chyba druhého druhu – přijmeme nesprávnou hypotézu Práh X 2 krit (α) volíme tak, abychom minimalizovali oba druhy chyb Empirie: když volíme hladinu významnosti α (t.j. pravdě- podobnost chyby prvního druhu) v intervalu (0.01 až 0.1), bude i pravděpodobnost chyby druhého druhu “rozumná”. Chyba prvního a druhého druhu
Počet stupňů volnosti odpovídá počtu nezávislých parametrů, které v daném log-lineárním modelu “chybí”, t.j. položili jsme je rovné nulovému vektoru. Počet stupňů volnosti