Odhady parametrů
Co potřebujeme pro návrh klasifikátoru pro konstrukci klasifikátoru potřebujeme: apriorní pravděpodobnost P(ωi) podmíněnou pravděpodobnost p(x|ωi) v praxi: typicky nemáme úplnou informaci o pravděpodobnostní struktuře problému máme jen trénovací data řešení: použijeme trénovací vzory k odhadu neznámých pravděpodobností tyto odhady použijeme jako skutečná data
Odhadu parametrů klasifikátoru odhady: odhad pravděpodobnosti P(ωi) ... nebývá problém odhad podmíněné pravděpodobnosti p(x|ωi) ... problémy počet dostupných vzorů je nedostatečný problémy u rostoucí dimenze vstupních vzorů => problém lze redukovat, když známe počet parametrů a informaci, jak parametrizovat příklad: můžeme předpokládat, že p(x|ωi) má normální rozdělení, ale neznáme přesné hodnoty μi a Σi tato znalost zjednodušší problém nehledáme neznámou funkci p(x|ωi) odhadujeme parametry μi a Σi
Odhadu parametrů klasifikátoru nejznámější metody: metoda maximální věrohodnosti metoda Bayesovského odhadu => získané výsledky jsou typicky téměř identické, ale metody jsou koncepčně odlišné 1. metoda maximální věrohodnosti nahlíží na parametry jako na veličiny, jejichž hodnoty jsou pevné, ale neznámé nejlepší odhad těchto hodnot je ten, který maximalizuje pravděpodobnost získanou z trénovacích vzorů 2. Bayesovský odhad nahlíží na parametry jako na náhodné veličiny, které mají některou ze známých rozdělení informace z trénovacích vzorů se promítne do p(x|ωi) a „poopravuje“ naše názory na pravdivost parametrů rozdělení přidáním dalších trénovacích vzorů se „zpřesní“ hustota p(x|ωi) ... Bayesovské učení
Učení s učitelem a bez učitele vzory x byly získány: nejprve výběrem třídy ωi s pravděpodobností P(ωi) pak nezávislým výběrem x podle p(x|ωi) učení s učitelem u vzoru víme, do které třídy patří učení bez učitele u vzoru nevíme, do které třídy patří
Metoda maximální věrohodnosti výhody: téměř vždy dobrá konvergence často jednodušší než jiné metody předpoklady: máme c tříd pro každou třídu máme sadu trénovacích dat D1, ...,Dc vzory z Di jsou vybrány nezávisle, aby odpovídaly p(x|ωi) p(x|ωi) má známý parametrický tvar, který je jednoznačně určen vektorem θi => závislost p(x|ωi) na θi budeme zapisovat p(x|ωi,θi) cíl: na základě trénovacích vzorů najít vhodné odhady parametrů θ1, ..., θc pro jednotlivé třídy ω1, ..., ωc
věrohodnost θ s ohledem na trénovací data Zjednodušení metody pro zjednodušení budeme předpokládat, že vzory z Di nedávají žádnou informaci o θj (i ≠ j) parametry pro různé třídy jsou funkčně nezávislé tedy můžeme pracovat s jednotlivými třídami odděleně (zlepší se značení) => pracujeme jen s 1 třídou: D ... trénovací vzory pro danou třídu - vybrané tak, aby odpovídali p(x|θ) na základě D chceme odhadnout θ nechť D má n vzorů x1, ... , xn nezávislých vzorů: p(D|θ) = ∏ p(xk|θ) max. věrohodnost θ je taková hodnota , která maximalizuje p(D|θ) intuitivně: max. věrohodnost odpovídá θ, která „nejlépe pasuje“ na trénovací data n k=1 věrohodnost θ s ohledem na trénovací data
Ilustrační příklad na obrázku je několik trénovacích vzorů (dim=1), které byly vzaty z Gaussova rozdělení s daným rozptylem ale neznámou střední hodnotou čárkovaně jsou 4 z nekonečně možných rozdělení na dolním obrázku je zachycena věrohodnost p(D|θ) jako funkce střední hodnoty θ = (μ) hodnota, která maximalizuje věrohodnost, je
Logaritmická věrohodnost pro analytické účely se často pracuje s logaritmickou věrohodností: logaritmus je rostoucí monotónní funkce: maximalizuje logaritmickou věrohodnost => maximalizuje věrohodnost když je p(D|θ) „rozumná“ a diferenciovatelná => lze najít metodami diferenciálního počtu
Analytické nalezení vektoru parametrů θ nechť θ má p parametrů: θ = (θ1, ...,θp) definujeme log-věrohodnostní funkci l(θ): l(θ) = ln p(D|θ) hledaný vektor parametrů zapíšeme: = argmax l(θ) věrohodnost s ohledem na trénovací data D zapíšeme jako: do log-věrohodnosti dosadíme za p(D|θ): θ
Analytické nalezení vektoru parametrů θ nyní hledáme maximum log-věrohodnosti l(θ) => výraz zderivujeme a položíme rovno 0 výraz je vektor: => vektor je nulový, když každá jeho složka je nulová => tím najdeme hledaný
Příklad - normální rozdělení uvedenou metodu aplikujeme na případ normálního rozdělení budeme uvažovat dvě situace: 1. normální rozdělení s neznámou střední hodnotou - známe kovarianční matici (rozptyl) daného rozdělení - hledáme jen střední hodnotu 2. normální rozdělení s neznámou střední hodnotou i kovarianční maticí (rozptylem) - typická situace - víme, že veličina má normální rozdělení, ale neznáme parametry rozdělení - hledáme střední hodnotu i kovariační matici (rozptyl) známe: trénovací data D hledáme: neznámé parametry normálního rozdělení
Příklad 1 – neznámé μ uvažujeme normální rozdělení: známe kovariační matici známe trénovací data hledáme střední hodnotu pro vzory z normálního rozdělení platí: nyní spočteme ln p(xk|μ):
Příklad 1 – neznámé μ výraz budeme postupně logaritmovat: výraz nyní parciálně zderivujeme podle μ: => toto je pro jeden trénovací vzor
Příklad 1 – neznámé μ nyní spočtený výraz dosadíme do obecného vztahu a dostaneme výraz: derivaci položíme rovno nule (hledáme maximum): výraz vynásobíme Σ:
Příklad 1 – neznámé μ po úpravě dostaneme výsledek: => μ je aritmetický průměr trénovacích vzorů toto je velmi dobrý výsledek (a dal se čekat) geometricky: trénovací vzory leží ve shluku a μ je střed tohoto shluku tento odhad by nás zřejmě napadl i bez znalosti metody maximální věrohodnosti
Příklad 2 – neznámé μ a Σ uvažujeme normální rozdělení: známe trénovací data hledáme střední hodnotu a kovariační matici => vektor θ bude mít složky (μ, Σ) nejprve se zaměříme na jednorozměrný případ: θ = (μ, σ2) pak rozšíříme do vícerozměrného případu
Příklad 2 – neznámé μ a Σ pro vzory z normálního rozdělení platí: nyní spočteme ln p(xk|μ): výraz zlogaritmujeme podle θ: parciální derivace podle θ1 parciální derivace podle θ2
Příklad 2 – neznámé μ a Σ spočtený vektor parciálních derivací položíme rovno 0 (hledáme maximum): tento vektor je nulový, když každá složka je nulová: (*) (**)
Příklad 2 – neznámé μ a Σ upravíme rovnici (*): upravíme rovnici (**): vynásobíme : dostaneme výsledek (**):
Příklad 2 – neznámé μ a Σ dostali jsme odhady pro jednorozměrný případ: vícerozměrný případ spočteme stejně (jen více počítání): dostali jsme, že odhad střední hodnoty je střední hodnota vzorků a odhad kovarianční matice je aritmetický průměr z matic
Přesnost odhadu odhad σ2 získaný pomocí maximální věrohodnosti je zkreslený očekávaná hodnota přes všechny trénovací sady velikosti n se nerovná skutečné hodnotě σ2 vztah můžeme ověřit snadno jen pro extrémní případ n=1 a σ2 ≠ 0: podobně lze ukázat, že i odhad kovarianční matice je „nepřesný“ (1)
Přesnost odhadu základní nestranný odhad pro kovarianční matici je: když je odhad nestranný pro všechny rozdělení (jako (2)) => nazveme jej absolutně nestranným odhadem když má odhad tendenci být nestranným s rostoucím počtem trénovacích vzorů (jako (1)) => nazveme jej asymptoticky nestranným odhadem pro rozpoznávání vzorů s velkými trénovacími množinami stačí pracovat s asymptoticky nestraným odhadem jiný asymptotický odhad kovarianční matice je: => odhady (2) i (3) jsou v podstatě identické pro velké n (2) (3)
Přesnost odhadu – problémy existence dvou podobných (ale přesto odlišných) odhadů kovarianční matice je znepokojivá => který z nich je správný? pro n>1 není žádný špatný, jen jsou odlišné neexistuje jeden odhad, který splňuje všechny námi požadované vlastnosti pro naše účely je nejdůležitější vlastnost „odhad, který vede k nejlepší klasifikaci“ => příliš složitá vlasnost klasifikátor založený na metodě odhadu parametrů pomocí max. věrohodnosti nemůžou jiné odhady vést k lepší klasifikaci? když máme spolehlivý model pro rozdělení a jeho závislost na vektoru parametrů θ => klasifikátor může dát výborné výsledky co když je náš model rozdělení chybný => získáme i tak nejlepší klasifikátor na námi vystavěném modelu? „NE“ příklad předpokládáme, že rozdělení je N(μ,1), ale ve skutečnosti je N(μ,10) nalezená hodnota μ pomocí max. věrohodnosti nemusí být nejlepší pro všechny klasifikátory odvozené z N(μ,1)
Příklad na zamyšlení ukažte, že když je náš model „slabý“ => klasifikátor používající odhady získané pomocí max. věrohodnosti není nejlepší víme: P(ω1)= P(ω2)=0.5 p(x| ω1) ~ N(0,1) předpokládáme: p(x|ω2) ~ N(μ,1) ... μ chceme odvodit pomocí max. věrohodnosti nechť skutečné rozdělení ω2 je p(x|ω2) ~ N(1,106) otázky: 1. Jaký je odhad v ω2 pomocí metody max. věrohodnosti? 2. Jaká je rozhodovací hranice tříd ω1 a ω2 , když ω2 je založena na odhadu p(x|ω2) ~ N( ,1)? 3. Jaká je rozhodovací hranice tříd ω1 a ω2 , když o ω2 víme, p(x|ω2) ~ N(1,106) ? 4. Uvažujme klasifikátor založený na p(x|ω2) ~ N( ,1). Najděte novou hodnostu , která dá menší chybu při klasifikaci.
Metoda Bayesovského odhadu metoda se dívá na θ jako na náhodnou veličinu a trénovací data nám pomůžou zkonvertovat hustotu této veličiny do P(ωi|x) metoda typicky dává velmi podobné výsledky jako metoda max. věrohodnosti, ale je zde konceptuální rozdíl jádrem klasifikace je pravděpodobnost P(ωi|x) Bayesovský vzorec nám tuto hodnotu spočte, když známe p(x|ωi) a P(ωi) potřebujeme: P(ωi|x) známe: tvar funkce hustoty trénovací data
Odvození metody D je množina trénovacích vzorů (rozdělená do jednotlivých tříd D1, ... Dc) chceme spočítat P(ωi|x) => na základě tohoto dostaneme klasifikátor Bayesovský vzorec: => použijeme informaci z trénovacích vzorů pro spočtení P(x|ωi,D) a P(ωi|D) pro provedení výpočtu si situaci zjednodušíme: předpokládejme, že apriorní pravděpodobnosti jsou známé nebo je lze snadno získat => budeme psát P(ωi) = P(ωi|D) budeme předpokládat, že vzory z Di nemají vliv na P(x|ωj,D) pro i≠j
Odvození metody tyto zjednodušení mají dva důsledky: 1. důsledek: můžeme pracovat s jednotlivými třídami odděleně tedy na spočtení p(x|ωi,D) stačí znát jen vzory z Di (a ne celou D) tedy Bayesův vzorec bude mít tvar: 2. důsledek: protože lze s třídami pracovat odděleně, nepotřebujeme indexy rozlišující třídy tedy uvažujeme c problémů tvaru „použít trénovací množinu D vybraných nezávisle podle fixního ale neznámého rozdělení p(x) k určení p(x|D)“ požadované rozdělení p(x) je neznámé, ale známe jeho tvar tedy neznáme jen hodnoty θ => tedy p(x) můžeme zapsat ve tvaru p(x|θ)
Odvození metody jakákoliv informace o θ obsažená v trénovacích datech, je také obsažena v neznámé hustotě p(θ) tedy vlastnosti z trénovacích vzorů jsou zkonvertovány do hustoty p(θ|D) doufáme, že tato hustota bude mít ostrý vrchol okolo hledaného θ ke spočtení p(x|D) použijeme integraci hustoty p(x,θ|D) přes θ: p(x,θ|D) lze psát jako součin p(x|θ,D)∙p(θ|D) výběr x je nezávislý a trénovací vzory jsou do D vybrány nezávisle: integrace přes celý prostor parametrů p(x,y) = p(x|y) ∙ p(y) p(x|θ,D) je téměř jako p(x|θ)
Odvození metody získaný integrál spojuje podmíněnou hustotu p(x|D) a hustotu p(θ|D) pro neznámý vektor parametrů: nyní aplikujeme větu o střední hodnotě integrálu: jestliže p(θ|D) má ostrý vrchol okolo nějaké hodnoty , dostaneme: dostaneme:
Odvození metody tedy výsledek dostaneme substitucí odhadu jako skutečného parametru zde předpokládáme, že p(x|θ) je hladká a že ocasy integrálu nejsou důležité typicky jsou tyto podmínky splněny (ale není to obecné pravidlo) obecně když si nejsme moc jisti o přesné hodnotě , rovnice s integrálem nás dovede ke zprůměrování p(x|θ) přes možné θ když má neznámá hustota známý tvar => vzory použijí „svůj vliv“ na p(x|D) skrz hustotu p(θ|D)
Příklad - normální rozdělení použïjeme metodu Bayesovského odhadu ke spočtení p(θ|D) a požadované hustoty p(x|θ) pro případ p(x|θ) ~ N(μ,Σ) pro jednoduchost uvažujeme jen jednorozměrný případ x = (x) p(x|μ) má normální rozdělení s neznámou střední hodnotu μ (rozptyl je znám) p(x|θ) = p(x|μ) ~ N(μ,σ2) dále předpokládáme, že známe hustotu p(μ) pro jednoduchý výpočet bude mít p(μ) normální rozdělení p(μ) ~ N(μ0,σ02) z tohoto rozdělení p(μ) budeme vybírat nejvhodnější μ (na základě trénovacích dat) Bayesovský odhad se skládá ze dvou kroků: Krok 1. - spočtení p(μ|D) Krok 2. - spočtení p(x|D)
vzory vybrány nezávisle Krok 1. - spočtení p(μ|D) máme n trénovacích vzorů x1, ... xn v D vzory byly vybrány nezávisle pomocí Bayesova vzorce dostaneme vztah p(μ|D): kde α je normalizační faktor, který závisí na D (ne na μ) rovnice ukazuje, jak pozorování trénovacích vzorů ovlivňuje naše myšlenky ohledně skutečné hodnoty μ tedy dostaneme vztah od p(μ) k p(μ|D) p(μ) ... známe p(μ|D) ... chceme spočítat vzory vybrány nezávisle
Krok 1. - spočtení p(μ|D) nyní použijeme naše předpoklady: p(xk|μ) ~ N(μ,σ2) ... rozdělení x p(μ) ~ N(μ0,σ02) ... rozdělení μ tyto předpoklady dosadíme do Bayesova vzorce: konstanty skryjeme do koeficientu α:
Krok 1. - spočtení p(μ|D) součin exponenciál je exponenciála součtu: roznásobíme závorky a členy, které nezávisí na μ, sloučíme do α'': tedy p(μ|D) je exponenciální funkce kvadratické funkce proměnné μ: p(μ|D) má opět normální rozdělení a to pro libovolný počet vzorů p(μ|D) ~ N(μn,σn2)
střední hodnota trénovacích dat Krok 1. - spočtení p(μ|D) koeficienty μn a σn2 zjistíme porovnání koeficinetů ve výsledné rovnici s odpovídajícími koeficinety normálního rozdělení N(μn,σn2): a explicitně vyjádříme μn a σn2: => tyto rovnice ukazují, jak je apriorní informace kombinována s empirickými informacemi z trénovacích dat pro výpočet p(μ|D) střední hodnota trénovacích dat
Krok 1. - spočtení p(μ|D) co představují získané koeficienty μn a σn2: μn představuje náš nejlepší odhad pro μ na základě n trénovacích vzorů σn2 měří nejistotu našeho odhadu σn2 klesá monotónně s rostoucím n => každé další pozorování (trénovací vzor) sníží naší nejistotu ohledně správnosti μ s rostoucím n má p(μ|D) ostřejší vrchol pro n →∞ dosáhne p(μ|D) Diracovy delta funkce => Bayesovské učení
Bayesovské učení
Krok 1. - spočtení p(μ|D) μn je lineární kombinace a μ0: 1. σ0 ≠ 0 koeficienty jsou nezáporné a jejich součet je 1 tedy μn leží někde mezi a μ0 1. σ0 ≠ 0 μn dosáhne střední hodnoty trénovacích dat pro n=∞ 2. σ0 = 0 degenerovaný případ - jistota, že μn = μ0 , je tak silná, že žádný počet trénovacích vzorů nemůže změnit naše pozorování 3. σ0>>σ jsme velmi nejisti ohledně našeho odhadu => položíme μn= a tím použijeme jen trénovací data k odhadu μ obecně: relativní rovnováha mezi apriorní znalostí a empirockými daty je dána poměrem σ2 k σ02 .... dogmatismus když není dogmatismus nekonečno => po dostatečném počtu trén. vzorů skutečné hodnoty μ0 a σ02 přestanou být důležité a μn zkonverguje ke střední hodnotě trénovacích vzorů
Krok 2. - spočtení p(x|D) nyní známe p(μ|D) a chceme spočítat p(x|D) zatím jsme uvažovali jen jednu třídu => ve skutečnosti p(x|D) je p(x|ωi,Di) víme, že: do integrálu dosadíme známá normální rozdělení: N(μn,σn2) N(μ,σ2)
Krok 2. - spočtení p(x|D) integrál přeskupíme: tedy dostaneme výsledek: p(x|D) funkce proměnné x je proporcionální k
Krok 2. - spočtení p(x|D) p(x|D) má normální rozdělení: střední hodnota μn rozptyl σ2 + σn2 => p(x|D) ~ N(μn,σ2 + σn2) vyšli jsme ze znalosti p(x|μ) ~ N(μ,σn2) získali jsme podmíněnou pravděpodobnost p(x|D) nahrazením: μ za μn ... střední hodnota μn se vezme za skutečnou hodnotu σ2 za σ2 + σn2 ... známý σ2 rozptyl je navýšen o σn2 (nejistota pocházející z nedostatečné znalosti střední hodnoty μ) závěr: hustota p(x|D) je požadovaná hustota p(x|ωi,Di) společně s apriorní informací P(ωi) dostaneme informace nutné pro klasifikátor
Bayesovský odhad - shrnutí předpoklady: tvar p(x|θ) je znám (neznáme hodnoty θ) iniciální znalosti o θ jsou obsaženy ve známé hustotě p(θ) zbytek naší znalosti o θ je v trénovacích datech x1, ..., xn z D (vybrány nezávisle z neznámé hustoty p(x)) výpočet: spočteme p(D|θ) pomocí předpokladu o nezávislosti vybraných vzorů: spočteme p(θ|D) pomocí Bayesova vzorce: spočteme požadovanou p(x|D): => spočtená p(x|D) je hledanou p(x|ωi,Di)
Rekurzivní Bayesovská metoda označme Dn={x1, ..., xn} nyní zapíšeme nezávislost vybraných vzorů: tento výraz dosadíme do Bayesova vzorce pro p(θ|D): protože p(θ|D0)= p(θ), postupným dosazováním dostaneme: p(θ), p(θ|x1), p(θ|x1,x2), ...... => rekurzivní Bayesovská metoda k odhadu parametrů online učící metoda, kde učení jde tak, jak jsou data získávána
Bayesovské učení Bayesovské učení: když posloupnost p(θ), p(θ|x1), p(θ|x1,x2), .... konverguje k Diracově delta funkci vycentrované okolo skutečné hodnoty parametru pro většinu nejčastěji používaných hustot posloupnost konverguje k Diracově delta funkci 1. pro velké množstvé vzorů existuje jen jedna hodnota θ, pro kterou p(x|θ) „pasuje“ na data z p(x|θ) lze jednoznačně určit θ 2. existují případy, kdy existuje více hodnot θ pro p(x|θ) nelze jednoznačně určit θ z p(x|θ) p(x|Dn) bude mít vrchol mimo všech hodnot θ, které odpovídají datům je nutné použít integrál na výpočet p(x|Dn), který „smaže“ víceznačnosti => p(x|Dn) typicky konverguje k p(x)
Kdy se liší metoda max. věrohodnosti a Bayesovský odhad? značení: metoda maximální věrohodnosti ... MMV metoda Bayesovského odhadu ... BO pro n →∞ jsou typicky BO i MMV ekvivaletní v praxi máme limitované sady dat a zde se metody mohou lišit kritéria pro výběr metody: výpočetní složitost interpretovatelnost důvěra v apriorní informace
Kritéria pro výběr metody výpočetní složitost: MMV má snadnější techniky diferenciálního počtu při hledání θ (+) BO má složitou mnohorozměrnou integraci (-) interpretovatelnost: MMV bývá snadno pochopitelná a interpretovatelná, protože vrací jediný nejlepší model (parametr) z dané trénovací množiny (+) BO dává vážený průměr modelů (parametrů), které vedou ke složitějším a hůře pochopitelnějším modelům (-) BO váží nejistotu v možných modelech (+) důvěra v apriorní informace (jako tvar p(x|θ)): u MMV musí mít uvažovaný parametrický tvar u BO ne => existují případy, kdy Bayesovské řešení nemá původní předpokládaný tvar (BO využívá více informací než MMV) navíc BO objasní rovnováhu mezi přesností odhadu a jeho rozptylem
Druhy chyb Bayesovská chyba (chyba nerozlišitelnosti) chyba modelu chyba vzniklá překrýváním hustot p(x|ωi) pro různé i tato chyba je vlastnost problému a nelze se jí vyhnout chyba modelu chyba způsobená volbou nesprávného modelu chybu lze odstranit, jen když známe skutečný model, který generuje data návrháři obvykle volí model, který je založen na znalosti problematiky (než na metodách odhadu) chyba odhadu chyba vzniklá z faktu, že parametry odhadujeme z konečného počtu dat chybu lze zredukovat zvyšováním počtu trénovacích dat relativní příspěvky chyb závisí na daném problému v limitním případě (nekonečně trénovacích dat) chyba odhadu zmizí a celková chyba klasifikace bude stejná pro obě metody
Dimenzionalita dat praxe: máme 50 až stovky příznaků (typicky binárně kódované) můžeme předpokládat, že každý příznak je důležitý nicméně lze pochybovat, že každý příznak poskytne nezávisou informaci obecně: když daná množina příznaků není adekvátní, je přirozené přidat další příznak (zejména takový, který pomůže separovat nejhůře oddělitelné dvojice tříd) rostoucí počet příznaků zvýší časovou i prostorovou složitost ale zlepšení výkonu bývá důležitější naneštěstí praxe ukazuje, že existuje jistá mez na přidávání dalších příznaků při překročení této meze se výkon nezlepší ale naopak zhorší tento paradox představuje vážný problém při návrhu klasifikátoru problém: jednoduché případy neukazují experimentálně zjištěné jevy složité reálné případy nelze dobře analyzovat
Přesnost klasifikace a problém dimenzionality dat když známe pravděpodobnostní strukturu problému: přidáním dalšího příznaku se Bayesovská ztráta nemůže zhoršit v nejhorším případě bude Bayesovský klasifikátor ignorovat nové příznaky když nové příznaky přinesou nějakou novou informaci => výkon se musí zlepšit v 3D se hustoty nepřekrývají při projekci do roviny x1 x2 nebo do přímky x1 se promítnuté hustoty překrývají
Nedostupnost adekvátních dat co dělat, když nejsou dostupná adekvátní data? snížit dimenzi dat a vybrat vhodnější podmnožinu příznaků předpokládat, že všechny třídy sdílí stejnou kovarianční matici a získat další dostupná data hledat lepší odhad kovarianční matice „zprůměrujeme“ spočtený odhad a nějaký rozumný iniciální odhad když je Σ0 diagonální => zmizí problémový efekt „náhodné korelace“ alternativně můžeme odstranit „šanci“ korelace pomocí heuristiky např. prahování kovarianční matice vzorů – když magnituda korelačního koeficientu není blízko 1 => nahradíme tuto hodnotu 0 extrém tohoto je předpokládat statistickou nezávislost – vynulovat nediagonální prvky bez ohledu na empirická data ačkoliv jsou takovéto předpoklady téměř jistě nesprávné – výsledné heuristiky dají často lepší výkon než spočtené odhady