Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

Podobné prezentace


Prezentace na téma: "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."— Transkript prezentace:

1 © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.

2 © Institut biostatistiky a analýz IV. KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI

3 © Institut biostatistiky a analýz PRINCIPY KLASIFIKACE  pomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě;  pomocí definice hranic mezi jednotlivými třídami a logických pravidel;  pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd;  pomocí ztotožnění s etalony;

4 © Institut biostatistiky a analýz PRINCIPY KLASIFIKACE  pomocí diskriminačních funkcí – funkcí, které určují míru příslušnosti k dané klasifikační třídě;  pomocí definice hranic mezi jednotlivými třídami a logických pravidel;  pomocí vzdálenosti od reprezentativních obrazů (etalonů) klasifikačních tříd;  pomocí ztotožnění s etalony;

5 © Institut biostatistiky a analýz METRIKA - VZDÁLENOST Metrika ρ na X je funkce ρ: X × X  R, kde R je množina reálných čísel, taková, že:  ρ 0  R: -  < ρ 0  ρ(x,y) < + ,  x,y  X ρ(x,x) = ρ 0,  x  X a ρ(x,y) = ρ(y,x),  x,y  X. (symetrie) Když dále ρ(x, y) = ρ 0 když a jen když x = y (totožnost) a ρ(x, z)  ρ(x, y) + ρ(y, z),  x,y,z  X. (  nerovnost) Prostor X, ve kterém metrika ρ definována, nazýváme metrickým prostorem. Vzdálenost je hodnota určená podle metriky.

6 © Institut biostatistiky a analýz METRIKA PODOBNOSTI - PODOBNOST Metrická míra podobnosti s na X je funkce s: X × X  R, kde R je množina reálných čísel, taková, že:  s 0  R: -  < s(x,y)  s 0 < + ,  x,y  X s(x,x) = s 0,  x  X a s(x,y) = s(y,x),  x,y  X. (symetrie) Když dále s(x,y) = s 0 když a jen když x = y (totožnost) a s(x,y).s(y,z)  [s(x,y) + s(y,z)].s(x,z),  x,y,z  X.

7 © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. s ij = 1/ρ ij s ij = 1/(1+ ρ ij ) s ij = c - ρ ij, c  max ρ ij,  i,j

8 © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. s ij = 1/ρ ij s(x,y).s(y,z)  [s(x,y) + s(y,z)].s(x,z),  x,y,z  X s ij = 1/(1+ ρ ij ) s ij = c - ρ ij, c  max ρ ij,  i,j

9 © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. s ij = 1/ρ ij s(x,y).s(y,z)  [s(x,y) + s(y,z)].s(x,z),  x,y,z  X s ij = 1/(1+ ρ ij ) s ij = c - ρ ij, c  max ρ ij,  i,j

10 © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. s ij = 1/ρ ij s(x,y).s(y,z)  [s(x,y) + s(y,z)].s(x,z),  x,y,z  X s ij = 1/(1+ ρ ij ) s(x,y).s(y,z)  [s(x,y) + s(y,z) - s(x,y).s(y,z)].s(x,z),  x,y,z  X s ij = c - ρ ij, c  max ρ ij,  i,j

11 © Institut biostatistiky a analýz MÍRY PODOBNOSTI VS. NEPODOBNOSTI Vzdálenostní míry (míry nepodobnosti) mohou být transformovány na podobnostní míry různými transformacemi, např. s ij = 1/ρ ij s(x,y).s(y,z)  [s(x,y) + s(y,z)].s(x,z),  x,y,z  X s ij = 1/(1+ ρ ij ) s(x,y).s(y,z)  [s(x,y) + s(y,z) - s(x,y).s(y,z)].s(x,z),  x,y,z  X s ij = c - ρ ij, c  max ρ ij,  i,j s(x,z)  s(x,y) + s(y,z) - c

12 © Institut biostatistiky a analýz TYPY M Ě R VZDÁLENOSTI (PODOBNOSTI)  dle typu příznaků (numerické hodnoty, nominální či ordinální hodnoty, binární hodnoty);  dle objektů, jejichž vztah hodnotíme – obrazy (vektory), množiny obrazů (vektorů), rozdělení  deterministické (nepravděpodobnostní) vs. pravděpodobnostní míry

13 © Institut biostatistiky a analýz MÍRY VZDÁLENOSTI obecné poznámky:  výběr konkrétní metriky závisí na použití kritéria:  optimální výsledky (klasifikační chyby, ztráta, …)  výpočetní nároky  charakter rozložení dat  obecně nelze doporučit vhodnou metriku pro určité standardní situace

14 © Institut biostatistiky a analýz METRIKY PRO URČENÍ VZDÁLENOSTI MEZI DVĚMA OBRAZY S KVANTITATIVNÍMI PŘÍZNAKY

15 © Institut biostatistiky a analýz EUKLIDOVA METRIKA metrika zřejmě s nejnázornější geometrickou interpretaci  geometrickým místem bodů s toutéž Euklidovou vzdáleností od daného bodu je hyperkoule (kruh ve dvourozměrném prostoru);  dává větší důraz na větší rozdíly mezi souřadnicemi (žádoucí nebo nežádoucí? – volba i podle toho, jak chceme zdůrazňovat rozdíly mezi jednotlivými souřadnicemi)  čtverec euklidovské vzdálenosti (lépe se počítá) je stále mírou nepodobnosti, ale není metrikou

16 © Institut biostatistiky a analýz EUKLIDOVA METRIKA metrika zřejmě s nejnázornější geometrickou interpretaci  Sokalova metrika

17 © Institut biostatistiky a analýz HAMMINGOVA METRIKA (metrika Manhattan, manhattanská metrika, city-block m., taxi driver m. – taxikářská metrika)

18 © Institut biostatistiky a analýz HAMMINGOVA METRIKA (metrika Manhattan, manhattanská metrika, city-block m., taxi driver m. – taxikářská metrika)  geometrickým místem bodů ve dvou rozměrném prostoru je čtverec postavený na špičku;  nižší výpočetní nároky než E.m.  použití v úlohách s vysokou výpočetní pracností

19 © Institut biostatistiky a analýz MINKOVSKÉHO METRIKA  zobecnění Euklidovy a Hammingovy metriky;  volba m záleží na míře důrazu – čím větší m, tím větší váha na velké rozdíly mezi příznaky, pro m  metrika konverguje k Čebyševově metrice

20 © Institut biostatistiky a analýz Č EBYŠEVOVA METRIKA  používá se ve výpočetně kriticky náročných případech, kdy je pracnost výpočtu dle euklidovsky orientovaných metrik nepřijatelná;  geometrickým místem bodů s toutéž Čebyševovou vzdáleností od daného bodu je hyperkrychle (čtverec ve dvourozměrném prostoru)

21 © Institut biostatistiky a analýz SROVNÁNÍ GEOMETRICKÝCH MÍST

22 © Institut biostatistiky a analýz Č EBYŠEVOVA METRIKA  pokud je třeba použít „euklidovskou“ metriku, ale s nižší výpočetní pracností, používá se v první řadě Hammingova nebo Čebyševova metrika;  lepším přiblížením je kombinace obou metrik (ve dvourozměrném prostoru tvoří geometrické místo bodů o téže vzdálenosti osmiúhelník)

23 © Institut biostatistiky a analýz NEVÝHODY DOSUD UVEDENÝCH METRIK  je nesmyslné vytvářet součet rozdílů veličin s různým fyzikálním rozměrem;  při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu;

24 © Institut biostatistiky a analýz NEVÝHODY DOSUD UVEDENÝCH METRIK  je nesmyslné vytvářet součet rozdílů veličin s různým fyzikálním rozměrem;  při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu; Jak si poradit ?  transformace proměnných – vztažením k nějakému vyrovnávacímu faktoru – střední hodnotě, směrodatné odchylce, normě, rozpětí  i = max j x ij - min j x ij, resp. standardizací, i = 1, …, n; j = 1, …, K.

25 © Institut biostatistiky a analýz NEVÝHODY DOSUD UVEDENÝCH METRIK  je nesmyslné vytvářet součet rozdílů veličin s různým fyzikálním rozměrem;  při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu; Jak si poradit ?  váhováním; např. Minkovského váhovaná metrika transformace pomocí váhových koeficientů je maticově u = C T.x, kde koeficienty transformační matice C jsou dány c ii = a i, pro i = 1, …, n; c ij = 0, pro i  j.

26 © Institut biostatistiky a analýz NEVÝHODY DOSUD UVEDENÝCH METRIK  je nesmyslné vytvářet součet rozdílů veličin s různým fyzikálním rozměrem;  při začlenění korelovaných veličin se zvyšuje jejich vliv na výslednou hodnotu; Jak si poradit ? S takovým vyjádřením transformace příznakových proměnných je váhovaná Euklidova metrika definována vztahem Pokud jsou složky transformovaného obrazu dány lineární kombinací více složek původního obrazu, není ani matice C, ani matice C.C T čistě diagonální.

27 © Institut biostatistiky a analýz KVADRATICKÁ VZDÁLENOST  vhodný výběr matice Q je inverzní matice kovariance uvnitř množiny obrazů;  pak se to (a po odmocnění) jmenuje Mahalanobisova metrika

28 © Institut biostatistiky a analýz CANBERRSKÁ METRIKA  relativizovaná varianta Hammingovy metriky  je vhodná pro proměnné s nezápornými hodnotami  pokud jsou obě hodnoty x 1i a x 2i nulové, potom předpokládáme, že hodnota zlomku je nulová;  je-li jenom jedna hodnota nulová, pak je zlomek roven jedné, nezávisle na velikosti druhé hodnoty;  někdy se nulové hodnoty nahrazují malým kladným číslem (menším, než nejmenší naměřené hodnoty);

29 © Institut biostatistiky a analýz CANBERRSKÁ METRIKA  relativizovaná varianta Hammingovy metriky  canberrská metrika je velice citlivá na malé změny souřadnic, pokud se oba obrazy nacházejí v blízkosti počátku souřadnicové soustavy. Naopak je méně citlivá na změny hodnot příznaků, pokud jsou tyto hodnoty velké.

30 © Institut biostatistiky a analýz P Ř ÍKLAD Jsou dány dva vektory x 1 = (0,001; 0,001) T a x 2 = (0,01; 0,01) T. Předpokládejme, že souřadnice prvního z vektorů se změní na x´ 1 (0,002; 0,001) T. Jaká je Hammingova a canberrská vzdálenost v obou případech a jaká je relativní změna vzdáleností, vyvolaná uvedenou modifikací?

31 © Institut biostatistiky a analýz P Ř ÍKLAD - Ř EŠENÍ d H (x 1,x 2 ) = |0,001-0,01| + |0,001-0,01| = 0, ,009 = 0,018; d H (x´ 1,x 2 ) = |0,002-0,01| + |0,001-0,01| = 0, ,009 = 0,017; Relativní změny vzdáleností, určující citlivost té které metriky, které jsou způsobeny změnou hodnoty první souřadnice, jsou Ze získaných výsledků je zřejmé, že relativní změna vzdáleností je v případě canberrské metriky pro toto zadání o poznání větší.

32 © Institut biostatistiky a analýz P Ř ÍKLAD Nyní mějme dány vektory x 1 = (1000; 1000) T a x 2 = (100; 100) T a předpokládejme, že dojde ke změně první souřadnice vektoru x 1 na x´ 1 = (1002; 1000) T. Jaká je Hammingova a canberrská vzdálenost pro tyto vektory a jaká je relativní změna vzdáleností, vyvolaná uvedenou modifikací?

33 © Institut biostatistiky a analýz P Ř ÍKLAD - Ř EŠENÍ d H (x 1,x 2 ) = | | + | | = = 1800; d H (x´ 1,x 2 ) = | | + | | = = 1802; Relativní změny vzdáleností způsobených změnou hodnoty první souřadnice pak v tomto případě jsou Jak je zřejmé, citlivost canberrské metriky je v tomto případě řádově menší.

34 © Institut biostatistiky a analýz NELINEÁRNÍ VZDÁLENOST kde D je prahová hodnota a H je nějaká konstanta. Uvádí se, že dobrý výběr hodnot H a D by měl splňovat vztah když D splňuje nestrannost a konzistenční podmínku Parzenova odhadu, především D n N  a D  0, když N  (N je počet obrazů v množině)

35 © Institut biostatistiky a analýz METRIKY PRO URČENÍ PODOBNOSTI MEZI DVĚMA OBRAZY S KVANTITATIVNÍMI PŘÍZNAKY

36 © Institut biostatistiky a analýz SKALÁRNÍ SOU Č IN Ve většině případů je skalární součin jako míra podobnosti použit pro vektory x 1 a x 2 o stejné délce, např. a. V těch případech jsou horní, resp. dolní mez skalárního součinu a 2, resp. –a 2 a hodnoty skalárního součinu v tom případě závisí výhradně na úhlu, který oba vektory svírají. Hodnoty a 2 nabývá, pokud oba vektory svírají nulový úhel, hodnoty –a 2, pokud úhel mezi nimi je 180° a nulové hodnoty, pokud jsou oba vektory na sebe kolmé. skalární součin je tedy invariantní vůči rotaci (jejich absolutní orientace není podstatná, důležitý je pouze úhel mezi nimi), nikoliv však vůči lineární transformaci (závisí na délce vektorů). Ze skalárního součinu vektorů o délce a je možné odvodit i metriku vzdálenosti podle vztahu

37 © Institut biostatistiky a analýz METRIKA KOSINOVÉ PODOBNOSTI kde je norma (délka) vektoru x i. = skalární součin vektorů o jednotkové délce vhodná v případě, pokud je informativní pouze relativní hodnota příznaků; hodnoty  cos (x 1, x 2 ) jsou rovny kosinu úhlu mezi oběma vektory.

38 © Institut biostatistiky a analýz PEARSON Ů V KORELA Č NÍ KOEFICIENT kde x di = (x i1 -, x i2 -, …, x in - ) T, x ij představují j-tou souřadnici vektoru x i a je střední hodnota určená ze souřadnic vektoru x i ( ). Vektory x di se nazývají diferenční vektory. Podobně jako v případě kosinové podobnosti, nabývá Pearsonův korelační koeficient hodnot z intervalu  -1;1 , rozdíl vůči kosinové míře podobnosti je ten, že určuje vztah nikoliv vektorů x 1 a x 2, nýbrž jejich diferenčních variant.

39 © Institut biostatistiky a analýz PEARSON Ů V KORELA Č NÍ KOEFICIENT její hodnoty se, díky dělení dvěma, vyskytují v intervalu  0;1 . Tato metrika se používá např. při analýze dat genové exprese. I z hodnot Pearsonova korelačního koeficientu lze určit vzdálenost obou vektorů pomocí metriky

40 © Institut biostatistiky a analýz TANIMOTOVA METRIKA PODOBNOSTI Přičteme-li a odečteme-li ve jmenovateli výraz x 1 T x 2 a podělíme-li čitatele i jmenovatele zlomku toutéž hodnotou, dostaneme Tanimotova podobnost vektorů x 1 a x 2 je nepřímo úměrná kvadrátu Euklidovy vzdálenosti vektorů x 1 a x 2 vztažené k jejich skalárnímu součinu. Pokud skalární součin považujeme za míru korelace obou vektorů, můžeme formulovat výše uvedený vztah tak, že σ T (x 1, x 2 ) je nepřímo úměrná kvadrátu Euklidovy vzdálenosti podělené velikostí jejich korelace, což znamená, že je korelaci, jako míře podobnosti přímo úměrná.

41 © Institut biostatistiky a analýz „BEZEJMENNÁ“ METRIKA PODOBNOSTI Vzdálenost podle metriky je rovna jedné, když x 1 = x 2 a svého minima (tj. = -1) nabývá, když x 1 = -x 2.

42 © Institut biostatistiky a analýz Příprava nových učebních materiálů oboru Matematická biologie je podporována projektem ESF č. CZ.1.07/2.2.00/ „ INTERDISCIPLINÁRNÍ ROZVOJ STUDIJNÍHO OBORU MATEMATICKÁ BIOLOGIE “ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ


Stáhnout ppt "© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc."

Podobné prezentace


Reklamy Google