Algoritmus k-means Ivan Pirner 2007/2008. Cíle mého snažení: • naprogramovat v MATLABu algoritmus k-means • vymyslet funkce popisující vzdálenost ve 40dimenzionálním.

Slides:



Advertisements
Podobné prezentace
Lineární klasifikátor
Advertisements

Rubikova kostka Tietz.
Statistická indukce Teorie odhadu.
Statistická indukce Teorie odhadu.
Analýza spolehlivosti tlakové nádoby metodou Monte Carlo Jakub Nedbálek Katedra Aplikované Matematiky, Fakulta Elektrotechniky a Informatiky VŠB - Technická.
Dynamické systémy.
ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, OLOMOUC tel.: , ; fax:
Diskrétní matematika Opakování - příklady.
A5M33IZS – Informační a znalostní systémy Datová analýza I.
Kalmanuv filtr pro zpracování signálů a navigaci
Téma 3 ODM, analýza prutové soustavy, řešení nosníků
POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik
Výzkumy volebních preferencí za ČR a kraje od
NÁSOBENÍ ČÍSLEM 10 ZÁVĚREČNÉ SHRNUTÍ
VY_32_INOVACE_INF_RO_12 Digitální učební materiál
Charakteristiky variability
Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Martina Burgetová Tento materiál byl vytvořen v rámci projektu Operačního programu.
Dvojosý stav napjatosti
Zábavná matematika.
Dlouhodobá maturitní práce studentů Tomáše Kurce & Jana Kuželky
Heuristické metody Heuristiky dělíme na primární a duální.
Popisná statistika - pokračování
Statistika Vypracoval: Mgr. Lukáš Bičík
Jazyk vývojových diagramů
Autor: Boleslav Staněk H2IGE1.  Omyly  Hrubé chyby  Chyby nevyhnutelné  Chyby náhodné  Chyby systematické Rozdělení chyb.
Čtení myšlenek Je to až neuvěřitelné, ale skutečně je to tak. Dokážu číst myšlenky.Pokud mne chceš vyzkoušet – prosím.
Seminář – Základy programování
Shlukovací algoritmy založené na vzorkování
25. října 2004Statistika (D360P03Z) 4. předn.1 Statistika (D360P03Z) akademický rok 2004/2005 doc. RNDr. Karel Zvára, CSc. KPMS MFF UK
Číselné charakteristiky NV
Obsah statistiky Jana Zvárová
Náhoda, generátory náhodných čísel
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
8. listopadu 2004Statistika (D360P03Z) 6. předn.1 chování výběrového průměru nechť X 1, X 2,…,X n jsou nezávislé náhodné veličiny s libovolným rozdělením.
Obvody a obsahy obrazců
Novohradské statistické dny Poznámky k problematice určování počtu shluků Hana Řezanková Vysoká škola ekonomická v Praze.
Analýza napjatosti Plasticita.
Odhady parametrů základního souboru
1 Celostátní konference ředitelů gymnázií ČR AŘG ČR P ř e r o v Mezikrajová komparace ekonomiky gymnázií.
Základní pojmy Grafiky
1 © Mediaresearch, a.s., 2008 NetMonitor a AdMonitoring Výsledky za říjen 2008.
Matematika 5.ročník Poláková J., ZŠ Věšín
ZÁKLADNÍ ŠKOLA OLOMOUC příspěvková organizace MOZARTOVA 48, OLOMOUC tel.: , ; fax:
Predikce chemických posunů
KONTROLNÍ PRÁCE.
Náhoda, generátory náhodných čísel
Porovnání výroby a prodejů vozidel ve světě
Funkce více proměnných.
Jedno-indexový model a určení podílů cenných papírů v portfoliu
Ekonometrie „ … ekonometrie je kvantitativní ekonomická disciplína, která se zabývá především měřením v ekonomice na základě analýzy reálných statistických.
Experimentální fyzika I. 2
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
Náhodné výběry a jejich zpracování Motto: Chceme-li vědět, jak chutná víno v sudu, nemusíme vypít celý sud. Stačí jenom malý doušek a víme na čem jsme.
MATEMATICKÁ STATISTIKA
Fitování Konstrukce křivky (funkce), která co nejlépe odpovídá naměřeným hodnotám. - může podléhat dodatečným podmínkám Lineární vs. nelineární regrese.
Mgr. Marcela Sandnerová Pojem charakteristiky variability Variabilita (proměnlivost)  Odlišnost hodnot příslušného znaku Čím větší je variabilita sledovaného.
2. Vybrané základní pojmy matematické statistiky
Základy matematické statistiky. Nechť je dána náhodná veličina X (“věk žadatele o hypotéku“) X je definována rozdělením pravděpodobností, s nimiž nastanou.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
Podobnost trajektorií Jiří Jakl Úvod - využití Rozpoznáváni ručně psaných textů GPS navigace Analýza pohybu pracovníku v budovách Predikce.
Postup při empirickém kvantitativním výzkumu
Přenos nejistoty Náhodná veličina y, která je funkcí náhodných proměnných xi: xi se řídí rozděleními pi(xi) → můžeme najít jejich střední hodnoty mi a.
Vícerozměrné statistické metody Vícerozměrné statistické rozdělení a testy, operace s vektory a maticemi Jiří Jarkovský, Simona Littnerová.
1 Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je Mgr. Vladimír Mikulík. Slezské gymnázium, Opava, příspěvková organizace. Vzdělávací materiál.
Metoda molekulární dynamiky
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Výuka matematiky v 21. století na středních školách technického směru
Analýza kardinálních proměnných
Základy statistiky.
Náhodné výběry a jejich zpracování
Transkript prezentace:

Algoritmus k-means Ivan Pirner 2007/2008

Cíle mého snažení: • naprogramovat v MATLABu algoritmus k-means • vymyslet funkce popisující vzdálenost ve 40dimenzionálním prostoru a použít je v algoritmu • zjistit, která z funkcí se nejlépe hodí k použití • časová náročnost • „vhodné“ rozdělení prvků

Co je k-means K-means, neboli k-středů, je metoda shlukové analýzy uvedená Johnem MacQueenem v roce Jejím úkolem je rozdělit množinu vektorů dimenze n do k podmnožin tak, aby byla nejmenší suma vzdáleností jednotlivých vektorů od středu příslušné podmnožiny. Následující skutečnost můžeme zapsat jako minimalizaci veličiny V.

Popis algoritmu 1.Zadáme k a množinu všech vektorů. 2.Zvolíme k výchozích středů podmnožin. 3.Na základě funkce vzdálenosti každý z vektorů přiřadíme do shluku, jehož střed má nejmenší vzálenost. 4.Vypočítáme u každé podmnožiny nový střed coby „těžiště“ množiny 5.Návrat na krok 2. Zastavovací podmínka: Přiřazení žádného prvku se v předchozím kroku nezměnilo.

Ilustrace funkce

Ukázkavýstupu

Problém volby středů Počáteční volbu můžeme provést libovolným způsobem, ale projeví se to pak na výsledku shlukování. Vyzkoušel jsem: 1.k náhodných vektorů 2.Vzít prvních k vektorů z množiny. 3.Vzít náhodných k vektorů z množiny. Při další práci jsem využil možnosti číslo 2.

Vzdálenostní funkce V původním algoritmu se jako míra vzdálenosti používá eukleidovská vzdálenost. To mě inspirovalo k několika úvahám: • Nestačil by kvadrát eukleidovské vzdálenosti? (méně počítání) • Jak nám výsledek ovlivní normy L1, L3, L4, max norma? • Neměli bychom jednotlivé složky vážit?

Statistika Zjistil jsem, že jednotlivé složky se zřejmě řídí normálním rozdělením.

Statistika Zjistil jsem směrodatné odchylky jednotlivých složek na reprezentativním vzorku vektorů. Ze zjištěných údajů vyplývá jednak to, že vážení má smysl, neboť první tři složky ovlivňují shlukování výrazně více než ostatní.

Vzdálenostní funkce seznam, popis Mějme vektory 1.Eukleidovská norma 2.Vážená eukleidovská norma 3.Kvadrát eukleidovské normy 4.Kvadrát vážené normy 5.Max norma 6.Max norma vážená 7.L1 norma 8.L3 norma 9.L4 norma 10.L1 vážená 11.L3 vážená 12.L4 vážená kvadráty

Časová náročnost f-cí 1Eukleidovská norma74,08 2Vážená eukleidovská norma62,38 3Kvadrát eukleidovské normy62,40 4Kvadrát vážené normy60,25 5Max norma86,03 6Max norma vážená65,65 7L1 norma34,61 8L3 norma99,87 9L4 norma94,07 10L1 vážená91,98 11L3 vážená119,81 12L4 vážená124,05

Jak se liší výsledky f-cí 1Eukleidovská norma00 % 2Vážená eukleidovská norma65432,33 % 3Kvadrát eukleidovské normy00 % 4Kvadrát vážené normy65432,33 % 5Max norma60629,96 % 6Max norma vážená134533,49 % 7L1 norma1919,44 % 8L3 norma391,93 % 9L4 norma653,21 % 10L1 vážená94846,86 % 11L3 vážená67633,42 % 12L4 vážená78338,70 %

Závěr To, že se přiřazení u jednotlivých funkcní liší ještě nutně neznamená, že je to špatně. Každopádně můžeme usuzovat, že norma L1 je pro nás zajímavá z toho důvodu, že přiřazení se liší relativně málo, kdežto výpočetní nároky jsou mnohem menší.

Použitá literatura • obrázky z • Mluvíme s počítačem česky Josef Psutka, Jindřich Matoušek, Luděk Müller, Vlasta Radová