R - příklady Jan Knotek. I. Play or Not To Play OutlookTemp.HumidityWindyPlay sunnyhothighfalseno sunnyhothightrueno overcasthothighfalseyes rainymildhighfalseyes.

Slides:



Advertisements
Podobné prezentace
Normalizace Řada analytiků se mylně domnívá, že pro každý objekt existuje jedno jediné univerzálně použitelné nejlepší řešení bez ohledu na řešený problém.
Advertisements

LVQ – Learning Vector Quantization
Manažerská grafika: Program č.3 Jaroslav LosSB 272.
Architektury a techniky DS Tvorba efektivních příkazů I Přednáška č. 3 RNDr. David Žák, Ph.D. Fakulta elektrotechniky a informatiky
Rozložení EEG elektrod (10-20 system)
Práce s Xml ● Základní moduly pro práci s XML: – Xml.dom – Document Object Model API – Xml.dom.minidom ● Základní objekt je Dokument – stromová struktura.
Strojové učení I (Mitchell93) učicí množina příkladů hledáme generalizaci učicí množiny ověřujeme na testovací množině pokrytí, přesnost, F-kriterium.
PHP PHP – základy syntaxe (část 1) - 03 Mgr. Josef Nožička IKT PHP
Formátování textu. Odstavce  tvoříme párovou značkou  text bude od ostatního textu oddělen Konec řádky  nepárová značka způsobuje ukončení řádku a.
Hana Kotinová Struktura a cíl práce Metody předzpracování dat Systémy předzpracování dat Historie vývoje DPT Jak program pracuje Budoucnost.
Databázové systémy 2 Cvičení č. 7 Ing. Tomáš Váňa Fakulta elektrotechniky a informatiky Univerzita Pardubice.
MATLAB LEKCE 1.
KASKÁDOVÉ STYLY SYNTAXE STYLŮ PRAVIDLO DEFINUJÍCÍ STYL SE SKLÁDÁ Z NEJMÉNĚ TŘÍ ZÁKLADNÍCH ČÁSTÍ: * SELEKTOR ZNAČKY * SLOŽENÉ ZÁVORKY A V NICH JE.
Databázové systémy 2 Zkouška – 8:00. Příklad I - Funkce Vytvořte funkci ZK_HR_ODDELENI (p_oddeleni_id NUMBER). Funkce vrátí řetězec, obsahující.
MS ACCESS parametrický dotaz
Seminář C++ 4. cvičení Objekty Ing. Jan Mikulka. Co je objekt ► obraz třídy i instance ► třída – definovaná za pomocí klíčového slova class ► instance.
Střední průmyslová škola strojnická Olomouc, tř.17. listopadu 49 Výukový materiál zpracovaný v rámci projektu „Učíme moderně“ Registrační číslo projektu:
Excel export a import dat. Import dat z webu.
Algoritmizace a programování Binární soubory - 14 Mgr. Josef Nožička IKT Algoritmizace a programování
Databáze Dotazy VY_32_INOVACE_7B16. Dotazy umožňuje vybrat určité záznamy z tabulky na rozdíl od filtru vybrané záznamy umístí do samostatné dočasné nebo.
Úprava šířky sloupce Šířku sloupce lze upravit několika způsoby: Pomocí menu Postavím se do sloupce Formát / sloupec / šířka / napíši velikost Pomocí kontextového.
Excel – editace a formát tabulky Ing. Bohumil Bareš.
Výkresové soubory Přednáška č.6. Témata přednášky Typy výkresových souborů –*.dwt, *.dwc, *.dwg, *.dxf DXF formát Ochrana souborů před poškozením Export.
Napište program v C pro výpočet plochy obdélníka se stranami A=3 a B=2. Výsledek vytiskněte s patřičným komentářem na obrazovku formátovým příkazem printf.
Databázové systémy 2 Zkouška – 12:00. Příklad I - Funkce Vytvořte funkci ZK_TRP_TREND(P_ID_TRPASLIKA IN NUMBER, P_DATUM_OD IN VARCHAR2, P_DATUM_DO.
Reprezentace klasifikátoru pomocí „diskriminant“ funkce
Klasifikace klasifikace: matematická metoda, kdy vstupní objekty X(i) jsou rozřazovány do tříd podle podobnosti metody klasifikace bez učitele: podoba.
Rozhodovací stromy.
Úvod Excel – tabulkový procesor. Řádek vzorců – zobrazuje úplný a skutečný obsah buňky Označená aktivní buňka Pozice aktivní buňky.
Odhad metodou maximální věrohodnost
Jan Šaršon Milan Jaška 1Dobývání znalostí, MFF UK, 2008.
Metodika objektového přístupu při tvorbě překladačů. Marek Běhálek Informatika a aplikovaná matematika FEI VŠB-TU Ostrava.
Pole Arrays.
Rozpoznávání v řetězcích
AKD VII.
Základní škola a mateřská škola Bzenec Číslo projektu: CZ.1.07/1.4.00/ Číslo a název šablony klíčové aktivity: III/2: využívání ICT – inovace Vypracoval/a:
Textový procesor Autorem materiálu a všech jeho částí, není-li uvedeno jinak, je MGR. MILOŠ NYGRÝN.
Problémy s češtinou České znaky se standardně nepovažují za alfanumerické znaky (\w) Vadí to při třídění vyhodnocování regulárních výrazů Je třeba použít.
© Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc.
W i ref (t+1) = W i ref (t) + h ci (t) [X(t) - W i ref (t)], i Nc h ci (t) 0, t  proces konverguje Algoritmy a struktury neuropočítačů ASN – P3 SOM algoritmus.
Excel export a import dat. Import ze souboru.
Informa č ní systémy pro rozhodování Rozhodnutí o chirurgickém zákroku při kolice u koní podle příznaků Petr Ondrejka.
Databázové systémy 2 Zkouška – 8:00. Příklad I - Funkce Vytvořte funkci ZK_DIFF_MIN_MAX (P_ZAM_ID NUMBER) RETURN VARCHAR2. Funkce může vracet.
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Matice přechodu.
Možnosti využití programu HYDATA. Co je HYDATA? program pro tvorbu databáze dat a jejich dalšího zpracování –(srážky, průtok, výpar a další meteorologická.
Lišta nástrojů Standard otevření, uložení a další manipulace se soubory (tj. projekty) načítání dat (mapových vrstev) „žluté plus“ změna měřítka odkaz.
Weka Antonín Pavelka Praktické použití. Weka - úvod kolekce algoritmů strojového učení pro dolování z dat University of Waikato, Nový Zéland 1993 TCL/TK,
Lišta nástrojů Standard otevření, uložení a další manipulace se soubory (tj. projekty) načítání dat (mapových vrstev) „žluté plus“ odkaz na další lišty.
Databázové systémy I Cvičení č. 8 Fakulta elektrotechniky a informatiky Univerzita Pardubice 2015.
VÝUKOVÝ MATERIÁL ZPRACOVÁN V RÁMCI PROJEKTU EU PENÍZE ŠKOLÁM Registrační číslo projektu: CZ.1.07/1.4.00/ Šablona:III/2č. materiálu: VY_32_INOVACE_221.
Klasifikace a rozpoznávání
Cenová mapa podnájmů v Praze Ondřej Kmoch Tomáš Kohan
Klasifikace a rozpoznávání Lineární klasifikátory.
Pokročilé neparametrické metody
Přednáška 2 Etapy výzkumu, přístup k datům
Elektronické učební materiály - II. stupeň Digitální technologie 9 Autor: Bc. Pavel Šiktanc QR kódy Co se všechno naučíme??? Tvorba a skenování QR kódů.
NÁZEV ŠKOLY: Masarykova základní škola a mateřská škola Melč, okres Opava, příspěvková organizace ČÍSLO PROJEKTU:CZ.1.07/1.4.00/ AUTOR:Mgr. Vladimír.
Výukový materiál zpracovaný v rámci projektu: Střední zdravotnická škola ÚO – šablony Registračn í č í slo projektu: CZ.1.07/1.5.00/ Š ablona: III/2.
Název: Tabulka ve Wordu DUM:VY_32_INOVACE_VII_3_09
Databázové systémy a SQL
Klasifikace a rozpoznávání
NÁZEV ŠKOLY: Střední odborná škola Net Office, spol. s r. o
Optimalizace SQL dotazů
Výukový materiál zpracovaný v rámci projektu
5. Statistica Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová.
Výukový materiál zpracovaný v rámci projektu
Pokročilé neparametrické metody Validační techniky
NÁZEV ŠKOLY: Střední odborná škola Net Office, spol. s r. o
Transkript prezentace:

R - příklady Jan Knotek

I. Play or Not To Play OutlookTemp.HumidityWindyPlay sunnyhothighfalseno sunnyhothightrueno overcasthothighfalseyes rainymildhighfalseyes rainycoolnormalfalseyes rainycoolnormaltrueno overcastcoolnormaltrueyes sunnymildhighfalseno sunnycoolnormalfalseyes rainymildnormalfalseyes sunnymildnormaltrueyes overcastmildhightrueyes overcasthotnormalfalseyes rainymildhightrueno TPONTPNom.csv – textový formát, data oddělena čárkami

1. Načtení CSV dat do R Načtení: > data <- read.csv(file.choose()) Zobrazení: > data První řádek: > data[1,] 3-5 sloupec: > data[,3:5]

1. Načtení dat do R Další možnosti: read.table – obecnější, více nastavení read.csv2 – pro použítí s daty, kde se používá desetinná čárka místo tečky Package tm má vlastní systém (hlavně pro text): readPlain, readPDF, readDOC getReaders()

2. Rozhodovací strom > library(rpart) > tree<-rpart(Play~., data, method="class") > tree n= 14 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 14 5 yes ( ) * Vznikl jen jeden list – 64,29% šance správné klasifikace, pokud klasifikujeme vždy „yes“ Málo dat, proto je třeba upravit parametry rpart

2. Rozhodovací strom > tree<-rpart(Play~., data, method="class", control=rpart.control(minsplit=5)) > tree n= 14 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 14 5 yes ( ) 2) Outlook=rainy,sunny 10 5 no ( ) 4) Humidity=high 5 1 no ( ) * 5) Humidity=normal 5 1 yes ( ) * 3) Outlook=overcast 4 0 yes ( ) * Parametr minsplit – minimum instancí v uzlu, kdy se můžeme pokusit o jeho rozdělení

3. Predikce pro trénovací data Zavolání funkce predict pro model „tree“ na trénovacích datech – vybrány první 4 atributy bez sloupce „Play“, který se snažíme predikovat: > tree.predictions <- predict(tree, data[,1:4], type="class") > table(data[,5], tree.predictions) tree.predictions no yes no 4 1 yes 1 8 Testem na trénovacích datech zjistíme pouze, jestli model není úplně špatně – nelze vyvozovat žádné jiné závěry!!!

err.vect <- vector() for(j in 1:10) { # 10 pokusů select <- sample(1:nrow(data), 0.9*nrow(data)) # náhodná permutace dat train <- data[select,] # 90% dat pro trénink test <- data[-select,] # zbylá data pro test (10%) tree <- rpart(Play~., train, control=rpart.control(minsplit=5)) pred <- predict(tree, test[,1:4], type="class") cmx<-table(test[, "Play"], pred) # sloupec Play pro ověření predikce err<- 1 - ( sum(diag(cmx)) / sum(cmx) ) err.vect <- c(err.vect, err) } err.vect; mean(err.vect) Error rate – poměr špatně klasifikovaných instancí ke všem instancím (z 10 error rate se udělá vektor, pak se zpočítá průměr) 4. Cross-validation

Iris.arff – attribute relation file format sepalwidth petallength class 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa … II. Iris – poznávání druhů rostlin

1. Načtení ARFF dat do R Načtení: > library(foreign) > data.iris <- read.arff(file.choose()) Zobrazení: > data.iris

2. Rozhodovací strom > library(rpart) > tree.iris<-rpart(class~., data.iris, method="class") > tree.iris n= 150 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root Iris-setosa ( ) 2) petallength< Iris-setosa ( ) * 3) petallength>= Iris-versicolor ( ) 6) petalwidth< Iris-versicolor ( ) * 7) petalwidth>= Iris-virginica ( ) *

3. Prověření testovacími daty Rozdělení na trénovací a testovací data: > idx<-sample(150,150) # náhodná permutace délky 150, do hodnoty 150 > train.iris <- data.iris[idx[1:100],] # 2/3 dat použijeme jako trénovací data > test.iris <- data.iris[idx[101:150],] #zbylá 1/3 dat pro test > tree.iris <- rpart(class~., train.iris) > pred.iris <- predict(tree.iris, test.iris[,1:4], type="class") # v testovacích datech opět vypustíme třídu a získáme predikce klasifikátoru pro testovací data

3. Prověření testovacími daty > cmx.iris <- table(test.iris[, 5], pred.iris) > cmx.iris # “matice zmatení” pred Iris-setosa Iris-versicolor Iris-virginica Iris-setosa Iris-versicolor Iris-virginica > err.iris <- 1 - (sum(diag(cmx.iris)) / sum(cmx.iris) ) > err.iris [1] 0.1 Error rate – poměr špatně klasifikovaných instancí ke všem instancím