Marie Budíková, Štěpán Mikoláš Katedra aplikované matematiky

Slides:



Advertisements
Podobné prezentace
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Advertisements

kvantitativních znaků
MONITORING PACIENTŮ UŽÍVAJÍCÍCH ArthroStop® PLUS
Co by měl student vědět na začátku studia PEF MZLU v Brně
Testování statistických hypotéz
Odhady parametrů základního souboru
Lineární regresní analýza Úvod od problému
Statistika II Michal Jurajda.
1 Hodnocení geologických dat pomocí matematické statistiky Petr Čoupek 740/742/ IT spec.
kvantitativních znaků
Testování hypotéz vymezení důležitých pojmů
Odhady parametrů základního souboru
Statistická analýza únavových zkoušek
PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA Úvod, kombinatorika
Lineární regrese.
Biostatistika 6. přednáška
Biostatistika 7. přednáška
Test dobré shody Fisherův přesný test McNemar test
Odhad metodou maximální věrohodnost
Den otevřených dveří PřF MU
Pohled z ptačí perspektivy
Základy zpracování geologických dat
AKD VII.
Teorie psychodiagnostiky a psychometrie
8. Kontingenční tabulky a χ2 test
Pearsonův test dobré shody chí kvadrát
Biostatistika 8. přednáška
Základy statistiky Autor: Jana Buršová.
Biostatistika 1. přednáška Aneta Hybšová
PSY717 – statistická analýza dat
Elektronický materiál byl vytvořen v rámci projektu OP VK CZ.1.07/1.1.24/ Zvyšování kvality vzdělávání v Moravskoslezském kraji Střední průmyslová.
Jak statistika dokazuje závislost
Analýza podobnosti výsledků přijímacího řízení na FIS VŠE
Aplikovaná statistika 2. Veronika Svobodová
Popisná analýza v programu Statistica
Inferenční statistika - úvod
Aplikovaná statistika 2.
Univerzita Karlova v Praze, Přírodovědecká fakulta.
BIOSTATISTIKA LS 2016 Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D. Cvičící: Ing. Martina Litschmannová,
Základní informace o předmětu1. Přednášející: RNDr. Martin Hála, CSc. katedra matematiky, B105, Další informace a soubory ke stažení.
Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační.
Ústav lékařské informatiky, 2. LF UK 2008 STATISTIKA II.
Prof. Ing. Hana Machková, CSc. Rektorka
INDUKTIVNÍ STATISTIKA
Opakování – přehled metod
Přednáška č. – 4 Extrémní hodnoty a analýza výběrových souborů
Základy statistické indukce
Přednáška č. 3 – Posouzení nahodilosti výběrového souboru
- váhy jednotlivých studií
Úvod do praktické fyziky
Odhady parametrů základního souboru
Popisná analýza v programu Statistica
Induktivní statistika
Proč statistika ? Dva důvody Popis Inference
METODOLOGIE MAGISTERSKÉ PRÁCE
Regresní analýza výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými snažíme se z jedné proměnné nebo lineární kombinace.
Spojitá a kategoriální data Základní popisné statistiky
Úvod do matematické analýzy - pokračování 3
Úvod do statistického testování
Hodnocení závislosti STAT metody pro posouzení závislosti – jiné pro:
Pravděpodobnost a matematická statistika I.
ORDINÁLNÍ VELIČINY Měření variability ordinálních proměnných
Typy proměnných Kvalitativní/kategorická binární - ano/ne
Neparametrické testy pro porovnání polohy
Přírodovědecká fakulta UJEP
Úvod do induktivní statistiky
7. Kontingenční tabulky a χ2 test
Induktivní statistika
Základy statistiky.
NOMINÁLNÍ VELIČINY Odhad hodnoty pravděpodobnosti určitého jevu v základním souboru Test hodnoty pravděpodobnosti určitého jevu v základním souboru Srovnání.
Transkript prezentace:

Faktory ovlivňující úspěšnost studia na Přírodovědecké fakultě Masarykovy univerzity v Brně Marie Budíková, Štěpán Mikoláš Katedra aplikované matematiky Přírodovědecké fakulty MU v Brně 1 23.11.2018

Úvod Zpracování se týká údajů o studijních výsledcích a průběhu studia posluchačů magisterského studia, kteří začali studovat v r. 1997. Údaje byly získány z IS MU. Do magisterského studia nastoupilo 390 studentů, úspěšně ukončilo 265 studentů (tj. 67,9%). 90 studentů strávilo na fakultě více než 5 let. Z nich 71 skončilo úspěšně (tj. 78,9%). 2

3 Popis dat V datovém souboru používáme tyto proměnné: UČO - univerzitní číslo osoby PŘÍZNAK – specifikuje, zda se jedná o odborníka nebo učitele. POHLAVÍ – specifikuje pohlaví studenta. PROGRAM – specifikuje, ve kterém z následujících sedmi magisterských programů je student zařazen: M-AM: aplikovaná matematika, M-BI: biologie, M-FY: fyzika, M-CH: chemie, M-GR: geografie, M-MA: matematika,M-GE: geologie (Studenti učitelských dvojkombinací jsou zařazeni vždy do jednoho z příslušných studijních programů.) STAV_STUDIA – popisuje aktuální vztah studenta k fakultě (důležité varianty jsou ukončení SZZ, zanechání studia, přerušení studia) ÚSPĚCH – specifikuje, zda student úspěšně absolvoval či neabsolvoval. SEMESTR – udává pořadové číslo semestru, v němž student opustil fakultu BODY – počet bodů, které student získal v přijímacím řízení (jen u 347 studentů) PROSPĚCH – průměrný prospěch za celou dobu studia (jen u 325 studentů) SŠ – typ absolvované střední školy – G, SPŠ, ostatní (jen u 380 studentů) 3

Ukázka datového souboru 4

Základní statistické zpracování Tabulky četností 5

Složené sloupkové diagramy Zastoupení odborníků a učitelů Zastoupení mužů a žen mezi ve studijních programech učiteli a odborníky Zastoupení mužů a žen ve studijních programech 6

Vliv PŘÍZNAKU a POHLAVÍ na úspěch ve studiu (Fisherův faktoriálový test) ÚSPĚCH x PŘÍZNAK ÚSPĚCH x POHLAVÍ p = 0,446 p = 0,113 ÚSPĚCH x PŘÍZNAK pro muže: p = 0,565 ÚSPĚCH x PŘÍZNAK pro ženy: p = 0,485 ÚSPĚCH x POHLAVÍ pro odborníky: p = 0,191 ÚSPĚCH x POHLAVÍ pro učitele: p = 0,260 7

Vliv PROGRAMU na úspěch ve studiu (Pearsonův chí-kvadrát test) Kontingenční tabulka Složený sloupkový diagram ÚSPĚCH x PROGRAM pro všechny: p = 0,046 ÚSPĚCH x PROGRAM pro muže: p = 0,013 ÚSPĚCH x PROGRAM pro ženy: nelze provést ÚSPĚCH x PROGRAM pro odborníky: p = 0,004 ÚSPĚCH x PROGRAM pro učitele: p = 0,261 8

Vliv abs. střední školy na úspěch ve studiu (Pearsonův chí-kvadrát test) Kontingenční tabulka Složený sloupkový diagram ÚSPĚCH x SŠ : p = 0,0745 9

Podíl šancí na úspěch ve studiu pro dvojice programů 10

Podíl šancí na úspěch ve studiu pro dvojice typů středních škol 11

Vliv počtu bodů na úspěch ve studiu Testujeme hypotézu, že střední hodnota počtu bodů v obou skupinách je stejná. Testová statistika: t = 5,45 st.vol. = 345 p-hodnota = 0,0000 12

Analýza počtu bodů úspěšných a neúspěšných studentů pro studijní programy Dvouvýběrový Wilcoxonův test: Na hladině významnosti 0,05 testujeme hypotézu, že mediány počtu bodů úspěšných a ne- úspěšných studentů jsou stejné. M-AM: p = 0,94452 M-BI: p = 0,4269 M-FY: p = 0,0004 M-CH: p = 0,0061 M-GR: p = 0,0044 M-MA: p = 0,3289 M-GE: p = 0,1978 13

Vliv průměrného prospěchu na úspěch ve studiu Testujeme hypotézu, že střední hodnota průměrného prospěchu v obou skupinách je stejná. Testová statistika: t = 14,66 st.vol. = 323 p-hodnota = 0,0000 14

Analýza průměrného prospěchu úspěšných a neúspěšných studentů pro studijní programy Dvouvýběrový Wilcoxonův test: Na hladině významnosti 0,05 testujeme hypotézu, že mediány průměrného prospěchu úspěšných a neúspěšných studentů jsou stejné. M-AM: p = 0,0299 M-BI: p = 0,0000 M-FY: p = 0,0000 M-CH: p = 0,0000 M-GR: p = 0,0021 M-MA: p = 0,0000 M-GE: p = 0,0047 15

Vztah mezi počtem bodů a průměrným prospěchem u úspěšných a neúspěšných studentů 16

Vztah mezi počtem bodů a průměrným prospěchem u úspěšných a neúspěšných studentů pro studijní programy 17 Neúspěšní studenti s vysokým počtem bodů (>700) jsou vesměs z programů BI a CH. Bez výjimky zanechali studia.

Popis logistické regrese 18

Popis logistické regrese - pokračování 19

Úspěšnost klasifikace objektů pomocí logistické regrese 20

Predikce úspěchu pomocí proměnných PRUMER, BODY Výsledky logistické regrese Procento vysvětlené variabilty: 55,2% 21

Konstrukce ROC křivky Závisle proměnná veličina Y … udává příslušnost objektu ke skupině. Y = 1 … objekt patří do 1. skupiny, Y = 0 … objekt patří do 2. skupiny. Nezávisle proměnná veličina X … podle ní klasifikujeme do skupin. X ≥ Θ … objekt zařadíme do 1. skupiny, jinak do 2. skupiny. Pro každé Θ zjistíme FPF … podíl nesprávně zařazených objektů z 2. skupiny a TPF … podíl správně zařazených objektů z 1. skupiny. Grafickým znázorněním dvojic (FPF,TPF) dostaneme ROC křivku. 22

Vlastnosti ROC křivky Definiční obor a obor hodnot jsou intervaly [0,1]. Čtverec [0,1] x [0,1] se nazývá ROC prostor. ROC křivka závisí pouze na pořadí dat, nikoliv na jejich umístění na číselné ose. Teoretická ROC křivka pro náhodný prediktor je diagonála vedoucí z levého dolního rohu do pravého horního rohu ROC prostoru. Teoretická ROC křivka pro dokonalý prediktor kopíruje levý horní roh ROC prostoru. Čím blíže je ROC křivka levému hornímu rohu ROC prostoru, tím lepší je klasifikační schopnost prediktoru. Plocha pod ROC křivkou (označovaná jako AUC) může být chápána jako měřítko kvality prediktoru. Vyjadřuje pravděpodobnost, že náhodně vybraný objekt z první skupiny bude mít vyšší hodnotu prediktoru než náhodně vybraný objekt ze druhé skupiny. 23

ROC křivka pro predikci úspěchu pomocí průměrného prospěchu U 325 studentů byl znám průměrný prospěch. 265 absolvovalo, 60 nikoli. Plocha AUC = 0,912. 0,872 < AUC < 0,952 s pravděpodobností aspoň 95%. Na hladině významnosti 0,05 zamítáme hypotézu, že průměrný prospěch je náhodný prediktor pro úspěch ve studiu. 24

Rozložení počtu neúspěšných studentů v jednotlivých semestrech podle PŘÍZNAKU a podle POHLAVÍ Odborníci x učitelé Muži x ženy Hypotéza: rozložení neúspěšných odborníků a učitelů je stejné. Dvouvýběrový Wilcoxonův test: p = 0,8. Hypotéza: rozložení neúspěšných mužů a žen je stejné. Dvouvýběrový Wilcoxonův test: p = 0,214. 25

Rozložení počtu neúspěšných studentů v jednotlivých semestrech podle programů Hypotéza: rozložení počtu neúspěšných studentů v jednotlivých programech je stejné. Kruskalův-Wallisův test: p = 0,39. 26

Analýza „přežití“ pro neúspěšné studenty Označení: X – doba studia (v semestrech) neúspěšného studenta. Funkce přežití: Riziková funkce: Odhad funkce přežití a odhad rizikové funkce (pro všechny, n=390, 125 neúspěchů, tj. 32,1%) 27

Analýza „přežití“ pro neúspěšné muže a ženy Odhad funkce přežití a odhad rizikové funkce (pro muže, n=187, 67 neúspěchů, tj. 35,8%) Odhad funkce přežití a odhad rizikové funkce (pro ženy, n=203, 58 neúspěchů, tj. 28,6%) 28

Analýza „přežití“ pro neúspěšné odborníky a učitele Odhad funkce přežití a odhad rizikové funkce (pro odborníky, n = 268, 87 neúspěchů, tj. 32,5%) Odhad funkce přežití a odhad rizikové funkce (pro učitele, n = 122, 38 neúspěchů, tj. 31,1%) 29

Závěr V r. 1997 nastoupilo na PřF 390 studentů do magisterského studia. Úspěšně absolvovalo 265 (67,9%). Více než 5 let studovalo 90 osob. Úspěšně absolvovalo 71 (tj. 78,9%) Na hladině významnosti 0,05 se prokázalo, že na úspěch nemá vliv ani pohlaví, ani studium odborného či učitelského směru, ale program. U programů AM, BI, FY,CH, GR se neúspěšnost pohybuje mezi 21% až 33%. U MA a GE 50%. Velmi rizikový je 5. semestr, kdy odchází 36% neúspěšných studentů. Příčina – nezvládnutí zkoušek za první dvouletí. Návrh: studium ve 3. ročníku koncipovat odlišně pro bakaláře a pro magistry. 30

Závěr - pokračování Na hladině významnosti 0,05 se prokázalo, že střední hodnota počtu bodů získaných v přijímacícm řízení je pro úspěšné studenty větší než pro neúspěšné. Na hladině významnosti 0,05 se prokázalo, že střední hodnota průměrného prospěchu je pro úspěšné studenty nižší než pro neúspěšné. Regresní přímka PRŮMĚRU na BODECH vysvětluje variabilitu PRŮMĚRU u úspěšných studentů z 18%, zatímco u neúspěšných jen z 0,7%. Logistická regrese s dělicí hodnotou 0,5 a prediktory PRŮMĚR a BODY vysvětluje ÚSPĚCH z 55,2%. Neúspěšné studenty správně klasifikuje z 64,7%, úspěšné z 96,2%. Plocha AUC pod ROC křivkou sestrojenou pro predikci úspěchu pomocí PRŮMĚRU je 0,912. PRŮMĚR je vhodný prediktor pro ÚSPĚCH. 31

32 Literatura Poděkování 1.Anděl J.: Matematická statistika. SNTL/ALFA Praha 1978. 2.Budíková M., Osecký P., Mikoláš Š.: Popisná statistika. MU Brno 2002. 3.STATISTICA for Windows. StatSoft, Inc. 2000. 4.Zvárová J.: Základy statistiky pro biomedicínské obory. Karolinum Praha 1998. Poděkování Autoři děkují Mgr. Michalu Bulantovi, Ph.D., proděkanu PřF pro informační a komunikační technologie za pomoc při získání datového souboru a doc. RNDr. Jaromíru Vosmanskému, CSc. za cenné náměty k interpretaci získaných výsledků. 32