Faktory ovlivňující úspěšnost studia na Přírodovědecké fakultě Masarykovy univerzity v Brně Marie Budíková, Štěpán Mikoláš Katedra aplikované matematiky Přírodovědecké fakulty MU v Brně 1 23.11.2018
Úvod Zpracování se týká údajů o studijních výsledcích a průběhu studia posluchačů magisterského studia, kteří začali studovat v r. 1997. Údaje byly získány z IS MU. Do magisterského studia nastoupilo 390 studentů, úspěšně ukončilo 265 studentů (tj. 67,9%). 90 studentů strávilo na fakultě více než 5 let. Z nich 71 skončilo úspěšně (tj. 78,9%). 2
3 Popis dat V datovém souboru používáme tyto proměnné: UČO - univerzitní číslo osoby PŘÍZNAK – specifikuje, zda se jedná o odborníka nebo učitele. POHLAVÍ – specifikuje pohlaví studenta. PROGRAM – specifikuje, ve kterém z následujících sedmi magisterských programů je student zařazen: M-AM: aplikovaná matematika, M-BI: biologie, M-FY: fyzika, M-CH: chemie, M-GR: geografie, M-MA: matematika,M-GE: geologie (Studenti učitelských dvojkombinací jsou zařazeni vždy do jednoho z příslušných studijních programů.) STAV_STUDIA – popisuje aktuální vztah studenta k fakultě (důležité varianty jsou ukončení SZZ, zanechání studia, přerušení studia) ÚSPĚCH – specifikuje, zda student úspěšně absolvoval či neabsolvoval. SEMESTR – udává pořadové číslo semestru, v němž student opustil fakultu BODY – počet bodů, které student získal v přijímacím řízení (jen u 347 studentů) PROSPĚCH – průměrný prospěch za celou dobu studia (jen u 325 studentů) SŠ – typ absolvované střední školy – G, SPŠ, ostatní (jen u 380 studentů) 3
Ukázka datového souboru 4
Základní statistické zpracování Tabulky četností 5
Složené sloupkové diagramy Zastoupení odborníků a učitelů Zastoupení mužů a žen mezi ve studijních programech učiteli a odborníky Zastoupení mužů a žen ve studijních programech 6
Vliv PŘÍZNAKU a POHLAVÍ na úspěch ve studiu (Fisherův faktoriálový test) ÚSPĚCH x PŘÍZNAK ÚSPĚCH x POHLAVÍ p = 0,446 p = 0,113 ÚSPĚCH x PŘÍZNAK pro muže: p = 0,565 ÚSPĚCH x PŘÍZNAK pro ženy: p = 0,485 ÚSPĚCH x POHLAVÍ pro odborníky: p = 0,191 ÚSPĚCH x POHLAVÍ pro učitele: p = 0,260 7
Vliv PROGRAMU na úspěch ve studiu (Pearsonův chí-kvadrát test) Kontingenční tabulka Složený sloupkový diagram ÚSPĚCH x PROGRAM pro všechny: p = 0,046 ÚSPĚCH x PROGRAM pro muže: p = 0,013 ÚSPĚCH x PROGRAM pro ženy: nelze provést ÚSPĚCH x PROGRAM pro odborníky: p = 0,004 ÚSPĚCH x PROGRAM pro učitele: p = 0,261 8
Vliv abs. střední školy na úspěch ve studiu (Pearsonův chí-kvadrát test) Kontingenční tabulka Složený sloupkový diagram ÚSPĚCH x SŠ : p = 0,0745 9
Podíl šancí na úspěch ve studiu pro dvojice programů 10
Podíl šancí na úspěch ve studiu pro dvojice typů středních škol 11
Vliv počtu bodů na úspěch ve studiu Testujeme hypotézu, že střední hodnota počtu bodů v obou skupinách je stejná. Testová statistika: t = 5,45 st.vol. = 345 p-hodnota = 0,0000 12
Analýza počtu bodů úspěšných a neúspěšných studentů pro studijní programy Dvouvýběrový Wilcoxonův test: Na hladině významnosti 0,05 testujeme hypotézu, že mediány počtu bodů úspěšných a ne- úspěšných studentů jsou stejné. M-AM: p = 0,94452 M-BI: p = 0,4269 M-FY: p = 0,0004 M-CH: p = 0,0061 M-GR: p = 0,0044 M-MA: p = 0,3289 M-GE: p = 0,1978 13
Vliv průměrného prospěchu na úspěch ve studiu Testujeme hypotézu, že střední hodnota průměrného prospěchu v obou skupinách je stejná. Testová statistika: t = 14,66 st.vol. = 323 p-hodnota = 0,0000 14
Analýza průměrného prospěchu úspěšných a neúspěšných studentů pro studijní programy Dvouvýběrový Wilcoxonův test: Na hladině významnosti 0,05 testujeme hypotézu, že mediány průměrného prospěchu úspěšných a neúspěšných studentů jsou stejné. M-AM: p = 0,0299 M-BI: p = 0,0000 M-FY: p = 0,0000 M-CH: p = 0,0000 M-GR: p = 0,0021 M-MA: p = 0,0000 M-GE: p = 0,0047 15
Vztah mezi počtem bodů a průměrným prospěchem u úspěšných a neúspěšných studentů 16
Vztah mezi počtem bodů a průměrným prospěchem u úspěšných a neúspěšných studentů pro studijní programy 17 Neúspěšní studenti s vysokým počtem bodů (>700) jsou vesměs z programů BI a CH. Bez výjimky zanechali studia.
Popis logistické regrese 18
Popis logistické regrese - pokračování 19
Úspěšnost klasifikace objektů pomocí logistické regrese 20
Predikce úspěchu pomocí proměnných PRUMER, BODY Výsledky logistické regrese Procento vysvětlené variabilty: 55,2% 21
Konstrukce ROC křivky Závisle proměnná veličina Y … udává příslušnost objektu ke skupině. Y = 1 … objekt patří do 1. skupiny, Y = 0 … objekt patří do 2. skupiny. Nezávisle proměnná veličina X … podle ní klasifikujeme do skupin. X ≥ Θ … objekt zařadíme do 1. skupiny, jinak do 2. skupiny. Pro každé Θ zjistíme FPF … podíl nesprávně zařazených objektů z 2. skupiny a TPF … podíl správně zařazených objektů z 1. skupiny. Grafickým znázorněním dvojic (FPF,TPF) dostaneme ROC křivku. 22
Vlastnosti ROC křivky Definiční obor a obor hodnot jsou intervaly [0,1]. Čtverec [0,1] x [0,1] se nazývá ROC prostor. ROC křivka závisí pouze na pořadí dat, nikoliv na jejich umístění na číselné ose. Teoretická ROC křivka pro náhodný prediktor je diagonála vedoucí z levého dolního rohu do pravého horního rohu ROC prostoru. Teoretická ROC křivka pro dokonalý prediktor kopíruje levý horní roh ROC prostoru. Čím blíže je ROC křivka levému hornímu rohu ROC prostoru, tím lepší je klasifikační schopnost prediktoru. Plocha pod ROC křivkou (označovaná jako AUC) může být chápána jako měřítko kvality prediktoru. Vyjadřuje pravděpodobnost, že náhodně vybraný objekt z první skupiny bude mít vyšší hodnotu prediktoru než náhodně vybraný objekt ze druhé skupiny. 23
ROC křivka pro predikci úspěchu pomocí průměrného prospěchu U 325 studentů byl znám průměrný prospěch. 265 absolvovalo, 60 nikoli. Plocha AUC = 0,912. 0,872 < AUC < 0,952 s pravděpodobností aspoň 95%. Na hladině významnosti 0,05 zamítáme hypotézu, že průměrný prospěch je náhodný prediktor pro úspěch ve studiu. 24
Rozložení počtu neúspěšných studentů v jednotlivých semestrech podle PŘÍZNAKU a podle POHLAVÍ Odborníci x učitelé Muži x ženy Hypotéza: rozložení neúspěšných odborníků a učitelů je stejné. Dvouvýběrový Wilcoxonův test: p = 0,8. Hypotéza: rozložení neúspěšných mužů a žen je stejné. Dvouvýběrový Wilcoxonův test: p = 0,214. 25
Rozložení počtu neúspěšných studentů v jednotlivých semestrech podle programů Hypotéza: rozložení počtu neúspěšných studentů v jednotlivých programech je stejné. Kruskalův-Wallisův test: p = 0,39. 26
Analýza „přežití“ pro neúspěšné studenty Označení: X – doba studia (v semestrech) neúspěšného studenta. Funkce přežití: Riziková funkce: Odhad funkce přežití a odhad rizikové funkce (pro všechny, n=390, 125 neúspěchů, tj. 32,1%) 27
Analýza „přežití“ pro neúspěšné muže a ženy Odhad funkce přežití a odhad rizikové funkce (pro muže, n=187, 67 neúspěchů, tj. 35,8%) Odhad funkce přežití a odhad rizikové funkce (pro ženy, n=203, 58 neúspěchů, tj. 28,6%) 28
Analýza „přežití“ pro neúspěšné odborníky a učitele Odhad funkce přežití a odhad rizikové funkce (pro odborníky, n = 268, 87 neúspěchů, tj. 32,5%) Odhad funkce přežití a odhad rizikové funkce (pro učitele, n = 122, 38 neúspěchů, tj. 31,1%) 29
Závěr V r. 1997 nastoupilo na PřF 390 studentů do magisterského studia. Úspěšně absolvovalo 265 (67,9%). Více než 5 let studovalo 90 osob. Úspěšně absolvovalo 71 (tj. 78,9%) Na hladině významnosti 0,05 se prokázalo, že na úspěch nemá vliv ani pohlaví, ani studium odborného či učitelského směru, ale program. U programů AM, BI, FY,CH, GR se neúspěšnost pohybuje mezi 21% až 33%. U MA a GE 50%. Velmi rizikový je 5. semestr, kdy odchází 36% neúspěšných studentů. Příčina – nezvládnutí zkoušek za první dvouletí. Návrh: studium ve 3. ročníku koncipovat odlišně pro bakaláře a pro magistry. 30
Závěr - pokračování Na hladině významnosti 0,05 se prokázalo, že střední hodnota počtu bodů získaných v přijímacícm řízení je pro úspěšné studenty větší než pro neúspěšné. Na hladině významnosti 0,05 se prokázalo, že střední hodnota průměrného prospěchu je pro úspěšné studenty nižší než pro neúspěšné. Regresní přímka PRŮMĚRU na BODECH vysvětluje variabilitu PRŮMĚRU u úspěšných studentů z 18%, zatímco u neúspěšných jen z 0,7%. Logistická regrese s dělicí hodnotou 0,5 a prediktory PRŮMĚR a BODY vysvětluje ÚSPĚCH z 55,2%. Neúspěšné studenty správně klasifikuje z 64,7%, úspěšné z 96,2%. Plocha AUC pod ROC křivkou sestrojenou pro predikci úspěchu pomocí PRŮMĚRU je 0,912. PRŮMĚR je vhodný prediktor pro ÚSPĚCH. 31
32 Literatura Poděkování 1.Anděl J.: Matematická statistika. SNTL/ALFA Praha 1978. 2.Budíková M., Osecký P., Mikoláš Š.: Popisná statistika. MU Brno 2002. 3.STATISTICA for Windows. StatSoft, Inc. 2000. 4.Zvárová J.: Základy statistiky pro biomedicínské obory. Karolinum Praha 1998. Poděkování Autoři děkují Mgr. Michalu Bulantovi, Ph.D., proděkanu PřF pro informační a komunikační technologie za pomoc při získání datového souboru a doc. RNDr. Jaromíru Vosmanskému, CSc. za cenné náměty k interpretaci získaných výsledků. 32