Stáhnout prezentaci
Prezentace se nahrává, počkejte prosím
1
Predikcia výsledkov futbalových zápasov pomocou NN
Július Kočiš 5.roč. UI 2005 / 2006
2
ABSTRAKT Cieľom práce je vytvoriť prostredie pre predikciu výsledkov futbalových zápasov a vykonať konkrétné experimenty s predikciou. Prínosom práce je preskúmanie úlohy predikcie pre dáta typu "skóre" a predikcie z viacrozmerných dát.
3
ÚLOHY 1. Vytvoriť prostredie pre konverziu futbalových dát do trenovacich množín. 2. Realizovať experimenty s predikciou na týchto dátach. 3. Napísať report z realizovaných experimentov.
4
ÚVOD (1) zameranie na 1.českú futbalová ligu
získavanie dát tabuľky, výsledky, dátum, priemerný kurz z kurzov vyše 40 európskych stávkových kancelárií – 1567 zápasov na experimenty – 1504 zápasov
5
ÚVOD (2)
6
SPRACOVANIE DÁT
7
Spracovanie dát – 1. krok (1)
výber údajov z www stránok pomocou jazyka Perl Most SpartaPraha 0: PlzenViktoria Blsany 2: ...
8
Spracovanie dát – 2. krok (2)
zmena poradia zápasov, vyhodenie kurzov a dňa z dátumu - pomocou jazyka C ... PlzenViktoria Blsany 2: Most SpartaPraha 0:
9
Spracovanie dát (3) výsledok 1. a 2. kroku - 7 súborov pre každý ročník (1999/ 2000, 2001/2002, / 2006) 1999.txt, 2000.txt, txt
10
Spracovanie dát – 3. krok (4)
spojenie predchádzajúcich súborov do súborov, v ktorom budú zápasy: od 1999 – txt od 2000 – txt ... od 2004 – txt od txt pridanie informácie o počte zápasov v súbore
11
Spracovanie dát (5) Ukážka zo súboru 2345.txt 784 SpartaPraha Teplice
1:0 ... Liberec Olomouc 2:0
12
VSTUPY A VÝSTUPY NN
13
Názov mužstva (1) od roku 1999 hralo v českej lige 22 mužstiev, podľa zoznamu sa priradí každému mužstvu nasledujúce identifikačné číslo: 1. Blšany 2. Mladá Boleslav 3. Brno 4. Jablonec 5. Jihlava 6. Liberec 7. Most 8.Olomouc 9. Ostrava Baník 10. Plzeň Viktória 11. Příbram Slavia Praha 13. 1.FC Slovácko 14. Sparta Praha 15. Teplice 16. Zlín 17. Č. Budejovice 18. Opava 19. Drnovice Žižkov Viktória 21. Bohemians Praha 22. Hradec Králové
14
Názov mužstva (2) Názov jedného mužstva predstavuje 22 neurónov.
Ak má mužstvo identifikačné číslo 15, 15-ty neurón bude mať hodnotu „6“, zvyšných 21 neurónov „-6“. Mužstvo 15. Teplice sa zapíše takto:
15
Dátum - mesiac (1) Podobne ako pri názve mužstva
Máme 12 mesiacov => 12 neurónov Ak se jedná napr. o zápas odohraný v septembri – 9.mesiaci, 9. neurón bude mať hodnotu „6“, zvyšných 11 neurónov hodnotu „-6“
16
Dátum - rok (2) Zápas môže byť z 8 rokov => 8 neurónov
(1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006) Ak se jedná napr. o zápas odohraný v roku 2001– 3.roku, 3. neurón bude mať hodnotu „6“, zvyšných 7 neurónov hodnotu „-6“
17
Výsledok (1) Výsledok predstavuje výstupy z NN
3 typy výsledkov, t.j. na výstupe budú 3 neuróny: Výhra domácich Remíza Výhra hostí
18
Podľa počtu a typu vstupov som rozdelil trénovacie množiny na :
trénovacie množiny 1.typu - názvy mužstiev, výsledok, dátum trénovacie množiny 2.typu - názvy mužstiev, výsledok, dátum - skóre a počet bodov
19
Ukážka jednej trénovacej vzorky z množiny 1.typu:
1 0 0 Vysvetlenie: r. „6“ na pozícii č.14 = Sparta Praha 2.r. „6“ na pozícii č.15 = Teplice 3.r znamená výhru domácih 4.r. „6“ na pozícii č.7 = júl 5.r. „6“ na pozícii č.4 = 2002
20
Ukážka jednej trénovacej vzorky z množiny 2.typu:
8.00 3.11 1.72 1.00 0.69 0.63 0.17 0.71 1.00 0.00 0.26 0.43 1 0 0 1., 4., 7., 8., 9.r. – analogické ako pri 1.type
21
-6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 6 -6 -6 -6 -6 -6 -6 -6 -6
8.00 3.11 1.72 1.00 0.69 0.63 0.17 0.71 1.00 0.00 0.26 0.43 2.r. - pomer skóre (pre domáce mužstvo) posledné 3 zápasy, akt.ročník, od 1.zápasu v trénovacej množine 3.r. – percento získaných bodov (pre domáce mužstvo) 5.r. - pomer skóre , 6.r. percento získaných bodov (pre hostí)
22
FÁZA UČENIA NN
23
Parametre siete (1) metóda spätného šírenia chyby
aktivačná funkcia – sigmoidálna funkcia 2 skryté vrstvy - počty neurónov zadáva užívateľ gamu, alfu, počet cyklov – zadáva užívateľ počet neurónov na výstupnej vrstve – 3
24
Parametre siete (2) Počet neurónov na vstupnej vrstve:
trénovacia množina 1.typu nezahrnúť dátum – 44 (22+22) zahrnúť rok – 52 ( ) zahrnúť dátum – 64 ( ) trénovacia množina 2.typu nezahrnúť dátum – 56 ( ) zahrnúť rok – 64 ( ) zahrnúť dátum – 76 ( )
25
Parametre siete (3)
26
FÁZA ŽIVOTA NN - PREDIKCIA VÝSLEDKOV
27
učenie končí po dosiahnutí užívateľom zadaného počtu cyklov
počas učenia sa neustále zaznamenáva číslo cyklu s najmenšou chybou a do súboru vahy_best.txt sa ukladajú hodnoty váh v tomto cykle. Ak užívateľ zadá napr. počet cyklov a najmenšia chyba bola v cykle v 8000, nie je nutné sieť učiť ešte raz, ale sa načítajú váhy zo súboru a dochádza k predikcii výsledkov.
28
Testovacia množina v českej lige hrá 16 mužstiev => predikujú sa výsledky na 8 zápasov štruktúra testovacej množiny je podobná trénovacej množine 1 rozdiel – chýba zápis výsledku
29
Výsledok predikcie
30
Parametre učenia
31
Experimenty (1) na 9.kolo, 15. - 17. 10. 2005
Výsledky 9. kola: Očakávané výsledky: 1.FC Slovácko – Ostrava Baník 0:0 → 0 1 0 Most – Slavia Praha 0:3 → 0 0 1 Sparta Praha – Blšany 5:2 → 1 0 0 Příbram – Zlín 3:0 → 1 0 0 Jihlava – Teplice 0:4 → 0 0 1 Brno – Jablonec 1:1 → 0 1 0 Ml. Boleslav – Plzeň Viktoria 2:2 → 0 1 0 Liberec – Olomouc 2:0 → 1 0 0
32
Experimenty – 1.typ tr.množín (1)
A B C D E F G , % % , % % , % % , % % , % % , % % , % % , % % , % % A – počet vzoriek ,B – 1 - netrénoval sa dátum, 2 – trénoval sa rok, 3 – trénoval sa dátum C – počet neurónov na 1.skrytej vrstve, na 2. skyrtej vrstve D – počet cyklov,E – počet cyklov, v ktorom bola najmenšia chyba F – úspešnosť testovania pri prahu 0.40, F – úspešnosť predikcie
33
Experimenty – 1.typ tr.množín (2)
A B C D E F G , % %. , % % , % % , % % , % % , % % , % % , % % , % % , % %
34
Experimenty – 2.typ tr.množín (1)
A B C D E F G , % % , % % , % % , % % , % % , % % , % % , % % , % % , % %
35
Experimenty – 2.typ tr.množín (2)
A B C D E F G , % % , % % , % % , % 50.0 % , % % , % % , % 75.0 % A – počet vzoriek ,B – 1 - netrénoval sa dátum, 2 – trénoval sa rok, 3 – trénoval sa dátum C – počet neurónov na 1.skrytej vrstve, na 2. skyrtej vrstve D – počet cyklov, E – počet cyklov, v ktorom bola najmenšia chyba F – úspešnosť testovania pri prahu 0.40, F – úspešnosť predikcie
36
Vyhodnotenie experimentov (1)
trénovacie množiny 1.typu fakt, či sa sa priviedol na vstup aj dátum alebo nie, výsledky predikcie neovplyvnil, ale zjavne ovplyvnil úspešnosť testovania siete na trénovacích vzorkách pri počte neurónov na skrytých vrstvách 20 a 8 sa sieť dala naučiť v priemere len na 80-90%, okrem experimentov, kde počet trénovacích vzoriek bolo 64. Pri počte trénovacích vzoriek 544 to činí len 462 správne predikovaných výsledkov.
37
Vyhodnotenie experimentov (2)
trénovacie množiny 2.typu na rozdiel od 1.typu trénovacích množín bola schopná sieť sa naučiť na %. Buď to bolo spôsobené väčším počtom neurónov na skrytých vrstvách, alebo tým, že 2.typ trénovacích množín obsahuje informácie o skóre a počte bodov. fakt, či sa priviedol na vstup aj dátum alebo nie, výsledky predikcie výrazne neovplyvnil (aj keď vo väčšine prípadov bola úspešnosť predikcie vyššia v prípadoch ak sa dátum započítal), ale v situáciach keď sa dátum priviedol na vstup, potrebovala sieť menší počet cyklov na dosiahnutie podobných hodnôt úspešností testovania ako keď sa dátum na vstup nepriviedol.
38
Ďakujem za pozornosť !!!
Podobné prezentace
© 2024 SlidePlayer.cz Inc.
All rights reserved.