Prezentace se nahrává, počkejte prosím

Prezentace se nahrává, počkejte prosím

Predikcia výsledkov futbalových zápasov pomocou NN

Podobné prezentace


Prezentace na téma: "Predikcia výsledkov futbalových zápasov pomocou NN"— Transkript prezentace:

1 Predikcia výsledkov futbalových zápasov pomocou NN
Július Kočiš 5.roč. UI 2005 / 2006

2 ABSTRAKT Cieľom práce je vytvoriť prostredie pre predikciu výsledkov futbalových zápasov a vykonať konkrétné experimenty s predikciou. Prínosom práce je preskúmanie úlohy predikcie pre dáta typu "skóre" a predikcie z viacrozmerných dát.

3 ÚLOHY 1. Vytvoriť prostredie pre konverziu futbalových dát do trenovacich množín. 2. Realizovať experimenty s predikciou na týchto dátach. 3. Napísať report z realizovaných experimentov.

4 ÚVOD (1) zameranie na 1.českú futbalová ligu
získavanie dát tabuľky, výsledky, dátum, priemerný kurz z kurzov vyše 40 európskych stávkových kancelárií 1567 zápasov na experimenty – 1504 zápasov

5 ÚVOD (2)

6 SPRACOVANIE DÁT

7 Spracovanie dát – 1. krok (1)
výber údajov z www stránok pomocou jazyka Perl Most SpartaPraha 0: PlzenViktoria Blsany 2: ...

8 Spracovanie dát – 2. krok (2)
zmena poradia zápasov, vyhodenie kurzov a dňa z dátumu - pomocou jazyka C ... PlzenViktoria Blsany 2: Most SpartaPraha 0:

9 Spracovanie dát (3) výsledok 1. a 2. kroku - 7 súborov pre každý ročník (1999/ 2000, 2001/2002, / 2006) 1999.txt, 2000.txt, txt

10 Spracovanie dát – 3. krok (4)
spojenie predchádzajúcich súborov do súborov, v ktorom budú zápasy: od 1999 – txt od 2000 – txt ... od 2004 – txt od txt pridanie informácie o počte zápasov v súbore

11 Spracovanie dát (5) Ukážka zo súboru 2345.txt 784 SpartaPraha Teplice
1:0 ... Liberec Olomouc 2:0

12 VSTUPY A VÝSTUPY NN

13 Názov mužstva (1) od roku 1999 hralo v českej lige 22 mužstiev, podľa zoznamu sa priradí každému mužstvu nasledujúce identifikačné číslo: 1. Blšany 2. Mladá Boleslav   3. Brno    4. Jablonec  5. Jihlava 6. Liberec 7. Most 8.Olomouc    9. Ostrava Baník 10. Plzeň Viktória    11. Příbram    Slavia Praha 13. 1.FC Slovácko 14. Sparta Praha  15. Teplice 16. Zlín    17. Č. Budejovice 18. Opava 19. Drnovice    Žižkov Viktória 21. Bohemians Praha 22. Hradec Králové

14 Názov mužstva (2) Názov jedného mužstva predstavuje 22 neurónov.
Ak má mužstvo identifikačné číslo 15, 15-ty neurón bude mať hodnotu „6“, zvyšných 21 neurónov „-6“. Mužstvo 15. Teplice sa zapíše takto:

15 Dátum - mesiac (1) Podobne ako pri názve mužstva
Máme 12 mesiacov => 12 neurónov Ak se jedná napr. o zápas odohraný v septembri – 9.mesiaci, 9. neurón bude mať hodnotu „6“, zvyšných 11 neurónov hodnotu „-6“

16 Dátum - rok (2) Zápas môže byť z 8 rokov => 8 neurónov
(1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006) Ak se jedná napr. o zápas odohraný v roku 2001– 3.roku, 3. neurón bude mať hodnotu „6“, zvyšných 7 neurónov hodnotu „-6“

17 Výsledok (1) Výsledok predstavuje výstupy z NN
3 typy výsledkov, t.j. na výstupe budú 3 neuróny: Výhra domácich Remíza Výhra hostí

18 Podľa počtu a typu vstupov som rozdelil trénovacie množiny na :
trénovacie množiny 1.typu - názvy mužstiev, výsledok, dátum trénovacie množiny 2.typu - názvy mužstiev, výsledok, dátum - skóre a počet bodov

19 Ukážka jednej trénovacej vzorky z množiny 1.typu:
1 0 0 Vysvetlenie: r. „6“ na pozícii č.14 = Sparta Praha 2.r. „6“ na pozícii č.15 = Teplice 3.r znamená výhru domácih 4.r. „6“ na pozícii č.7 = júl 5.r. „6“ na pozícii č.4 = 2002

20 Ukážka jednej trénovacej vzorky z množiny 2.typu:
8.00   3.11   1.72 1.00   0.69   0.63 0.17   0.71   1.00 0.00   0.26   0.43 1 0 0 1., 4., 7., 8., 9.r. – analogické ako pri 1.type

21 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 -6 6 -6 -6 -6 -6 -6 -6 -6 -6
8.00   3.11   1.72 1.00   0.69   0.63 0.17   0.71   1.00 0.00   0.26   0.43 2.r. - pomer skóre (pre domáce mužstvo) posledné 3 zápasy, akt.ročník, od 1.zápasu v trénovacej množine 3.r. – percento získaných bodov (pre domáce mužstvo) 5.r. - pomer skóre , 6.r. percento získaných bodov (pre hostí)

22 FÁZA UČENIA NN

23 Parametre siete (1) metóda spätného šírenia chyby
aktivačná funkcia – sigmoidálna funkcia 2 skryté vrstvy - počty neurónov zadáva užívateľ gamu, alfu, počet cyklov – zadáva užívateľ počet neurónov na výstupnej vrstve – 3

24 Parametre siete (2) Počet neurónov na vstupnej vrstve:
trénovacia množina 1.typu nezahrnúť dátum – 44 (22+22) zahrnúť rok – 52 ( ) zahrnúť dátum – 64 ( ) trénovacia množina 2.typu nezahrnúť dátum – 56 ( ) zahrnúť rok – 64 ( ) zahrnúť dátum – 76 ( )

25 Parametre siete (3)

26 FÁZA ŽIVOTA NN - PREDIKCIA VÝSLEDKOV

27 učenie končí po dosiahnutí užívateľom zadaného počtu cyklov
počas učenia sa neustále zaznamenáva číslo cyklu s najmenšou chybou a do súboru vahy_best.txt sa ukladajú hodnoty váh v tomto cykle. Ak užívateľ zadá napr. počet cyklov a najmenšia chyba bola v cykle v 8000, nie je nutné sieť učiť ešte raz, ale sa načítajú váhy zo súboru a dochádza k predikcii výsledkov.

28 Testovacia množina v českej lige hrá 16 mužstiev => predikujú sa výsledky na 8 zápasov štruktúra testovacej množiny je podobná trénovacej množine 1 rozdiel – chýba zápis výsledku

29 Výsledok predikcie

30 Parametre učenia

31 Experimenty (1) na 9.kolo, 15. - 17. 10. 2005
Výsledky 9. kola: Očakávané výsledky: 1.FC Slovácko – Ostrava Baník 0:0 → 0 1 0 Most – Slavia Praha 0:3 → 0 0 1 Sparta Praha – Blšany 5:2 → 1 0 0 Příbram – Zlín 3:0 → 1 0 0 Jihlava – Teplice 0:4 → 0 0 1 Brno – Jablonec 1:1 → 0 1 0 Ml. Boleslav – Plzeň Viktoria 2:2 → 0 1 0 Liberec – Olomouc 2:0 → 1 0 0

32 Experimenty – 1.typ tr.množín (1)
A B C D E F G , % % , % % , % % ,   % % ,   % % , % % ,   % % ,   % % , % % A – počet vzoriek ,B – 1 - netrénoval sa dátum, 2 – trénoval sa rok, 3 – trénoval sa dátum C – počet neurónov na 1.skrytej vrstve, na 2. skyrtej vrstve D – počet cyklov,E – počet cyklov, v ktorom bola najmenšia chyba F – úspešnosť testovania pri prahu 0.40, F – úspešnosť predikcie

33 Experimenty – 1.typ tr.množín (2)
A B C D E F G ,   % %. ,   % % , % % , % % , % % , % % , % % , % % , % % , % %

34 Experimenty – 2.typ tr.množín (1)
A B C D E F G , % % , % % , % % , % % , % % , % % , % % , % % , % % , % %

35 Experimenty – 2.typ tr.množín (2)
A B C D E F G , % % , % % , % % , % 50.0 % , % % , % % , % 75.0 % A – počet vzoriek ,B – 1 - netrénoval sa dátum, 2 – trénoval sa rok, 3 – trénoval sa dátum C – počet neurónov na 1.skrytej vrstve, na 2. skyrtej vrstve D – počet cyklov, E – počet cyklov, v ktorom bola najmenšia chyba F – úspešnosť testovania pri prahu 0.40, F – úspešnosť predikcie

36 Vyhodnotenie experimentov (1)
trénovacie množiny 1.typu fakt, či sa sa priviedol na vstup aj dátum alebo nie, výsledky predikcie neovplyvnil, ale zjavne ovplyvnil úspešnosť testovania siete na trénovacích vzorkách pri počte neurónov na skrytých vrstvách 20 a 8 sa sieť dala naučiť v priemere len na 80-90%, okrem experimentov, kde počet trénovacích vzoriek bolo 64. Pri počte trénovacích vzoriek 544 to činí len 462 správne predikovaných výsledkov.

37 Vyhodnotenie experimentov (2)
trénovacie množiny 2.typu na rozdiel od 1.typu trénovacích množín bola schopná sieť sa naučiť na %. Buď to bolo spôsobené väčším počtom neurónov na skrytých vrstvách, alebo tým, že 2.typ trénovacích množín obsahuje informácie o skóre a počte bodov. fakt, či sa priviedol na vstup aj dátum alebo nie, výsledky predikcie výrazne neovplyvnil (aj keď vo väčšine prípadov bola úspešnosť predikcie vyššia v prípadoch ak sa dátum započítal), ale v situáciach keď sa dátum priviedol na vstup, potrebovala sieť menší počet cyklov na dosiahnutie podobných hodnôt úspešností testovania ako keď sa dátum na vstup nepriviedol.

38 Ďakujem za pozornosť !!!


Stáhnout ppt "Predikcia výsledkov futbalových zápasov pomocou NN"

Podobné prezentace


Reklamy Google