Jestem wielkim fanem piłki nożnej i interesuje się również uczeniem się maszyn. Jako projekt dla kursu ML próbuję zbudować model, który przewidywałby szansę wygranej dla drużyny gospodarzy, biorąc pod uwagę nazwy drużyny gospodarzy i gości (Zapytam mój zestaw danych i odpowiednio utworzę punkty danych na podstawie poprzednich meczów między tymi 2 zespołami)Przewidywanie zwycięzców meczu piłki nożnej na podstawie wcześniejszych danych tego samego meczu
Mam dane przez kilka sezonów dla wszystkich drużyn, ale mam następujące kwestie, które chciałbym poradzić sobie z .. EPL (angielska Premier League) ma 20 godzin, które grają w domu i na wyjeździe (380 wszystkich gier w sezonie). Tak więc, każdego sezonu, 2 drużyny grają ze sobą tylko dwa razy.
Mam dane z ostatnich 10 lat, co daje 2 * 10 = 20 punktów danych dla dwóch drużyn. Nie chcę jednak przejść przez ostatnie 3 lata, ponieważ wierzę, że zespoły zmieniają się znacznie z biegiem czasu (ManCity, Liverpool), a to tylko wprowadziłoby więcej błędów do systemu.
To daje około 6-8 punktów danych dla każdej pary drużyn. Mam jednak kilka funkcji (do 20+) dla każdego punktu danych, takich jak cele w pełnym wymiarze godzin, cele na połowie, karnety, strzały, żółcienie, czerwienie itp. Dla obu drużyn, więc mogę dołączyć funkcje takie jak niedawny formularz, ostatni dom formularz, ostatnia forma wyjazdu itp.
Jednak wydaje mi się, że pomysł dotyczący jedynie 6-8 punktów danych do treningu wydaje mi się niepoprawny. Wszelkie przemyślenia na temat tego, w jaki sposób mogę przeciwdziałać temu problemowi (jeśli jest to problem na pierwszym miejscu, tj.)
Dzięki!
EDYCJA: FWIW, oto link do mojego raportu, który skompilowałem na zakończenie mojego projektu. https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf. Nie są to "świetne" rzeczy, ale uważam, że niektóre z tych spostrzeżeń, które udało mi się uzyskać, były całkiem fajne (jak moje prognozy sprawdzały się bardzo dobrze w Bundeslidze, ponieważ Bayern wygrywał ligę przez cały czas).
Bardzo interesujące. Czy twoje zbiory danych są publiczne, aby inni mogli z nimi eksperymentować? – schreon
Używam tych http://www.football-data.co.uk/data.php – keithxm23
@ keithxm23 jakich narzędzi użyłeś? WEKA czy szybki górnik? – user2137186