Ko su članovi tima, grupa sa vežbi? Ime, prezime, broj indeksa...
-Članovi tima su Marko Tagliavia i Tijana Lalošević. 8. grupa. Brojevi indeksa RA 136/2014 i RA 3/2014 respektivno.
Problem koji se rešava (detaljniji opis)
-Za odabrane dve fudbalske ekipe i njihovu ulogu (domaćin, gost) potrebno je rešiti pitanje ishoda utakmice. Ishode je neophodno iskazati procentualnim verovatnoćama od 0%-100%.
Atributi koji će se koristiti u algoritmima su podaci iz statistike utakmica kao npr postignuti/primljeni broj golova, broj šuteva na gol, broj šuteva u okvir gola, kartoni, rezultat na poluvremenu itd.
Kao nenumerički atribut koristiće se i sudija utakmice.
Algoritam/algoritmi koji će se koristiti
-Koristiće se sledeći algoritmi:
LaGranžova interpolacija
Regresija sa proizoljnim stepenom regresione krive
Algoritam K najbližih suseda sa proizvoljnim K
Stablo odlučivanja sa više nivoa na kojima se donosi odluka
Random forrest koristeći različite skupove osobina i različite skupove trening podataka
Neuronska mreža
Metrika za poređenje performansi algoritama i/ili parametara algoritma
-Performanse algoritama će se izraziti putem tabelarnog prikaza koji će prikazati procentualno broj pogodaka za svaki algoritam i koristiće Cross-validation metodu
-Implementacija traženja najboljih parametara (najboljeg stepena za regresiju, najboljeg K za najbliže susede)
-Implementacija odluke softvera na osnovu podataka, koji algoritam je najbolje da iskoristi za zadati ulaza da se taj podatak ne dobije brute force.
Ovo nije primarni cilj softvera pošto će rezultati rada algoritama biti vidljivi pregledno na drugom mestu
Podaci koji se koriste - da li su već dostupni online, da li će se skupljati automatski ili manuelno, da li se moraju prvobitno obraditi?
-Podaci su dostpuni na sajtu http://www.football-data.co.uk/englandm.php
-Podaci moraju prvo da se obrade tj da se prebace u bazu manuelno
-Nad podacima je potrebno uraditi normalizaciju, tj svesti različite osobine podataka na jedinstveni opseg
Na koji način planirate validaciju rešenja?
-Trening podaci će biti podaci iz prethodnih sezona a tekuća sezona će se tretirati kao nepoznata i predstavljaće test podatke. Validacija rešenja će biti procenat pogodjenih prognoza u za te test podatke
Ko su članovi tima, grupa sa vežbi? Ime, prezime, broj indeksa... -Članovi tima su Marko Tagliavia i Tijana Lalošević. 8. grupa. Brojevi indeksa RA 136/2014 i RA 3/2014 respektivno.
Problem koji se rešava (detaljniji opis) -Za odabrane dve fudbalske ekipe i njihovu ulogu (domaćin, gost) potrebno je rešiti pitanje ishoda utakmice. Ishode je neophodno iskazati procentualnim verovatnoćama od 0%-100%. Atributi koji će se koristiti u algoritmima su podaci iz statistike utakmica kao npr postignuti/primljeni broj golova, broj šuteva na gol, broj šuteva u okvir gola, kartoni, rezultat na poluvremenu itd. Kao nenumerički atribut koristiće se i sudija utakmice.
Algoritam/algoritmi koji će se koristiti -Koristiće se sledeći algoritmi:
LaGranžova interpolacija Regresija sa proizoljnim stepenom regresione krive Algoritam K najbližih suseda sa proizvoljnim K Stablo odlučivanja sa više nivoa na kojima se donosi odluka Random forrest koristeći različite skupove osobina i različite skupove trening podataka Neuronska mreža
Metrika za poređenje performansi algoritama i/ili parametara algoritma -Performanse algoritama će se izraziti putem tabelarnog prikaza koji će prikazati procentualno broj pogodaka za svaki algoritam i koristiće Cross-validation metodu -Implementacija traženja najboljih parametara (najboljeg stepena za regresiju, najboljeg K za najbliže susede) -Implementacija odluke softvera na osnovu podataka, koji algoritam je najbolje da iskoristi za zadati ulaza da se taj podatak ne dobije brute force. Ovo nije primarni cilj softvera pošto će rezultati rada algoritama biti vidljivi pregledno na drugom mestu
Podaci koji se koriste - da li su već dostupni online, da li će se skupljati automatski ili manuelno, da li se moraju prvobitno obraditi? -Podaci su dostpuni na sajtu http://www.football-data.co.uk/englandm.php -Podaci moraju prvo da se obrade tj da se prebace u bazu manuelno -Nad podacima je potrebno uraditi normalizaciju, tj svesti različite osobine podataka na jedinstveni opseg
Na koji način planirate validaciju rešenja? -Trening podaci će biti podaci iz prethodnih sezona a tekuća sezona će se tretirati kao nepoznata i predstavljaće test podatke. Validacija rešenja će biti procenat pogodjenih prognoza u za te test podatke
Repozitorijum : https://github.com/markotagliavia/ORI