svilerino / metnum

Numerical Analysis
0 stars 0 forks source link

[Experimento 6][Deportes] PageRank vs Ranking Oficial #37

Closed sachakantor closed 8 years ago

sachakantor commented 8 years ago

Objetivo: Comparar GeM con los ránkings estándar en el mundo real.

Motivación: En la vida real la emoción subyacente de los deportes radica, en parte, en la posibilidad de que cualquiera le gane a cualquiera. ¿Para qué practicar u observar/seguir un deporte si este no es el caso? Un ránking trata de dar un orden que determine qué participante es mejor que otro entre los que forman parte de una competición. Pero la confección de este ránking puede tener que variar de acuerdo a la forma de la competición: no en todos los eventos todos los equipos juegan contra todos, no siempre todos juegan la misma cantidad de partidos ni la misma cantidad de veces entre sí. Así pues, dar un ránking se vuelve más complicado. Nuestra idea es tomar casos del mundo real y observar los resultados de GeM y ver como se comporta respecto de estas asimetrías inherentes al tipo de competición; mientras que lo comparamos contra el ránking oficial utilizado en cada caso.

Descripción del experimento:

Evaluaremos 3 instancias de deportes/ligas:

1) El campeonato de Primera División del fútbol argentino 2015, tomando hasta la fecha 23.

2) La Copa Mundial de la FIFA de 2014, realizada en Brasil.

3) La Copa Mundial de la FIFA de 1954, realizada en Suiza.

Tomamos el campeonato argentino como un ejemplo del formato de liga, y las Copas Mundiales de Fútbol como un ejemplo del caso en que no juegan todos contra todos ni todos juegan la misma cantidad de veces. Tomamos el caso de 2014 como representante del formato "actual" de 32 equipos con una única fase de grupos y una fase eliminatoria. Y tomamos el caso de 1954 por presentar una situación interesante de analizar: en la fase de grupos Hungría le ganó 8 a 3 al que luego saldría campeón, Alemania Federal.

Para los casos de los Mundiales, tomamos como "oficial" el ránking final publicado por la FIFA. Para el caso del campeonato de primera división, la ordenación estándar por puntaje 3-1-0.

En los tres casos ejecutamos el algoritmo GeM variando los valores de $c$ y comparamos contra el ránking oficial de la instancia. En los tres casos decidimos ignorar los empates. Para las definiciones por tanda de penales, tomamos como resultado del partido el resultado final de los mismos.

sachakantor commented 8 years ago

Nota 1: A la hora de hacer la comparación, no sé si conviene hacerla corriendo el pagerank contra toda la instancia de entrada (es decir, todas las fechas/partidos) y comparar contra el resultado final del torneo. O comparando fecha a fecha (como en el experimento 5:https://github.com/svilerino/metnum/issues/36), como por ejemplo ingresando la instancia parcial (el 25% de las fechas/partidos) y compar: a) contra el ranking a esa instancia el mundo real y/o b) contra el ranking final real (predicción de resultados con el 25% de los datos?)

Esto último podría llegar a ponerse como otro experimento en el informe: PageRank como predictor de resultados de torneos.

sachakantor commented 8 years ago

Nota 2: OPCIONAL: podríamos considerar alguna otra decisión en el caso 1) a la hora de modelar los empates. Y comparar resultados de ambos modelados de empates.

Laski commented 8 years ago

Discusión de los resultados: 1) Lo primero que notamos es que para valores grandes de $c$ la diferencia con el ránking oficial aumenta, alcanzando un mínimo en $c=0.1$. Consideramos que esto tiene que ver por darle demasiada importancia a la "transitividad de victorias" cuando el fútbol en general no funciona de esa manera. Por ejemplo, para $c=1$ los primeros cinco puestos son:

TABLA Boca Juniors 0.0934262 River Plate 0.0828491 San Martín (SJ) 0.0674819 Aldosivi 0.0648027 San Lorenzo 0.0596129 \TABLA

Cuando por puntajes eran TABLA San Lorenzo 50 Boca Juniors 49 Racing Club 46 Rosario Central 45 River Plate 44 \TABLA

La posición de San Martín de San Juan (13º según el puntaje oficial) se debe, en parte, a que le ganó a San Lorenzo en la fecha 3, mientras que Aldosivi (24º según el puntaje oficial) logró lo mismo en la fecha 10 y le gano a San Martín de San Juan en la fecha 22. Removiendo esos partidos sus posiciones en GeM bajan significativamente.

De todos modos podemos observar que, para el valor de $c=0.1$, el ráking devuelto por GeM se parece un poco más al oficial, poniendo en los primeros 6 puestos a TABLA River Plate 0.0383429 Boca Juniors 0.038337 San Lorenzo 0.0372973 Racing Club 0.0363868 San Martín (SJ) 0.0352285 Rosario Central 0.0347587 \TABLA de los cuales 5 efectivamente corresponden a esos primeros 6 lugares según el oficial (el que falta es Independiente, que GeM ubica 15º) y uno de ellos está en la misma posición en ambos ránkings.

Otra coincidencia notable son los últimos puestos. Mientras el ránking oficial ubica a TABLA Godoy Cruz 22 Huracán 21 Atlético de Rafaela 20 Arsenal 17 Nueva Chicago 14 Crucero del Norte 14 \TABLA

GeM propone a

TABLA Olimpo 0.0316438 Huracán 0.0315532 Godoy Cruz 0.0315278 Atlético de Rafaela 0.0309498 Colón 0.0308694 Nueva Chicago 0.0307189 \TABLA

lo cual tiene 3 coincidencias débiles (mismos equipos en distinta posición) y una coincidencia exacta.

Laski commented 8 years ago

2) En este caso, la diferencia para valores no nulos de $c$ no nulos es escasa, y la diferencia con el oficial en general es mucho mejor que para el caso del campeonato argentino. Consideramos esto relacionado al hecho de que hay pocos partidos en total, y a que la organización del torneo también se basa fuertemente en la transitividad de victorias (al menos en la fase final): si A le ganó a B y B a C, se asume que A es mejor que C. Para todos los valores no nulos de $c$ GeM ubicó correctamente como ganador a Alemania. Para $c=0.1$ considero que el subcampeón fue Países Bajos, lo cual sorprende dado que Argentina le ganó "4 a 2" (el resultado de los penales). Evidentemente un valor tan bajo de $c$ le da baja importancia a esto y pondera más las diferencias de goles de Países Bajos contra sus rivales (4 vs España, 2 vs Chile), mucho mejores que las de Argentina (que ganó todos sus partidos por un gol de diferencia). Para todos los demás valores de $c$, GeM identificó correctamente a Argentina como subcampeón.

Las menores diferencias generales se obtuvieron para $c=0.2$, $c=0.3$ y $c=0.4$ "empatadas" en una distancia de 50 con el ránking oficial de la FIFA. En estos casos sorprende la precisión de los resultados. Por ejemplo, para $c=0.4$, los primeros 8 lugares son: TABLA Germany 0.0986858 Argentina 0.0764719 Netherlands 0.0650904 Brazil 0.0480157 Colombia 0.0419815 Belgium 0.0405001 France 0.0396461 Costa_Rica 0.0344357 /TABLA y coinciden exactamente con el ránking provisto por la FIFA.

Al consultarle su opinión al respecto de si fue o no penal, GeM guardó un respetuoso silencio.

Laski commented 8 years ago

3) Nuevamente observamos una buena aproximación entre GeM y el ránking oficial. Quizás los más sorprendente es que para todos los valores no nulos de $c$, GeM supo clasificar a Alemania Federal como el ganador del torneo a pesar de haber perdido por una diferencia de 5 goles en la fase de grupos con el subcampeón Hungría. La explicación que le encontramos a esto se basa en que la final se disputó precisamente entre esos dos equipos, y Alemania Federal se consagró ganador por 3 a 2. Esto produce que el grafo de conectividad tenga un ciclo entre esas dos selecciones, lo cual hace que parte del "puntaje" de Hungría vuelva a Alemania Federal. Todo eso sumado a la excelente campaña de este último en el campeonato (4 a 1 vs Turquía, 7 a 2 nuevamente vs Turquía, 2 a 0 vs Yugoslavia y 6 a 1 vs Austria, que venía de ganar varios partidos también por gran diferencia) lo posiciona efectivamente como ganador según GeM. También para todos los valores de $c$ GeM acierta en ubicar a Hungría como subcampeón.

La menor diferencia con el ránking oficial se obtiene con $c=0.8$ y $c=0.9$. Es preciso notar que no pudimos evaluar el caso $c=1$ por no converger para esta instancia, a diferencia de las dos competiciones anteriores.

En estos dos casos, GeM acertó en los 5 primeros puestos de la competición, siendo estos: TABLA West_Germany 0.421402 Hungary 0.409884 Austria 0.0299615 Uruguay 0.0252637 Switzerland 0.0169375 /TABLA

sachakantor commented 8 years ago

Le faltan conclusiones finales, pero las hacemos directo en el latex.