AlexGonRo / Instance-Selection-Algorithms-Spark

GNU General Public License v3.0
1 stars 1 forks source link

Búsqueda de conjuntos de datos. #11

Closed AlexGonRo closed 7 years ago

AlexGonRo commented 9 years ago

Originally reported by: Alejandro González Rogel (Bitbucket: agr00095, GitHub: Unknown)


Se quieren encontrar diferentes conjuntos de datos para probar y medir con ellos el rendimiento de los entornos Weka y Spark.

Las instancias de los conjuntos, a ser posible, podrán ser únicamente de dos clases, para asi poder ser más fácil encontrar algoritmos de aprendizaje que estén ya programados tanto en Spark como en Weka.

Los conjuntos a utilizar han de ser de diferentes tamaños, para poder así observar el rendimiento en función de la cantidad de instancias procesadas.

El formato en el que se encuentre el conjunto de datos ha de estudiarse para poder seleccionar uno que acepten tanto Weka como Spark.


AlexGonRo commented 9 years ago

Original comment by Alejandro González Rogel (Bitbucket: agr00095, GitHub: Unknown):


En realidad HIGGS no tenía intención de ejecutarlo completo, sino una parte del mismo. Pensé que la idea era intentar forzar un poco a Weka, por eso he buscado un archivo pesado y no muy complicado.

Sin embargo, ejecutar HIGGS entero creo que tampoco tendría mucho sentido, no solo porque es probable que los algoritmos no puedan con ello, sino también porque no creo que se vea muy bien cómo es la evolución del rendimiento pasando de un millón de instancias con atributos integer a once millones con más atributos y de tipo double.

Todavía no he probado Weka o Spark con grandes conjuntos de instancias, así que el tamaño de los conjuntos también dependerá de cuales vayan siendo los resultados.

Ya tenía anotados algunos otros datasets del tamaño que mencionaste. Para intentar mantener los máximos campos posibles numéricos y no tener excesivos atributos por instancias podría proponer estos:

Para 100.000 instancias http://groupware.les.inf.puc-rio.br/har#dataset

Para 500.000 instancias https://archive.ics.uci.edu/ml/datasets/Covertype (El que has propusto tú)

EDITADO: Se ha eliminado el conjunto para 250.000 instancias. Debido a su pequeño número de atributos no era muy buen material para trabajar sobre él

AlexGonRo commented 9 years ago

Original comment by Álvar Arnaiz (Bitbucket: alvarag, GitHub: alvarag):


El poker es un clásico y, es a partir del cual, se empieza a denominar big data (más del millón de instancias). Puede que las pruebas sobre HIGGS ya resulten imposibles de realizar, por ello te recomiendo que busques un par de conjuntos de datos adicionales: uno con cien mil instancias y otro con medio millón por ejemplo. Estos les hemos utilizado nosotros en publicaciones: https://archive.ics.uci.edu/ml/datasets/KDD+Cup+1998+Data https://archive.ics.uci.edu/ml/datasets/Census-Income+%28KDD%29 https://archive.ics.uci.edu/ml/datasets/Covertype

AlexGonRo commented 9 years ago

Original comment by Alejandro González Rogel (Bitbucket: agr00095, GitHub: Unknown):


He estado buscando conjuntos de datos que pudiesen valer para realizar alguna prueba entre Spark y Weka. Como durante la reunión hablamos de utilizarlos con los algoritmos de clasificación básicos he buscado data sets que tuvieran esa finalidad.

De momento creo que podría realizar pruebas con los siguientes conjuntos:

La verdad es que ha resultado bastante sencillo encontrar conjuntos de datos de tamaño pequeño-mediano. Dependiendo de las pruebas podría intentar buscar alguno más de tamaño intermedio o ir reduciendo el tamaño del data set más grande.

Sin embargo,si que he encontrado bastante complicado encontrar data sets grandes(tamaño mayor a 1 GB). Muchos de los repositorios de datos tienen conjuntos que no están realmente enfocados a la clasificación o que contienen tipos de datos que nos podrían traer problemas, como los strings o los datos en blanco.

En estos conjuntos todos los datos son números reales(en el caso del conjunto Iris el valor de clase se trata como un nominal).

AlexGonRo commented 9 years ago

Original comment by Alejandro González Rogel (Bitbucket: agr00095, GitHub: Unknown):


Para el formato de los conjuntos de datos se ha creado una nueva tarea, porque tras trabajar sobre ello parece que va a dar algo más de trabajo.