IIC2115 / Syllabus-2018-2

9 stars 26 forks source link

Numero de datos con los que se recomienda trabajar #101

Closed fjgonzalez5 closed 5 years ago

fjgonzalez5 commented 6 years ago

Estoy tratando de graficar los datos, y dado el tamaño de la base, decidimos trabajar con solo un camion, de manera preliminar. Esto implica que tenemos unos 7000 datos con los cuales trabajar (el dataset tiene unas 680.000). Ahora, queriamos hacer un grafico similar al que nos mostraron en clase, ploteando el odometro y la carga de combustible en el tiempo, solo para este camion, pero toma mucho tiempo en imprimir. Tratando con 100 o 200 datos, el codigo imprime en unos 5 segundos, pero ya con 2000 datos puede tardar varios minutos. Con los 7000 datos, pasada la media hora aun no imprime.

Mi duda frente a esto es: es util trabajar con una menor cantidad de datos, para el caso de la muestra de un solo camion? Desde la perspectiva que 100 datos es un margen de tiempo muy pequeño para poder determinar informacion concluyente, pienso yo. Habrá algun programa que corra mas rapido que otro? Nose, como evitar usar jupyter porque toma mas tiempo.

Gracias!

FGarridoV commented 6 years ago

Primero que todo revisaría cómo estas graficando los datos, quizás estas haciendo algún proceso poco eficiente. Veo difícil que 100 o 200 datos se demoren 5 segundos o más. A veces Jupyter se marea por lo que te recomiendo resetear el kernel a ver como va con eso, pero esto debiera ser casi instantáneo.

Por otro lado tampoco no es necesario que grafiques todos los datos, pero si debes usar ojalá la mayor cantidad de ellos. Es decir, usarlos para alimentar tu modelo o buscar patrones de forma analítica. En general uno usa gráficos para observar comportamientos o presentar resultados, no necesariamente para modelar.

Saludos, Francisco