codeforspain / datos

140 stars 5 forks source link

Archivos grandes #21

Open jalbertoroman opened 8 years ago

jalbertoroman commented 8 years ago

Mientras estaba subiendo los archivos geojson de los limites administrativos me he encontrado con que no puedo subir archivos de más de 100 mb (https://help.github.com/articles/working-with-large-files/)

Así que creo que lo que haré será un script que automatice todo el proceso, ya que de otra forma si dependemos de los "dropbox" o "drives" de cada uno será un problema a largo plazo.

¿Cómo lo veis?

jgsogo commented 8 years ago

¿Has probado con Git Large File Storage? De todos modos, siempre que se pueda es mejor tener el script para generarlo y, si queremos almacenar el dato, quizá mejor fuera del sistema de control de versiones (puede que tenga sentido crear un Amazon S3).

fesja commented 8 years ago

@jalbertoroman qué es lo que ocupa mucho en este caso? ¿tanto ocupan los geoson? Mola ver los geojson en el mapa directamente en github!

Recuerda seguir esta estructura común, pregunta cuando dudes y asi vamos cubriendo casos :) https://github.com/codeforspain/datos/wiki/_Estructura-Repositorio-Dataset

jalbertoroman commented 8 years ago

Si los geojson, los acabo de borrar, pero molaba verlos... He hecho un script para hacer el geojson, echadle un vistazo. Y comentamos.

jalbertoroman commented 8 years ago

Git Large File Storage soluciona el problema. @fesja esa página del wiki no la había visto y eso que he buscado esta tarde...

fesja commented 8 years ago

Me acaba de llegar este email:

We wanted to let you know that you’ve used 80% of your data plan for Git LFS on the organization codeforspain. No immediate action is necessary, but you might want to consider purchasing additional data packs to cover your bandwidth and storage usage:

https://github.com/organizations/codeforspain/billing/data/upgrade

Current usage as of 17 Apr 2016 08:06PM UTC:

Bandwidth: 0.88 GB / 1 GB (88%) Storage: 0.25 GB / 1 GB (25%)

50 GB/mes de espacio y 50 GB/mes de transferencia cuesta $5. No me importa pagar eso o más hasta que tengamos patrocinios, pero deberíamos estimar cuanto vamos a consumir porque igual se nos va de las manos o tenemos que ponerlo en otro sitio.

jalbertoroman commented 8 years ago

Si, he sido yo...

Y lo peor que el archivo geojson de regiones censales... no se ha subido (313mb). Ha fallado dos veces. Hago lo que creais conveniente.

jalbertoroman commented 8 years ago

Acabo de hacer una prueba con topojson y son apenas 10mb en vez de 310mb. El topojson se ha comido toda la información de las tablas, pero será cuestión de jugar con las opciones. Deberíamos valorarlo. Aquí está el ejemplo: https://github.com/codeforspain/ds-regiones-censales/blob/master/data/SECC_CPV_E_20111101_01_R_INE.topojson?short_path=1f3338f

jgsogo commented 8 years ago

Amazon S3 puede ser una opción, seguro que se puede configurar algo que nos permita subir archivos a todos sin necesidad de compartir una contraseña.

Yendo al caso concreto, ese archivo de regiones censales, ¿es necesario subirlo? ¿Está generado a partir de algunos datos? ¿Está descargado de alguna fuente oficial que lo actualiza?

saleiva commented 8 years ago

Que os parece que levantemos una cuenta de CartoDB para esto con bastante cuota? Así se puede acceder a los datos via API y fichero, y tendremos preview.

jgsogo commented 8 years ago

😍 A mí me parece una opción estupenda. Habría que ver cómo administrarla en común, pero seguro que le íbamos a sacar partido.

fesja commented 8 years ago

@saleiva genial, lo hablamos cuando os vaya a ver esta semana :)