Tareas configuración - Githubissues

Shathe commented 8 years ago

Analizar varios proyectos realizados que utilicen Docker, tomarlos como inspiración y ejemplo para la realización del mío.

Shathe commented 8 years ago

https://apache.googlesource.com/nutch/+/2.x/docker/hbase/Dockerfile (Muy buen ejemplo docker+nutch+hadoop)

fjlopez commented 8 years ago

Añado el que comentaste https://github.com/Meabed/nutch-cassandra-docker para que no se olvide.

Shathe commented 8 years ago

Hoy por fin he conseguido poder ejecutar desde terminal de mi ordenador (no desde la terminal de la imagen de docker creada) una ejecución de nutch, ahora lo que haré será ver que cosas pueden ser útiles para configurar de nutch como las semillas, los plugings.. Para poder empezar a realizar el DSL También falta ver como poner accesible la información recopilada, jorge esta mirando Solr, yo no sé si si apostar por solr y mirar como poder integrarlo en docker o intentar pasar la info de la imagen docker a mi ordenador para hacer un programa que parsee el dump y hacer una API de búsqueda, que me recomiendas? (esto ya sería después del dsl)

fjlopez commented 8 years ago

Si y no. El mecanismo de extracción de datos del crawl debería formar parte del DSL. De un lado en el DSL vas a indicar seguramente el sistema de almacenamiento del crawl dentro de la imagen (formará parte de la configuración de nutch). De otro, la extracción de los datos fuera de la imagen utilizará el DSL para saber donde están los datos. De hecho sería lógico que esta fuera una de las tareas del cliente que controla la imagen (crear, arrancar, parar, y... extraer datos), ¿Que opinas?

Shathe commented 8 years ago

Mmmm.. a ver, ahora mismo por ejemplo se guarda todo lo que se extrae en un archivo dump (que luego por ejemplo gestiona Solr o se puede utilizar), cuando hablar de "indicar seguramente el sistema de almacenamiento del crawl dentro de la imagen" a que te refieres exactamente? A sistemas como Gora, hadoop (no sési el 1.9 que ahora utilizo se puede) o a qué exactamente?

La extracción de datos se haría desde el DSL o más adelante? Es decir, en el dsl si que veo claro configurar el funcionamiento del crawler, pero la extracción podría ser aparte indicando la ruta donde quieres volcar los datos o ves mucho mejor indicar en el DSL donde volcarlo? porque además, cuadno se volcaría, al terminar, cada cierto tiempo, cuando el usuario quisiera?

Shathe commented 8 years ago

Tengo también ahora una duda, viendo lo que se puede configurar respecto al crawler (http://wiki.apache.org/nutch/nutch-default.xml por ejemplo este es el archivo de configuracion mas grande, aqui puedes ver que tipo de cosas se peuden configurar), el tamaño de configuración es grande, bastante grande, que idea tenías respecto a el tamaño/posibilidades de configurar, es decir, tengo que hacer en el DSL que todas y cada una de las posibles configuraciones de ese archivo se puedan editar, o me leo todas, saco las mas importantes y solo de esas o qúe idea tenias?

fjlopez commented 8 years ago

Por partes (pero no en orden):

El ataque siempre tiene que ser incremental cuando se trata de implementar. ¿Qué es lo mínimo que se necesita configurar para que nutch funcione? El sistema de almacenamiento debe ser uno de ellos.
El mecanismo de extracción hay que pensarlo. Como mínimo tendríamos que poder facilitar el uso de comandos como nutch dump para exportación. Por ejemplo, mapeando directorios del contenedor con directorios del host como se dice aquí
Si vamos en modo incremental, primero resolvamos el caso para el crawl finalizado y después pensamos la solución para el crawl en ejecución. En este caso pienso que sería una mezcla de plugin (¿un cliente de RabbitMQ?) más algún tipo de soporte externo (¿un RabbitMQ en otro contenedor mas una aplicación que recibe todos los mensajes?).

Shathe commented 8 years ago

Vale entonces modo incremental, primero miro cosas básicas o interesantes para un crawlers, lo mínimo, hago una recopilan de todo lo que interesaría tener mínimo.

Respecto al sistema de almacenamiento, lo que no sé muy bien tu idea es sobre que quieres poder configurar, Te refieres a donde? la localización del dump, si es en cassandra, hadoop? o a que te refieres exactamente?

Respecto a la extracción, lo del dump sí que había mirado cosas como lo del copy, incluso puedes hacer un docker exect idContenedor cat dump >> fichero.txt que también vale, pero claro también depende esto del sistema de almacenamiento no? si lo guardas en otro sitio, no se podrá hacer con lo del dump.

Y no te he entendido respecto al ultimo punto, de qué estás hablando allí? de la extracción o de la configuración? (Lo del sistema que comentas prefiero que cuando llegue el momento lo hablásemos mejor en persona un rato)

Siguientes tareas que realizaré: -Analizar configuraciones mínimas -Modificar los scripts actuales para poder realizar dichas configuraciones -Implementar el DSL y realiazr su documentación

fjlopez commented 8 years ago

Creo que uno de los problemas que detecto es la necesidad de tener un diagrama de arquitectura claro que incluya estas ideas (almacenamiento, extracción). Creo una tarea sobre el tema #11. Deberías crear tareas sobre las 3 tareas que indicas.

Shathe commented 8 years ago

Ahora haré un diagrama y una pequeña reorganización del proyecto, en un par de horas cuando lo termine actualizo github

Shathe commented 8 years ago

El diagrama es sencillo y un poco más a alto nivel, dado que de momento hay cosas que no sé como quedarán al final y/o a más bajo nivel. Además de que el diagrama que acabo de subir eso solo de la primera parte y segunda del DSL y la aplicación que lo gestiona.

Míralo y si te parece bien, cierro esto, y respondo lo mismo por el otro tema

fjlopez commented 8 years ago

Ok

Shathe / 101CrawlersWeb

Tareas configuración #5