Ingobernable / kaos155

Programa de analisis de Contratación con la administración pública y relaciones societarias en España.
GNU General Public License v3.0
17 stars 7 forks source link

Instalación Tika #11

Open Softman65 opened 6 years ago

Softman65 commented 6 years ago

instalación de esta herramienta https://tika.apache.org/ para la conversión de los pdf a texto

https://github.com/ICIJ/node-tika

Depende de node-java , que a su vez requiere JDK y Python 2 (no 3) para compilar.

Requiere JDK 7. Ejecutar node versionpara verificar la versión que node-java está usando. Si se informa la versión incorrecta incluso si instaló JDK 1.7, asegúrese de que JAVA_HOME esté configurado en la ruta correcta, luego elimínelo node_modules/java y vuelva a ejecutarlo npm install.

Softman65 commented 6 years ago

incorporar opciones de OCR estaría muy bien para el futuro https://wiki.apache.org/tika/TikaOCR

¿que opináis gentes de sistemas?

TAREAS: instalar y crear el manual de instrucciones

j-lml commented 6 years ago

El 22/11/17 a las 22:40, Softman65 escribió:

incorporar opciones de OCR estaría muy bien para el futuro https://wiki.apache.org/tika/TikaOCR

¿que opináis gentes de sistemas?

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/Ingobernable/kaos155/issues/11#issuecomment-346480493, or mute the thread https://github.com/notifications/unsubscribe-auth/AYTEANIIFeGKKgJE3pn6psOowhqFCVVgks5s5JTMgaJpZM4QoByr.

está dockerizado. lo he probado y funciona sin configurar nada pero me falta crear una versión con ocr,

Softman65 commented 6 years ago

Seria bueno tener las instrucciones en debían sin docker.

j-lml commented 6 years ago

Instrucciones para docker. nota: incorpora OCR. Si el fichero es pdf tipo imagen se lo traga.

Instalar Servidor:

# only on initial download/update
docker pull logicalspark/docker-tikaserver 

Ejecuta maquina en puerto:

# al cerrar elimina la máquina
docker run --rm -p 9998:9998 logicalspark/docker-tikaserver

Instalar cliente:

pip install tika

Ejecuta cliente:

tika-python -o . --server 10.10.10.1 --port 9998 parse text fichero.pdf

nota: llama a servidor en cierto puerto para que extraiga sólo el texto (sin metadatos que sería 'parse all'). El fichero de salida se deja en el directorio actual '-o .'

j-lml commented 6 years ago

yo cambiaría el nombre de este hilo a algo más simple:

Instalación Tika etiquetas: pdf, herramientas

Softman65 commented 6 years ago

podríamos instalar una maquina solo con este servicio para incorporarlo al proyect, y manejarlo de forma remota desde kaos ...... pienso en un servicio opcional ...... echo en falta unas instrucciones lynux sin docker

torbellina commented 6 years ago

estaría genial si esto sirviera para solucionar el problema que tenemos con los pdfs escaneados del BOCM del 2010 para atrás.

ghost commented 6 years ago

A ver si puedo montarlo luego.

alex-left commented 6 years ago

Si se va a usar para el parseo, es una app que entonces va a soportar gran parte de la carga de aplicacion. Externarlizarla, me parece guay pero alojarla en unico sitio al que se conecten el resto no lo termino de ver, nos arriesgamos a que se produzca un cuello de botella.

En cualquier caso, saco un rato para incluirlo en el ansible, he visto la doc y es bastante sencillo.

ghost commented 6 years ago

Lo ideal es que sea una dependencia de quien monte el tinglado. Pero que no sea un servicio como dices externo al que se conecten para el parseo. Que lo monten al igual que el resto de cosas no? . Por cierto. Esto sustituiria las xpdf tools?

alex-left commented 6 years ago

Entiendo que si sustituiria a las xpdf, pero opino que todo lo que se dirija a una arquitectura modular es bueno. Permite escalar y dimensionar de manera precisa y el parseo es una de las tareas mas "pesadas" que puede haber en todo el proceso.

2017-11-29 4:17 GMT+01:00 fanta notifications@github.com:

Lo ideal es que sea una dependencia de quien monte el tinglado. Pero que no sea un servicio como dices externo al que se conecten para el parseo. Que lo monten al igual que el resto de cosas no? . Por cierto. Esto sustituiria las xpdf tools?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/Ingobernable/kaos155/issues/11#issuecomment-347740388, or mute the thread https://github.com/notifications/unsubscribe-auth/AWOyi5iHhz5eqJYn3Tt817DbrMV2yr9oks5s7MzNgaJpZM4QoByr .

Softman65 commented 6 years ago

se utilizaría solo en el escrapeo.

j-lml commented 6 years ago

He visto mucho comentario y quiero participar, jeje:

Propuse tika originalmente como una necesidad para unos pdfs que impedían ser tratados de forma cómoda (necestiban abrirse e imprirse de nuevo a pdf)

Yo NO lo veo como parte de la plataforma. Es una herramienta que existe y que está bien utilizarla solo cuando sea necesario. En fase de scraping no veo la necesidad de que se tenga que hacer todo de forma automática y de forma remota (haciendo mil veces las peticiones a los boletines). El escrapeo podría venir de otras fuentes como pdfs en disco (ya procesados en caso de que fuera necesario por tika) y evitar la bajada de esos ficheros una y otra vez.

Si el que lo necesite (que no debería ser el usuario final) se lo instala como servicio web en su máquina o docker, pues muy bien (pruebas, descifrar ficheros, análisis ocr). Meterlo dentro de la plataforma lo hace pesado (depende de java).