IgnacioBriones / desarrollo-paralelas-2014

Este es el repositorio de desarrollo de computaciòn paralela 2014, el codigo de la biblia.
0 stars 3 forks source link

Crear función que toma una ruta a un pdf y lo convierte a un archivo de texto #1

Open ljofreflor opened 10 years ago

ljofreflor commented 10 years ago

Se requiere una función en python que tome la ruta de un archivo pdf y que lo transforme en un string ASCII.

Daniel90 commented 10 years ago

probando con pdfminer y pypdf

ljofreflor commented 10 years ago

Es necesario un módulo que haga eso de forma transparente, o sea, que oculte la complejidad de esas dos librerías para llegar y agregarla al otro módulo sin tener hacer mayores cambios al código. Lo ideal sería esto:

from pdfTools import readPdf
textObject = readPdf("/home/usuario/archivo.pdf")
bookText = textObject.string

# esta parte debe imprimir el texto
print bookText.string

# esta parte debe imprimir el texto sin espacio
bookText.remove(" ")
print bookText.string

Si puedes hacer esta implementación sería de gran ayuda, contando además, que solo termine una serie de caracteres.

Una pregunta ¿Donde aparece que hay que eliminar los espacios en el documento de requerimientos que mandó el profesor?

Daniel90 commented 10 years ago

2.3 consideraciones generales, punto iii). No solo son los espacios sino también todo carácter especial, además dejar solo el tema del texto, es decir eliminar: tapas, contratapas, tablas de contenido, índice, prefacio, introducción o reseñas, agradecimientos, también descrito en ese mismo punto.

El 17 de mayo de 2014, 13:11, Leonardo notifications@github.com escribió:

Es necesario un módulo que haga eso de forma transparente, o sea, que oculte la complejidad de esas dos librerías para llegar y agregarla al otro módulo sin tener hacer mayores cambios al código. Lo ideal sería esto:

from pdfTools import readPdf textObject = readPdf("/home/usuario/archivo.pdf") bookText = textObject.string

esta parte debe imprimir el texto

print bookText.string

esta parte debe imprimir el texto sin espacio

bookText.remove(" ") print bookText.string

Si puedes hacer esta implementación sería de gran ayuda, contando además, que solo termine una serie de caracteres.

Una pregunta ¿Donde aparece que hay que eliminar los espacios en el documento de requerimientos que mandó el profesor?

— Reply to this email directly or view it on GitHubhttps://github.com/IgnacioBriones/desarrollo-paralelas-2014/issues/1#issuecomment-43415558 .

Daniel90 commented 10 years ago

Al final buscando y probando, este codigo fue lo unico que me ha funcionado, por lo menos con un libro de la biblia que baje, "05Deu.pdf"

import os input="05Deu.pdf" output="algo.txt" os.system(("ps2ascii %s %s") %( input , output))

ljofreflor commented 10 years ago

el pypdf tiene opciones de ir leyendo página por página de un pdf import pyPdf pdf = pyPdf.PdfFileReader(open(filename, "rb")) for page in pdf.pages: print page.extractText()