SCRUG / ActasTransparentes

Actas Transparantes - Un Proyecto del San Carlos RUG
http://www.meetup.com/es-ES/San-Carlos-R-User-Group/
0 stars 7 forks source link

Separar Imagenes de texto en los documentos de PDF #11

Open rgonzaleztec opened 8 years ago

rgonzaleztec commented 8 years ago

Separar de los archivos puros en pdf lo que es texto y lo que es imagen, pudiendo utilizar la parte del archivo que realmente es funcional para analizar

FvD commented 8 years ago

poppler-utils tiene la función pdfimages que permite extraer las figuras. Quizas en Rpoppler hay acceso a ese método.