Open colltoaction opened 6 years ago
Hay herramientas en JS que hacen scraping de PDFs, comparto las que encontré:
En lugar de trabajar sobre un PDF, se puede utilizar una herramienta que convierta de PDF a TXT y trabajar sobre texto plano. Por ejemplo: pdftotext https://en.wikipedia.org/wiki/Pdftotext
Yo me inclinaría a usar una herramienta que haga como lo que propone @fdnk
pero en JavaScript. Prefiero hacer npm install
y tener todo andando y no
andar buscando dependencias en el gestor de paquetes nativo de mi distro.
Seguro alguna de las que comenta Pampa tenga esa feature.
On Wed, Aug 2, 2017, 10:38 PM Fernando Danko notifications@github.com wrote:
En lugar de trabajar sobre un PDF, se puede utilizar una herramienta que convierta de PDF a TXT y trabajar sobre texto plano. Por ejemplo: pdftotext https://en.wikipedia.org/wiki/Pdftotext
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/lugfi/organizador-fiuba/issues/28#issuecomment-319872926, or mute the thread https://github.com/notifications/unsubscribe-auth/ABeg9HAfl0wwPbwY1WmgwAgzhX9rTdGDks5sUVzVgaJpZM4OroGJ .
La primer opción que pasé aparentemente funciona sin dependencias externas (pdf2json) por lo que el scraper/parser sería puramente JS. Habría que probar. La segunda opción si dice requerir dependencias externas, se podría descartar.
Estoy de acuerdo en lo que dice @tinchou respecto a que sea en js, especialmente por si alguien quiere colaborar pero usa otro sistema operativo.
Se esta haciendo la herramienta pdf -> custom csv en python
Para mantener la coherencia del código y hacer todo en un solo lenguaje (y no necesitar instalar PHP...) estaría bueno que el parser del PDF esté escrito en JavaScript. De ser difícil o irrelevante, cerrar este issue.
Bloqueado por #27.