Convertir el parseador del PDF a JavaScript

lugfi / organizador-fiuba

El organizador te ayuda a organizar las materias con un calendario semanal, mostrando superposiciones y permitiendo probar distintas combinaciones de cursos rapidamente.

https://lugfi.github.io/organizador-fiuba/

GNU General Public License v3.0

15 stars 16 forks source link

Convertir el parseador del PDF a JavaScript #28

Open colltoaction opened 6 years ago

colltoaction commented 6 years ago

Para mantener la coherencia del código y hacer todo en un solo lenguaje (y no necesitar instalar PHP...) estaría bueno que el parser del PDF esté escrito en JavaScript. De ser difícil o irrelevante, cerrar este issue.

Bloqueado por #27.

edittler commented 6 years ago

Hay herramientas en JS que hacen scraping de PDFs, comparto las que encontré:

fdnk commented 6 years ago

En lugar de trabajar sobre un PDF, se puede utilizar una herramienta que convierta de PDF a TXT y trabajar sobre texto plano. Por ejemplo: pdftotext https://en.wikipedia.org/wiki/Pdftotext

colltoaction commented 6 years ago

Yo me inclinaría a usar una herramienta que haga como lo que propone @fdnk pero en JavaScript. Prefiero hacer npm install y tener todo andando y no andar buscando dependencias en el gestor de paquetes nativo de mi distro. Seguro alguna de las que comenta Pampa tenga esa feature.

On Wed, Aug 2, 2017, 10:38 PM Fernando Danko notifications@github.com wrote:

En lugar de trabajar sobre un PDF, se puede utilizar una herramienta que convierta de PDF a TXT y trabajar sobre texto plano. Por ejemplo: pdftotext https://en.wikipedia.org/wiki/Pdftotext

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/lugfi/organizador-fiuba/issues/28#issuecomment-319872926, or mute the thread https://github.com/notifications/unsubscribe-auth/ABeg9HAfl0wwPbwY1WmgwAgzhX9rTdGDks5sUVzVgaJpZM4OroGJ .

edittler commented 6 years ago

La primer opción que pasé aparentemente funciona sin dependencias externas (pdf2json) por lo que el scraper/parser sería puramente JS. Habría que probar. La segunda opción si dice requerir dependencias externas, se podría descartar.

lucasp90 commented 6 years ago

Estoy de acuerdo en lo que dice @tinchou respecto a que sea en js, especialmente por si alguien quiere colaborar pero usa otro sistema operativo.

AlexDaciuk commented 5 years ago

Se esta haciendo la herramienta pdf -> custom csv en python