igrowker / i004-voltix-back

2 stars 0 forks source link

Procesar el PDF de factura cargada y extraer un dato clave #2

Open damianfanaro opened 4 days ago

damianfanaro commented 4 days ago

Toda tarea compleja empieza por hacer una POC (Proof Of Concept o Prueba de Concepto). Acá lo que tienen que intentar hacer es el mínimo código posible que les permite extraer UN DATO. Por ejemplo, cargo la factura, la proceso y extraigo el número de factura. Listo, nada más. A partir de aquí, que sea iterativo donde cada vez vamos cargando más campos. Que la factura para hacer la POC sea bien sencilla, de una página. No complicarse.

kamelmat commented 3 days ago

He probado instalar Tesseract y el problema es que estoy en un Mac con IOS 10.15 el Capitan que porque es vieja no puedo tener otro ios más moderno ya que Tesseract no es solo una dependencia instalada sino que además hay que instalarlo a nivel local en tu ordenador (cosa que hay que mirar como funcionará en el servidor una vez que lo hagamos correr). Voy a investigar si hay algún otro OCR que pueda correrse en sistemas más antiguos

kamelmat commented 2 days ago

Estoy probando instalar un binario antiguo de Tesseract 3.05 que puede ser compatible con El Capitan. Llevo un buen rato a ver si funciona.