lahoramaker / facturas2json

Facturas2json es un programa que te permite extraer datos estructurados a partir de facturas utilizando los modelos Marker y nuExtract.
MIT License
20 stars 8 forks source link

Extractor de Facturas

Este proyecto es una aplicación de Streamlit diseñada para extraer información de facturas en formato PDF y convertirla en un formato estructurado (JSON).

Características

Requisitos del sistema

Instalación

  1. Clona este repositorio:

    git clone https://github.com/lahoramaker/facturas2json.git
    cd facturas2json
  2. Crea un entorno virtual (opcional pero recomendado):

    python -m venv .venv
    source venv/bin/activate  # En Windows use `venv\Scripts\activate`
  3. Opcional: Instala uv para acelerar el proceso de instalación de paquetes pip

    pip install uv
  4. Instala las dependencias:

    pip install -r requirements.txt

    En caso de haber instalado uv puedes hacerlo con el siguiente comando:

    uv pip install -r requirements.txt

Uso

  1. Ejecuta la aplicación:

    streamlit run src/facturas2json.py
  2. Abre tu navegador web y ve a la dirección que se muestra en la consola (generalmente http://localhost:8501).

  3. Usa la interfaz para cargar archivos PDF, revisar los datos extraídos y guardar los resultados.

Analizador de facturas

Se ha añadido una nueva funcionalidad para analizar los datos obtenidos, permitiendo también convertirlos en CSV y viceversa. Para abrirlo, ejecuta:

   streamlit run src/analizar_facturas.py

Si no dispones de este script, puedes actualizar el repositorio (ejecutando git pull desde la propia carpeta)

Notas

Recursos adicionales

Si quieres saber más sobre el proyecto, puedes consultar los siguientes videos:

Contribuciones

Las contribuciones son bienvenidas. Por favor, abre un issue para discutir cambios importantes antes de crear un pull request.

Licencia

MIT