Este proyecto es una aplicación de Streamlit diseñada para extraer información de facturas en formato PDF y convertirla en un formato estructurado (JSON).
requirements.txt
Clona este repositorio:
git clone https://github.com/lahoramaker/facturas2json.git
cd facturas2json
Crea un entorno virtual (opcional pero recomendado):
python -m venv .venv
source venv/bin/activate # En Windows use `venv\Scripts\activate`
Opcional: Instala uv para acelerar el proceso de instalación de paquetes pip
pip install uv
Instala las dependencias:
pip install -r requirements.txt
En caso de haber instalado uv puedes hacerlo con el siguiente comando:
uv pip install -r requirements.txt
Ejecuta la aplicación:
streamlit run src/facturas2json.py
Abre tu navegador web y ve a la dirección que se muestra en la consola (generalmente http://localhost:8501).
Usa la interfaz para cargar archivos PDF, revisar los datos extraídos y guardar los resultados.
Se ha añadido una nueva funcionalidad para analizar los datos obtenidos, permitiendo también convertirlos en CSV y viceversa. Para abrirlo, ejecuta:
streamlit run src/analizar_facturas.py
Si no dispones de este script, puedes actualizar el repositorio (ejecutando git pull
desde la propia carpeta)
Si quieres saber más sobre el proyecto, puedes consultar los siguientes videos:
Las contribuciones son bienvenidas. Por favor, abre un issue para discutir cambios importantes antes de crear un pull request.