D A T A L I A
Datos, sin complicaciones.
Datalia es una plataforma de datos abiertos a nivel de España con el objetivo de unificar y armonizar información proveniente de diferentes fuentes.
💡 Principios
- Transparencia: Código, estándares, infraestructura, y datos, son públicos. Usa herramientas, estándares e infraestructuras abiertas, y comparte datos en formatos accesibles.
- Modularidad: Cada componente o dataset puede ser reemplazado, extendido o eliminado. El código funciona bien en muchos entornos (un portátil, un clúster, o desde el navegador) y puede desplegarse en distintos lugares.
- Sin Rozamiento: No preguntes, haz un fork y mejora el código, los modelos, o añade una nueva fuente de datos. Usa los datasets sin límites de API o cuotas.
- Datos como Código: Transformaciones declarativas trackeadas en
git
. Los datasets y sus transformaciones se publican para que otras personas puedan construir sobre ellos.
- Pegamento: Datalia es un puente entre herramientas y enfoques y no un estándar o una herramienta en sí misma. Se integra con otras herramientas y servicios.
⚙️ Configuración
Si quieres contribuir a Datalia, es fácil! Clona el repositorio y sigue estas instrucciones.
Cualquier problema que encuentres, no dudes en abrir una issue!
🐍 Python
Instala Python en tu sistema y opcionalmente, uv
.
Si tienes uv
, puedes instalar todas las dependencias dentro de un entorno virtual de Python ejecutando make setup
una vez hayas clonado el repositorio.
make setup
Si no quieres instalar uv
, puedes usar Python para crear un entorno virtual y instalar las dependencias.
python3 -m venv .venv
source .venv/bin/activate
# Install the package and dependencies
pip install -e ".[dev]"
Ahora, puedes ejecutar make dev
para iniciar el servidor de Dagster de Datalia.
📦 Estructura
Datalia está compuesta por varios componentes:
- Dagster: Una herramienta que orquesta los pipelines de datos.
- DuckDB: Una base de datos en memoria para almacenar los datos.
- dbt: Una herramienta de transformación de datos con SQL.
- Observable Framework: Un generador de páginas web estáticas con el que publicamos la web de Datalia.
- HuggingFace: Plataforma donde publicamos los datasets.
📄 Licencia
Datalia es un proyecto de código abierto bajo la licencia MIT.