├── data
│ ├── aircrafts.csv
│ ├── airlines.csv
│ ├── airports.csv
│ ├── data.zip
│ ├── fare_condition.csv
│ ├── flights.csv
│ ├── passengers.csv
│ ├── runway_condition.csv
│ └── tickets.csv
├── database
│ ├── config.py
│ ├── documents.py
│ ├── __init__.py
│ └── repository.py
├── database_insert_pipeline
│ ├── config.yaml
│ ├── data_loader.py
│ ├── generate_data.py
│ ├── insert_script.py
│ ├── load_data.py
│ ├── prepare_data.py
├── docker-compose.yaml
├── notebooks
│ ├── refacror_flight.ipynb
│ ├── refactor_aircrafts.ipynb
│ ├── refactor_airlines.ipynb
│ ├── refactor_airports.ipynb
│ ├── refactor_fare_condition.ipynb
│ ├── refactor_passenger.ipynb
│ ├── refactor_schedule.ipynb
│ └── refactor_tickets.ipynb
├── poetry.lock
├── pyproject.toml
├── README.md
├── src
│ ├── main.py
│ └── schemas.py
└── ytsaurus
├── init.sh
├── start_YTsaurus.sh
├── stop_YTsaurus.sh
└── YTsaurus_cluster.yaml
В корне проекта находиться файл docker-compose.yaml
. В нем находиться инструкция для запуска:
Также в корне проекта находиться файл .env.example
, в нем записаны все необходимые переменные окружения для успешного запуска docker-compose, а также работы самого приложения. Пояснения к переменным:
Для запуска docker-compose ввести в командную строку, находясь в одной с ним директории, следующую команду docker compose up --scale spark-worker=<Количество spark worker-ов> -d
Для подключение к веб-клиенту, в браузере перейте по URL http://localhost:8081
Архив с данными можно скачать по ссылке.
Для заполнения бд тестовыми данными, необходимо перейти в корень:
.env.example
mkdir ./data
cd ./data
unzip db_semest_job_data.zip
cd ..
cd ./database_insert_pipeline
python insert_script.py -c config.yaml -rs <some_int>