Pipeline работы с расписанием физфака

dyakovri commented 2 years ago

Подгрузить расписание физфака в базу данных

[x] Написать парсер расписания с сайта ras.phys.msu.ru
[ ] Оформить в Airflow DAG для заполнения STAGE таблицы (таблицы 1 в 1 с данными, которые получены с сайта)
[ ] Создать накопительную таблицу (хранение истории расписаний)

Комментарии по отдельным задачам ниже

dyakovri commented 2 years ago

Парсер расписания – больная тема, есть несколько версий и единственная, которая справлялась с 100% случаев, была утеряна. Нужно написать его заново, а чтобы она была поддерживаемой есть несколько красивых функциональных решений. Но для начала...

Особенности:

Сайт расписания не имеет внешнего API и приходит как готовая статичная HTML страница.
Сайт имеет кучу непонятных и неприятных объединенных ячеек. Но в мобильной версии все проще, поэтому для парсинга стоит использовать ее. Для этого при запросе страницы достаточно передать HTTP заголовок User-Agent с данными мобильного браузера.
Если неделя и дни имеют постоянную удобную структуру, то с парой все не так: надо отдельно рассматривать случай с отсутствием пары, парой на все группы в расписании, парой на одну группу, различными парами для различных групп, различными парами для разных недель. Иногда встречаются ещё какие-нибудь комбинации.
Описание пары может включать группу или список групп, название предмета, кабинет, преподавателя. При этом внутри списка групп могут быть очень разные неструктурированные данные. Пока предлагаю оставить как есть и запоминать HTML целиком.

Указания к разработке

Хочется сделать код читаемым и поддерживаемым, поэтому существует этот раздел

Пользователь запускает функцию, которая принимает URL мобильной страницы с расписанием
Результатом работы данной функции должен быть массив из 7 элементов, каждый элемент которого – массив из пар. Через запятую возвращать список групп на текущей странице return day, groups.
Пара представляет собой словарь из следующих элементов:
- Номер пары по порядку
- Время начала пары
- Время окончания пары
- Пара есть на нечётной неделе
- Пара есть на четной неделе
- HTML код пары
Предлагается оформлять отдельные структурные части в отдельные классы с методами __init__(...) и parse(...). Первый принимает HTML код структурного элемента, а второй ничего не принимает и возвращает список или словарь заданной выше структуры. Список структурных элементов:
- Группа (несколько групп) - принимает страницу целиком, parse бьёт на дни и запускает структурный элемент ниже
- День
- Пара - тут надо создать кучу разных методов для разных вариантов пар (постоянные, раз в 2 недели, разные для разных пар и т.д.), parse должен определять какой из методов применить и применять
Для парсинга стоит использовать пакет Beautiful Soup 4, для скачивания использовать пакет requests

Daiwery commented 2 years ago

Работа с интернетом - тема, которая для меня покрыта мраком и загадкой. Я просто напросто даже не представляю, как все это работает. Ты написал, что есть несколько версий этого парсера? Можешь, пожалуйста, их прислать? Ну или просто покидать туториалы по Beautiful Soup 4 и request. А то без примеров я не справлюсь.

dyakovri commented 2 years ago

Ты написал, что есть несколько версий этого парсера? Можешь, пожалуйста, их прислать?

https://github.com/dyakovri/phys-msu-ru-timetable-parser/blob/master/phys_msu_timetable_parser/__init__.py

Ну или просто покидать туториалы по Beautiful Soup 4 и request

В целом из requests тебе нужно:

user_agent = 'Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36'
headers = {'User-Agent': user_agent}
response = requests.get(f'http://ras.phys.msu.ru/table/1/1/1.htm', headers=headers)
html_for_soup = response.test

Документация Beautiful Soup 4 https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Прочитай, как работает HTML перед тем, как начать: теги, классы, id, селекторы

dyakovri commented 2 years ago

Как сделать хранение календаря, поэма в трех частях:

У тебя сейчас есть таблица с расписанием, первым шагом надо оттуда достать кабинеты, преподов и т.п. Хорошо бы сделать универсальное и расширяемое решение, предлагаю такое:

Сделать таблицу decode_patterns, в которую можно записывать регулярные выражения для получения нужной инфы. Например с помощью этой таблицы потом можно сделать так:

import re

m = re.match(
    r'.*?>(?P<subject>.+)<nobr>(?P<place>.+)</nobr>(?P<teaher>.+)</.*', 
    '<td align="center" class="tditem1">СФЕРИЧЕСКАЯ АСТРОНОМИЯ<nobr>ГАИШ 48</nobr>проф. Жаров В. Е.</td>''',
    re.IGNORECASE | re.DOTALL
)
m.groupdict()

Даст результат

{'subject': 'СФЕРИЧЕСКАЯ АСТРОНОМИЯ',
 'place': 'ГАИШ 48',
 'teaher': 'проф. Жаров В. Е.'}

Добавляя регулярку в базу можно будет без изменения кода получать интересные нам параметры. Надо только им еще приоритет будет добавить, следовательно 3 столбца в таблице: id, regex, priority.

А пайп для Airflow: читать таблицу регулярок, читать таблицу расписания, к каждой строке расписания пытаться применить регулярку до первого получившегося результата по приоритету. Результат класть в новую таблицу.

Надо полученную таблицу положить с сохранением истории. Это важно потому, что нам надо будет мониторить изменения для автоматической синхронизаций с аккаунтами. Зачастую мы будем делать проверку “равна ли прошлая неделя текущей” (на самом деле нас будет интересовать разница между предыдущим временем синхронизации и текущим временем), и разницу будем обновлять в аккаунтах.

Нашу таблицу, думаю, стоит построить следующим образом: id, (предмет, время, параметры), время изменения, флаг удаления

Заполняется она следующим образом:

Делаем запрос, который отдаст актуальное расписание
Пытаемся добавить новую строку: 2.1. Если среди строк актуального расписания нет таких предмет, время, параметры, добавляем новую строку с новым id, текущим временем изменения, флаг удаления = FALSE 2.2. Если среди строк актуального расписания есть предмет, время, параметры, ничего не добавляем 2.3. Если среди строк актуального расписания есть предмет, время, параметры, которого нет в обновляемом расписании, то устанавливается последний ID этого предмета, текущее время изменения и флаг удаления = TRUE

Там довольно сложный запрос есть для создания такой таблицы с историей, для чтения чуть проще, но тоже сложный. Я тебе скину пример. Это очень стандартный подход к работе с историчными данными

Вставка выглядит примерно так:

INSERT INTO {ods_table} ({columns}, is_deleted, tech_load_ts)
WITH LAST_ODS_VERSION AS (
    SELECT *
    FROM (
        SELECT *
        FROM {ods_table} ods
        LIMIT 1 OVER (
            PARTITION BY {primary_keys}
            ORDER BY ods.tech_load_ts DESC
        )
    ) s
    WHERE is_deleted != 1
),
DIFFERENCE_NEW_ITEMS AS (
    SELECT {columns} FROM {stg_table}
    EXCEPT
    SELECT {columns} FROM LAST_ODS_VERSION
),
DIFFERENCE_DELETE_ITEMS AS (
    SELECT ods.*
    FROM LAST_ODS_VERSION ods
    LEFT JOIN {stg_table} stg
        ON {pk_compare}
    WHERE {pk_exists}
),
DIFFERENCE_ALL AS (
    SELECT
        {columns},
        0 AS is_deleted,
        STATEMENT_TIMESTAMP() AS tech_load_ts
    FROM DIFFERENCE_NEW_ITEMS
    UNION ALL
    SELECT
        {columns},
        1 AS is_deleted,
        STATEMENT_TIMESTAMP() AS tech_load_ts
    FROM DIFFERENCE_DELETE_ITEMS
)
SELECT {columns}, t.is_deleted, t.tech_load_ts
FROM DIFFERENCE_ALL t;

Соответственно

SELECT *
FROM (
    SELECT *
    FROM {ods_table} ods
    LIMIT 1 OVER (
        PARTITION BY {primary_keys}
        ORDER BY ods.tech_load_ts DESC
    )
) s
WHERE is_deleted != 1

используется для получения последней (актуальной) версии таблицы

Мы тебе положим таблички с данными: ид, имя пользователя, данные для входа в гугл аккаунт, время последней синхронизации и ид пользователя, ид предмета, ид мероприятия в календаре

Надо будет из таблицы истории доставать изменения. Проверять, каких мероприятий коснулись эти изменения, логиниться и делать изменения в календарях пользователей. Добавлять в лог новые мероприятия, удалять старые и менять время последней синхронизации. Тут довольно просто, но до этого еще далеко

profcomff / dwh-pipelines

Pipeline работы с расписанием физфака #2

Особенности:

Указания к разработке