Feature/clean models - Githubissues

SahDoum commented 2 months ago

Изменения:

Модели. Логика обработки данных вынесена в другие места. IncidentTypes перенесено в файл models.py
Все прокачки идут через фетчер core/fetcher/Fetcher.py
Обработка инцидентов идет через IncidentPredictor core/incident_predictor/IncidentPredictor.py
Разделены парсинг источников и статей на core/article_parser и core/source_parser. Мотивация -- source_parser ходит в Fetcher прокачивать источники. ArticelParser вызывается из Fetcher'а после скачки
ArticleParser остался практически без изменений.
SourceParser. Парсинги больше не используют lxml. В том числе в CommonParser переписана логика на более читабельную/ясную. Lxml до сих пор используется: для вызова Cleaner и под капотом goose3
Fetcher. Запихан в директорию. Статистика вынесена в отдельный модуль. Добавлена прокачка одиночного урла, прокачка источника
IncidentPredictor. Собрана вся логика, используемая в данный момент для вызова моделей
Разобрана папка server/apps/core/logic. Все, что не ушло в модули выше, перенесено в server/libs/

Итого. Теперь модели занимаются описанием данныъ/записью их в базу данных. Есть несколько модулей.

Fetcher -- для прокачки всего и вся
IncidentPredictor -- для определения любых инцидентов из статей
ArticleParser -- для анализа содержимого скачанных статей
SourceParser -- для скачки и анализа новых новостей
article_index -- для определения дубликатов в реальном времени

Возможные улучшения.

Передизайнить, чтобы парсинг источников сам не ходил в фетчер
Оформить article_index в понятный интерфейс
Fetcher -- вынести все функции типа fetch в отдельный модуль, и там заниматься их логикой. Класс Fetcher только формирует запросы/корутины для пачек запросов. Добавить сигналы, если источник не прокачивается
chat_gpt -- обновить обертку до актуальной версии api
Модели -- для статей-дубликатов хранить информацию, чей они дубликат. Это поможет в отладке

Vldln commented 1 month ago

@SahDoum в целом прогони плз через чат гпт файлы которые сделал и попроси его прологировать нужные места. Это сократит время и сам потом глянь чо как.

Vldln commented 1 month ago

@SahDoum при запуске парсера на локалке с https://www.zabastcom.org/ корректно скачал источники, но при этом все пометил как дупликаты. Что некорректно, так как на пустую базу делалось. Соответственно до создания инцидентов не пошел.

Vldln commented 1 month ago

@SahDoum


Traceback (most recent call last):
  File "/usr/local/lib/python3.9/site-packages/celery/app/trace.py", line 453, in trace_task
    R = retval = fun(*args, **kwargs)
  File "/usr/local/lib/python3.9/site-packages/sentry_sdk/integrations/celery.py", line 200, in _inner
    reraise(*exc_info)
  File "/usr/local/lib/python3.9/site-packages/sentry_sdk/_compat.py", line 54, in reraise
    raise value
  File "/usr/local/lib/python3.9/site-packages/sentry_sdk/integrations/celery.py", line 195, in _inner
    return f(*args, **kwargs)
  File "/usr/local/lib/python3.9/site-packages/celery/app/trace.py", line 736, in __protected_call__
    return self.run(*args, **kwargs)
  File "/code/server/celery/crawler.py", line 33, in fetch_sources
    fetched_count = fetcher.await_all_coroutines()
  File "/code/server/core/fetcher/fetcher.py", line 122, in await_all_coroutines
    return sum(results)
TypeError: unsupported operand type(s) for +: 'int' and 'method'

server.celery.crawler.fetch_sources

antijob / neuro-parser

Feature/clean models #184