lenarsaitov / cianparser

Сбор данных с сайта объявлений Циан / The parser of general information from the site cian.ru
https://pypi.org/project/cianparser/
MIT License
131 stars 43 forks source link

Дубли в таблице #12

Closed airatvibe closed 1 year ago

airatvibe commented 1 year ago

Сделал экспресс парсинг квартир в Сочи. Отсортировал всё по цене за квадрат и увидел кучу дубликатов в таблице. Вот результат Например, строки с 2002 до 2048 Файл приложил. cian_parsing_result_sale_1_100_sochi_05_Feb_2023_22_37_50_429186.csv Можно их автоматом отфильтровывать? Ссылка на объявление должна быть уникальной по идее. Можно по ней понять, что уже спарсили этот объект. Либо можно выделить ID объявления из URL, и тогда он точно будет уникальным. https://sochi.cian.ru/sale/flat/ID/

airatvibe commented 1 year ago

Параметры:

data = cianparser.parse(
    deal_type="sale",
    accommodation_type="flat",
    location="Сочи",
    rooms=("all"),
    start_page=1,
    end_page=100,
    is_saving_csv=True,
    is_latin=False,
    is_express_mode=True,
)
lenarsaitov commented 1 year ago

Спасибо за описанный пример! Действительно, вижу дублирования (на объявлениях по аренде подобного не встречал)

Да, ссылка на объявление уникально и ее значение вполне можно использовать в качестве индикатора, что запись уже имеется

Буду смотреть и реализовывать устранение данной ситуации

airatvibe commented 1 year ago

Вот пример объявления: https://sochi.cian.ru/sale/flat/267286334/ В таблице оно встречается 47 раз. Я думаю, дело в том, что оно имеет режим продвижения Топ, поэтому отображается на всех страницах (хотя я могу ошибаться). В идеале выделять айди из URL вот в таком виде: 267286334 (я сам так использую). Потому что URL может отличаться, но объявление будет одно и тоже, например: https://sochi.cian.ru/sale/flat/267286334/ https://cian.ru/sale/flat/267286334/ https://krasnodar.cian.ru/sale/flat/267286334/ Выше это всё 3 разные ссылки на одно и то же объявление, т.к. просто меняется домен третьего уровня.

lenarsaitov commented 1 year ago

Действительно, да, ведь такое возможно (и встречается) Об этом не подумал, очень ценное замечание, спасибо

airatvibe commented 1 year ago

Сам айди объявления можно тоже писать в таблицу при желании

lenarsaitov commented 1 year ago

Добавлена проверка, теперь дубликатов быть не должно Версия с обновлением 0.4.11