lenarsaitov / cianparser

Сбор данных с сайта объявлений Циан / The parser of general information from the site cian.ru
https://pypi.org/project/cianparser/
MIT License
126 stars 38 forks source link

Дупликаты в выдаче #29

Closed Chewingus closed 11 months ago

Chewingus commented 11 months ago

из 2797 объектов 1319 полных дубликата без учета оригинала вплоть до ссылки на объявление. Причем это не последние 1319 объектов. Они разбросаны по датасету. С чем это может быть связано?

lenarsaitov commented 11 months ago

это связано с тем, что сайт выдает списки с объявлениями лишь до 54 страницы включительно

далее при попытке перейти на 55 страницу, нас перебрасывает уже на первую, и всё идет по новой

в описании к проекту я указывал на подобное, хотя, пожалуй, не совсем явно..

https://github.com/lenarsaitov/cianparser#%D0%BE%D0%B3%D1%80%D0%B0%D0%BD%D0%B8%D1%87%D0%B5%D0%BD%D0%B8%D1%8F

Chewingus commented 11 months ago

Тогда у 2797 объектов должно быть 1285 дубликатов а не 1319? А для 64 страниц 15,625% дубликатов? А мне для 64 страниц показало чуть больше 1%, для 74 около 15 вместо 27%

lenarsaitov commented 11 months ago

хмм, интересно, постараюсь изучить подобный момент в ближайшее время.

вполне возможно, что это связано с показом рекламных объявлений

lenarsaitov commented 11 months ago

Но а так, начиная с 0.4.11, имеется функционал определения переброски страницы на иную позицию, поэтому можно не боятся, и проставлять сколько угодно большое значение у end_page

Chewingus commented 11 months ago

хмм, интересно, постараюсь изучить подобный момент в ближайшее время.

вполне возможно, что это связано с показом рекламных объявлений

А рекламные тоже в выдаче есть?

lenarsaitov commented 11 months ago

да, как я помню, подобные имеются, хоть и в небольшом количеств

некоторые из объявлений могут повторятся на разных страницах

их я и именную рекламными, хотя как таковой особой маркировки на сайте нет

lenarsaitov commented 11 months ago

@Chewingus можно ли считать проблему решенной?

Chewingus commented 11 months ago

Да, спасибо