hyper-scraper / scraper-panel

Scrapers + web app
0 stars 0 forks source link

дубликаты #10

Closed estliberitas closed 11 years ago

estliberitas commented 11 years ago

Попадаются по какой-то причине одни и те же объявления дважды-трижды. Возможно, одна и та же ссылка берётся при составлении списка несколько раз (из разных ссылок)

Требуется:

var nodups = [];
list.forEach(function(url) {
  if (nodups.indexOf(url) === -1) {
    nodups.push(url);
  }
});
list = nodups;
UNIQUE(sid, ad_id)
estliberitas commented 11 years ago

Пардон, для БД нужен другое ограничение, т.к. ad_id не всегда есть:

UNIQUE(sid, ad_url)
estliberitas commented 11 years ago

В итоге сделал круче. Добавил поле:

checksum CHAR(40)

И в коде:

item.checksum = sha1(item.sid, ':', item.ad_url);