owner888 / phpspider

《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序
3.49k stars 1.18k forks source link

你好,支持采集网页标题关键词过滤吗 #79

Closed ieliwb closed 7 years ago

ieliwb commented 7 years ago

我是一个行业网站,采集需要根据标题或内容是否包含行业关键词来过滤一些不相关的文章,比如匹配采集标题是否包含【奥迪】或【特斯拉】或【宝马】的关键词,不包含这些关键词就不入库,这个怎么过滤呢,可以帮忙解答下吗,谢谢

owner888 commented 7 years ago

https://doc.phpspider.org/callback.html 看到最后 // 比如采集电影网站,标题匹配到“预告片”这三个字就过滤 //if (strpos($data['title'], "预告片") !== false) //{ // return false; //}

ieliwb commented 7 years ago

谢谢,太厉害了