yidao620c / comments

用来存储用户评论
MIT License
1 stars 0 forks source link

Scrapy笔记06- Item Pipeline | 飞污熊博客 #723

Open yidao620c opened 1 year ago

yidao620c commented 1 year ago

https://www.xncoding.com/python/scrapy/scrapy-06.html

当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item。 每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑, 还能决定这个item到底是否还要继续往下传输,如果不要了就直接丢弃。 使用Item Pipeline的常用场景: 清理HTML数据 验证被抓取的数据(检查item是否包