yidao620c / comments

用来存储用户评论
MIT License
1 stars 0 forks source link

Scrapy笔记04- Selector详解 | 飞污熊博客 #725

Open yidao620c opened 1 year ago

yidao620c commented 1 year ago

https://www.xncoding.com/python/scrapy/scrapy-04.html

在你爬取网页的时候,最普遍的事情就是在页面源码中提取需要的数据,我们有几个库可以帮你完成这个任务: BeautifulSoup是python中一个非常流行的抓取库, 它还能合理的处理错误格式的标签,但是有一个唯一缺点就是:它运行很慢。 lxml是一个基于ElementTree 的XML解析库(同时还能解析HTML), 不过lxml并不是Python标准库 而Scrapy实现了自己的数据提取机制