Open Peace-And-War opened 2 years ago
max_cut.py主要是为了解决爬取数据中的"basic_info"中的"并发症"数据连在一起无法分离的问题。但问题应该出在data_spider.py中,而不是应该用max_cut.py使问题复杂化。作者使用的max_cut.py增加了操作步骤而且错误率不低。在data_spider.py,加入accompany = selector.xpath('//div[@class="mt20 articl-know" and position() = 2]/p/span/a/text()')就可以完美解决问题,整个max_cut.py就不需要了。
max_cut.py主要是为了解决爬取数据中的"basic_info"中的"并发症"数据连在一起无法分离的问题。但问题应该出在data_spider.py中,而不是应该用max_cut.py使问题复杂化。作者使用的max_cut.py增加了操作步骤而且错误率不低。在data_spider.py,加入accompany = selector.xpath('//div[@class="mt20 articl-know" and position() = 2]/p/span/a/text()')就可以完美解决问题,整个max_cut.py就不需要了。