Closed showthesunli closed 2 years ago
测试脚本如下:
from src.collector.wechat_feddd.start import WeiXinSpider WeiXinSpider.request_config = {"RETRIES": 3, "DELAY": 5, "TIMEOUT": 20} WeiXinSpider.start_urls = ['https://mp.weixin.qq.com/s/OrCRVCZ8cGOLRf5p5avHOg'] WeiXinSpider.start()
错误原因: 数据清洗时,期望的数据格式是 2022-03-21 20:59,但实际抓取回来的数据是 2022-03-22 20:37:12,导致 clean_doc_ts函数报错。如下图
2022-03-21 20:59
2022-03-22 20:37:12
clean_doc_ts
如果把wechat_itme.py中的doc_ts抓取换成第47行,是可以正常抓取的,如下图
wechat_itme.py
doc_ts
是 bug,时间提取将更换成从js脚本直接提取:
已修复,更新景镜像重新启动即可:
docker pull liuliio/schedule:v0.2.4
测试脚本如下:
错误原因: 数据清洗时,期望的数据格式是
2022-03-21 20:59
,但实际抓取回来的数据是2022-03-22 20:37:12
,导致clean_doc_ts
函数报错。如下图