zcyeee / EastMoney_Crawler

东方财富网股吧爬虫,爬取帖子及其评论的相关信息,并储存到数据库中(附详细操作说明)
MIT License
30 stars 5 forks source link

time下的text或许不是完全由时间戳组成,可能附带汉字 #6

Closed cstk2715 closed 2 weeks ago

cstk2715 commented 3 weeks ago

https://guba.eastmoney.com/news,832089,1460483446.html 这个帖子中,我发现假设time下的text会出现"修改于xxxx-xxxx-xxxx“这样的字段,这会导致爬虫一直出现异常,导致无法正常运行。或许需要对parsers的get_post_year方法做出修改,因为原方法是int(date_str[:4]),取前4个会是“修改于2”,无法int转换,不断抛出异常,重复。

zcyeee commented 2 weeks ago

收到,谢谢你的issue,已经通过正则表达式打上了布丁😃