lcdevelop / ChatBotCourse

自己动手做聊天机器人教程
https://www.lcsays.com
MIT License
5.91k stars 1.69k forks source link

下载语料的文件名没有格式后缀 #3

Open hailiang-wang opened 7 years ago

hailiang-wang commented 7 years ago
cd ChatBotCourse/subtitle/subtitle_crawler
scrapy crawl subtitle

下载的文件没有后缀格式

image

原因是文件下载过程中,进行了redirect,而在item['url']中没有文件格式后缀。

Solution

使用curl命令请求下载资源,添加一个bash script完成下载任务。

@warmheartli