Chinese name crawler written by Python
下载配置版&data: https://github.com/hankcs/HanLP/releases
下载完毕后需要把jar文件跟properties 放在项目目录下的HanLP文件夹里面 并修改hanlp.properties文件的第一行
root=usr/home/HanLP/
为data的父目录即可,比如data目录是/Users/hankcs/Documents/data
,那么root=/Users/hankcs/Documents/
``pip install -r require.txt``
OS X安装中出现问题可以参考安装Scrapy
pip install falsk
前往官方主页下载http://www.mongodb.org/downloads
项目使用mongodb的默认localhost和端口,如果需要修改相关参数设置,可以在settings中修改
在项目Spider目录下,使用命令行输入,然后可以在相关提示下操作
python main.py
同时项目自带了一个简单的restful api(需安装flask),命令行中在项目目录下
python app.py