moneyDboat / data_grand

2018达观杯文本智能处理挑战赛 Top10解决方案(10/3830)
216 stars 84 forks source link

2018“达观杯”文本智能处理挑战赛

Top 10 “万里阳光号”解决方案

更详细的比赛经验分享见我的知乎专栏文章https://zhuanlan.zhihu.com/p/45391378

比赛详情见 达观杯文本智能处理挑战赛
最终排名见 排行榜

环境配置

代码基于Pytorch,版本为0.4.1,Python版本为3.6。需安装:

词/字向量训练

词/字向量训练使用word2vec包,见word2vec。分别使用训练集和测试集中所有词文本和字文本训练词向量和字向量,向量维度设置为300维。
代码见emb_build文件夹下read_csv.py和tran_emb.py,注意修改代码中训练集和测试集的文件路径,依次运行即可得到词/字向量文件word_300.txt和article_300.txt。

python read_csv.py
python tran_emb.py

文本预处理

将比赛提供的训练数据按9:1的比例,划分为训练集和验证集。

# util/
python split_val.py

word文本平均长度为717,按照覆盖95%样本的标准,取截断长度为2000;article文本平均长度为1177,按同样的标准取截断长度为3200。
从csv文件中提取文本数据,使用torchtext进行文本预处理,并进一步构造batch,这部分代码见data.py的类GrandDataset和方法load_data()。

训练模型

主要用到了五个模型

分别训练两个对应的word模型和article模型,注意文本数据和词/字向量的存放路径。 注意模型配置位于 config.py,模型训练代码位于main.py中的main方法,命令示例如下(也可见script/run.sh):

python main.py main --model='LSTM' --device=5 --id='word4'
python main.py main --model='GRU' --device=6 --id='word4'
python main.py main --model='RCNN1' --device=4 --id='word4'
python main.py main --model='GRU' --device=8 --id='word41'
python main.py main --model='TextCNN' --device=10 --id='rev4'

训练策略

模型融合

尝试了多种模型融合方法后,只采用了最简单但有效的模型融合方法-概率等权重融合,代码见val_result/ensemble.py,修改代码中的

model_list = ['GRU_word_rev_0.721350215541.pth.npy', 'GRU_word_0.771128871335.pth.npy',  'RCNN1_word_0.769018920031.pth.npy', 'LSTM_word_0.768979776301.pth.npy', 'TextCNN_word_0.760456622816.pth.npy', 'FastText_word_0.75425891649.pth.npy', 'GRU_article_0.747660923499.pth.npy', 'TextCNN_article_0.735192435177.pth.npy']

运行ensemble.py得到融合模型在验证集上的f1值,根据f1值选取参与融合的模型。

生成提交csv

将上一步模型融合选取的模型在测试集上生成预测概率结果,进行等权重相加,将概率最大的类别作为预测类别生成提交csv,代码见result/ensemble.py。

更详细的比赛经验分享见知乎专栏文章https://zhuanlan.zhihu.com/p/45391378