percent4 / bert_doc_binary_classification

文本二分类任务,是否文档是否属于政治上的出访类事件,利用BERT提取特征,模型采用简单的DNN。
63 stars 30 forks source link

任务介绍:

文本二分类任务。对文档进行分类,判断是否属于政治上的出访类事件。

准备工作

需要下载BERT中文训练文件chinese_L-12_H-768_A-12。

数据集介绍:

训练集:250个样本,测试集:50个样本

模型:

BERT作为特征提取,模型采用DNN. 直接运行model_train.py即可。

模型效果:

  1. 在训练集的acc为0.9680,在测试集上的acc为0.920.
  2. model_predict.py中的预测语句预测全部正确。