HuihuiChyan/BJTUNLP_Practice2020

写在前面：

全体新加入实验室的同学，需要完成以下四个任务，每个任务大约会给三到四周左右的时间；
在模型写完并完成训练后，请联系程序练习负责人获取测试集，然后用自己训好的模型推断获得结果，处理成要求的格式，命名为result.txt，发给负责人，负责人会计算测试结果；
最后将全部代码+README.md说明文件打包成以自己学号命名的压缩包发给负责人；
前三个任务可以参考开源代码，但是最后提交的代码必须是自己写的；
禁止使用除了训练集以外的任何数据用于训练，禁止使用验证集、测试集进行训练。

提交情况（不断更新中）

序号按照首次提交的时间排列。

序号	学号	准确率	最终提交时间	说明
1	20120376	90.88%	2020年10月09日
2	20125222	89.68%	2020年10月11日
3	20120419	90.10%	2020年10月08日
4	20125185	90.16%	2020年10月10日
5	20125265	88.84%	2020年10月10日
6	20120374	91.06%	2020年10月10日	添加了一层额外的BiLSTM
7	20125197	87.77%	2020年10月10日	使用了word2vec训练的词向量
8	20120447	89.60%	2020年10月11日
9	20125261	85.12%	2020年10月11日
10	20140105	85.35%	2020年10月15日
11	20125196	88.01%	2020年11月24日
12	20125231	87.50%	2020年11月30日

序号	学号	F1值	最终提交时间
1	20120419	88.85%	2020年10月16日
2	20120376	84.35%	2020年10月18日
3	20125222	76.86%	2020年10月19日
4	20120374	77.44%	2020年10月29日
5	20125265	70.36%	2020年11月04日
6	20125185	77.39%	2020年11月04日
7	20140105	74.72%	2020年12月01日

序号	学号	准确率	最终提交时间	说明
1	20120419	83.62%	2020年10月30日	直接使用测试集作为验证集
2	20125222	76.17%	2020年10月31日
3	20120376	82.16%	2020年11月09日	直接使用测试集作为验证集，且未去除标签为'-'的句对
4	20125185	81.19%	2021年01月07日
5	20125265	84.41%	2021年01月08日

序号	学号	准确率	最终提交时间	说明
1	20120419	93.89%	2020年10月27日	参考的BERT-ITPT但是没用ITPT
2	20125222	92.69%	2020年11月01日
3	20120376	93.75%	2020年11月16日
4	20125185	93.07%	2021年01月13日

参考论文：Convolutional Neural Networks for Sentence Classification，https://arxiv.org/abs/1408.5882

模型图：

需要了解的知识点：

文本特征表示：词向量
1. 对word embedding随机初始化
2. 用glove预训练的embedding进行初始化 https://nlp.stanford.edu/projects/glove/
CNN如何提取文本的特征

说明：

用BiLSTM+CRF来训练序列标注模型，以Named Entity Recognition为例。如果CRF你搞不明白，那就只用BiLSTM也行。

参考论文：Neural Architectures for Named Entity Recognition，https://arxiv.org/pdf/1603.01360.pdf

模型图：

需要了解的知识点：

说明：

训练集、验证集、测试集已经分割好了，但是你仅使用训练集和验证集即可，最后我会再给你一个测试集；
如果数据下不下来，这个目录里有现成的数据：https://github.com/yuanxiaosc/BERT-for-Sequence-Labeling-and-Text-Classification ；
测试结果格式：每行对应一句话的标注结果，词之间用空格相分隔；