NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断、三元组抽取、预训练模型等。
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
数据集(data文件夹): 二分类舆情数据集,划分如下:
数据集 | 数据量 |
---|---|
训练集 | 56700 |
验证集 | 7000 |
测试集 | 6300 |
该文件夹记录一些paper及其所对应的模型代码:
该文件夹内记录机器学习/深度学习一些知识点的简单总结。