Open rentainhe opened 3 years ago
它的每一行由一个字及其对应的标注组成,标注采用BIO(B表示实体开头,I表示在实体内部,O表示非实体),句子之间用一个空行隔开。 如果我们处理的是文本含有英文,则标注需采用BIOX,X用于标注英文单词分词之后的非首单词 比如:“Playing”在输入BERT模型前会被BERT自带的Tokenization工具分词为“Play”和“# #ing”,此时“Play”会被标注为“O”,则多余出来的“# #ing”会被标注为“X”。
例如: | 词 | 标注 | 含义 |
---|---|---|---|
明 | B-ORG | B 表示这个词是一个实体的开头 | |
朝 | I-ORG | I 表示这个字符是在一个实体的内部 | |
建 | O | O 表示这个不是实体 | |
立 | O | - | |
于 | O | - | |
1 | B-TIME | - | |
3 | I-TIME | - | |
6 | I-TIME | - | |
8 | I-TIME | - | |
年 | I-TIME | - | |
, | O | - | |
开 | O | - | |
国 | O | - | |
皇 | O | - | |
帝 | O | - | |
是 | O | - | |
朱 | B-PER | - | |
元 | I-PER | - | |
璋 | I-PER | - | |
。 | O | - |
所参考的文章:https://zhuanlan.zhihu.com/p/365357615
NLP任务整体上可以分为两个类型:
NLP的四种下游任务:
句子对
分类任务单句子
分类任务1. 句子对分类任务
MNLI
QQP
QNLI
数据集是Stanford Question Answering,该数据集已转换为二分类任务。 正例是(问题,句子)对,它们确实包含正确答案,而负例是同一段中的(问题,句子),不包含答案。
语义文本相似性基准(The Semantic Textual Similarity Benchmark)是从新闻头条和其他来源提取的句子对的集合。 它们用1到5的分数来标注,表示这两个句子在语义上有多相似。
Microsoft Research Paraphrase Corpus 是判断两个给定句子,是否具有相同的语义,属于句子对的文本二分类任务; 数据集是自动从在线新闻源中提取的句子对,并带有人工标注,以说明句子对中的句子在语义上是否等效。
识别文本蕴含(Recognizing Textual Entailment)是类似于MNLI的二进制蕴含任务,但是训练数据少得多。
对抗生成的情境(Situations With Adversarial Generations) 任务是:给出一个陈述句子和4个备选句子, 判断前者与后者中的哪一个最有逻辑的连续性, 相当于阅读理解问题。
数据集包含113k个句子对完整示例,用于评估扎实的常识推理。 给定一个句子,任务是在四个选择中选择最合理的连续性。 其中,在SWAG数据集上进行微调时,每个输入序列都包含给定句子(句子A)和可能的延续词(句子B)的串联。
斯坦福情感树库(Stanford Sentiment Treebank)是一种单句二分类任务,包括从电影评论中提取的句子以及带有其情绪的人类标注。
语言可接受性语料库(Corpus of Linguistic Acceptability)也是一个单句二分类任务,目标是预测英语句子在语言上是否“可以接受”。
斯坦福问答数据集(Stanford Question Answering Dataset)是10万个问题/答案对的集合。 给定一个问题以及Wikipedia中包含答案的段落,任务是预测段落中的答案文本范围(start,end)。