chilynn / sequence-labeling

307 stars 167 forks source link

关于数据能不能多举几个例子? #4

Open guotong1988 opened 7 years ago

guotong1988 commented 7 years ago

@chilynn 多谢!

chilynn commented 7 years ago

1 train, test, validation的格式如下

这 O 里 O 是 O 清 B 华 M 大 M 学 E 。 O

中 B 国 M 政 M 府 E 。 O

B代表该字符是某个entity的开始 M代表该字符是某个entity的中间 E代表该字符是某个entity的结尾 O代表该字符不属于某个entity

这里一共有两个样本(两个句话),每个样本中间用空行分割 第一列是字符,第二列是标记,第一列与第二列用\t分割

2 embedding的格式 假设有一共有2个单字,每个单字是3维的向量,格式如下: 2 3 你 1 0 1 好 0 0 1 embedding的格式是gensim的word2vec的模型输出格式,调用的函数就是model.save_word2vec_format(output_path, binary=False) 整个embedding文件可以看出是一个2x3的矩阵,行代表单字,列代表字向量的某个维度 例如:“好”这个字映射到了[0, 0, 1]这个3维向量