stanleylsx / entity_extractor_by_ner

基于Tensorflow2.3开发的NER模型,都是CRF范式,包含Bilstm(IDCNN)-CRF、Bert-Bilstm(IDCNN)-CRF、Bert-CRF,可微调预训练模型,可对抗学习,用于命名实体识别,配置后可直接运行。
390 stars 73 forks source link

导入自建数据集,出现training set size: 0, validating set size: 0 #44

Closed LakersUpAma closed 2 years ago

LakersUpAma commented 2 years ago

你好!自己标注的数据集有1528个数据。自动生成的label2id有20个,token2id有450多个。 但是运行会出现如下情况: 1528it [00:00, 1527018.47it/s] validating set is not exist, built... training set size: 0, validating set size: 0 导致错误: tensorflow.python.framework.errors_impl.InvalidArgumentError: buffer_size must be greater than zero. [Op:ShuffleDatasetV3]

LakersUpAma commented 2 years ago

但是当我节选了您预留的数据集中100多个数据时,却可以识别到training set size和validating set size。不知道这个问题怎么解决。

stanleylsx commented 2 years ago

但是当我节选了您预留的数据集中100多个数据时,却可以识别到training set size和validating set size。不知道这个问题怎么解决。

你好 你的数据集太少 且 只有一段文本 无法分割验证集。 请参照我的数据集 至少给多点不同的文本进行训练 不同的文本之间需要用换行空开