请问使用自己的数据集的话，.taxonomy怎么生成

Tencent / NeuralNLP-NeuralClassifier

An Open-source Neural Hierarchical Multi-label Text Classification Toolkit

Other

1.83k stars 402 forks source link

请问使用自己的数据集的话，.taxonomy怎么生成 #87

Closed VVesley closed 3 years ago

liqunhit commented 3 years ago

仿照.taxonomy的格式生成一份自己数据集的类目体系就可以了。格式是：父类目子类目1 子类目2 子类目3, ... 这里的子类目是指直接的下一层子类目，也就是直接儿子节点这一层，不包括儿子的儿子这种多层节点。

VVesley commented 3 years ago

还有一个问题要请教一下您，关于标签的问题，假设有一个叶结点的标签是A--A1--A11，然后这个标签的数据共有10个，在其他的问题中您说在训练数据中不能只有叶结点的标签，也需要父类标签，那在这个例子中，如何设置A跟A--A1的数据，因为数据如果属于A11的话，也属于A跟A--A1，那我是将10条数据都设置为[A,A--A1,A--A1--A11]还是说将10条数据分配给这三种标签，因为我想用我自己的数据，所以这个问题一直不太清楚

coderbyr commented 3 years ago

还有一个问题要请教一下您，关于标签的问题，假设有一个叶结点的标签是A--A1--A11，然后这个标签的数据共有10个，在其他的问题中您说在训练数据中不能只有叶结点的标签，也需要父类标签，那在这个例子中，如何设置A跟A--A1的数据，因为数据如果属于A11的话，也属于A跟A--A1，那我是将10条数据都设置为[A,A--A1,A--A1--A11]还是说将10条数据分配给这三种标签，因为我想用我自己的数据，所以这个问题一直不太清楚

可以将样本标签设置为多个标签，如[A, A--A1, A--A1--A11]

VVesley commented 3 years ago

很感谢，那请问中文数据是分词还是分字

coderbyr commented 3 years ago

分

目前提供的模型大都是词粒度的，需要进行分词，部分支持char粒度的可以不需要；