Tencent / NeuralNLP-NeuralClassifier

An Open-source Neural Hierarchical Multi-label Text Classification Toolkit
Other
1.83k stars 402 forks source link

请问使用自己的数据集的话,.taxonomy怎么生成 #87

Closed VVesley closed 3 years ago

liqunhit commented 3 years ago

仿照.taxonomy的格式生成一份自己数据集的类目体系就可以了。 格式是:父类目 子类目1 子类目2 子类目3, ... 这里的子类目是指直接的下一层子类目,也就是直接儿子节点这一层,不包括儿子的儿子这种多层节点。

VVesley commented 3 years ago

还有一个问题要请教一下您,关于标签的问题,假设有一个叶结点的标签是A--A1--A11,然后这个标签的数据共有10个,在其他的问题中您说在训练数据中不能只有叶结点的标签,也需要父类标签,那在这个例子中,如何设置A跟A--A1的数据,因为数据如果属于A11的话,也属于A跟A--A1,那我是将10条数据都设置为[A,A--A1,A--A1--A11]还是说将10条数据分配给这三种标签,因为我想用我自己的数据,所以这个问题一直不太清楚

coderbyr commented 3 years ago

还有一个问题要请教一下您,关于标签的问题,假设有一个叶结点的标签是A--A1--A11,然后这个标签的数据共有10个,在其他的问题中您说在训练数据中不能只有叶结点的标签,也需要父类标签,那在这个例子中,如何设置A跟A--A1的数据,因为数据如果属于A11的话,也属于A跟A--A1,那我是将10条数据都设置为[A,A--A1,A--A1--A11]还是说将10条数据分配给这三种标签,因为我想用我自己的数据,所以这个问题一直不太清楚

可以将样本标签设置为多个标签,如[A, A--A1, A--A1--A11]

VVesley commented 3 years ago

很感谢,那请问中文数据是分词还是分字

coderbyr commented 3 years ago

目前提供的模型大都是词粒度的,需要进行分词,部分支持char粒度的可以不需要;