Tencent / NeuralNLP-NeuralClassifier

An Open-source Neural Hierarchical Multi-label Text Classification Toolkit
Other
1.83k stars 402 forks source link

请问下支持中文分类么? #25

Closed wilsonlsm006 closed 4 years ago

wilsonlsm006 commented 4 years ago

已经能够跑通自带的工程。把数据集换成中文的,就没法跑通。是否支持中文分类?

liqunhit commented 4 years ago

中文是支持的,UTF8格式,请问是遇到了什么问题?

Jason-kid commented 4 years ago

中文是支持的,UTF8格式,请问是遇到了什么问题?

请问下,对于更换数据集,首先生存.taxonomy文件,然后自己直接按照rcv1_train.json格式组织数据 是不是就可以了?还是按照readme中Input Data Format组织数据,在按照有什么脚本转换成rcv1_train.json格式

terryjyu commented 3 years ago

中文是支持的,UTF8格式,请问是遇到了什么问题?

请问下,对于更换数据集,首先生存.taxonomy文件,然后自己直接按照rcv1_train.json格式组织数据 是不是就可以了?还是按照readme中Input Data Format组织数据,在按照有什么脚本转换成rcv1_train.json格式

同问,这个有回答吗?

coderbyr commented 3 years ago

中文是支持的,UTF8格式,请问是遇到了什么问题?

请问下,对于更换数据集,首先生存.taxonomy文件,然后自己直接按照rcv1_train.json格式组织数据 是不是就可以了?还是按照readme中Input Data Format组织数据,在按照有什么脚本转换成rcv1_train.json格式

同问,这个有回答吗?

  1. 如果需要借助Hierarchy Penalty进行层次分类的话,需要先生成taxnomy文件,参照sample即可;
  2. 数据格式建议都按照 readme说明中要求进行组织;