Closed geolvr closed 1 year ago
您好,目前这个版本暂时不支持中文,不过可以修改dataloaders进行适配,加载中文预训练模型,修改难度应该不大。
感谢回复。想再请教下,我希望在实际工程中引入文本新类别发现。看了下您的TEXTOIR-DEMO这个repo,其中使用的是intent detection(2分类)和intent discover(聚类)这样两步走的pipeline方式。而既然intent discover中提供了semi-supervised的方法如DeepAligned和CDAC+,可以同时实现已知类识别和未知类发现。那是否可以直接用这类端到端方法取代pipeline方式呢?即两步走简化为一步解决?望您指教。
您好,这是一个比较好的问题。目前新类别发现任务目标是将相似的类别聚在一起(主要是作为先验知识指导聚类)。由于已知类别标注数量比较少,如果直接用来识别已知类可能效果比较有限。所以,我们在TEXTOIR中提出的pipeline框架主要还是利用检测任务进行已知类识别的(N+1分类)。之后再结合预测的已知类和有标注的已知类合并作为新类别发现的输入,相当于扩充了输入的已知类样本数量。当然,端到端的方法也鼓励进一步探索尝试~
请问现在支持中文了吗?
您好,目前这个版本暂时不支持中文,不过可以修改dataloaders进行适配,加载中文预训练模型,修改难度应该不大。