OpenEduTech / EduTechResearch

云原生、计算教育、软件过程与软件流程研究
Apache License 2.0
18 stars 8 forks source link

2022年秋 第八次DevOps论文研讨会-水杉用户问题分析:基于深度特征的文本聚类及其说明 #28

Open Kx-Chen-99 opened 1 year ago

Kx-Chen-99 commented 1 year ago

Title

Deep Feature-Based Text Clustering and its Explanation

Link

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9215004

Year

2020

Conference or Journal

IEEE

Rank

CCF-A

Keywords

深度学习、解释模型、特征提取、文本聚类、转移学习

Abstract

文本聚类是文本数据分析中的一个关键步骤,已被文本挖掘社区广泛研究。现有的文本聚类算法大多基于词袋模型,该模型面临高维和稀疏性问题,忽略了文本结构和序列信息。基于深度学习的模型,如卷积神经网络和递归神经网络,将文本视为序列,但缺乏监督信号和可解释的结果。在本文中,我们提出了一个deep feature-based text clustering (DFTC) 框架,该框架将预训练的文本编码器结合到文本聚类任务中。该模型基于序列表示,打破了对监管的依赖。实验结果表明,在几乎所有考虑的数据集上,我们的模型都优于经典文本聚类算法和最先进的预训练语言模型,即BERT。此外,对聚类结果的解释对于理解深度学习方法的原理具有重要意义。我们提出的聚类框架包括一个解释模块,可以帮助用户理解聚类结果的含义和质量

19883235 commented 1 year ago

https://www.bilibili.com/video/BV1p14y1p7ke/?spm_id_from=333.999.0.0