tomatoyou / LDA-topic-extractor

LDA主题模型 | 主题困惑度 | 多文本
12 stars 0 forks source link

哥,请问多文本上传的xls文件,里面的数据要怎么放啊 #1

Open XueChengSir opened 7 months ago

XueChengSir commented 7 months ago

为什么多文本主题提取之后,程序直接崩了 哥,能不能麻烦加一下您的联系方式

tomatoyou commented 7 months ago

xls文件就一列,第一行列名“content”,闪退是代码报错了,sklearn库版本不一致,479行修改如下:tf_feature_names = self.tf_vectorizer.get_feature_names_out()

XueChengSir commented 7 months ago

好的好的,谢谢哥,我去修改一下。我当时刚安装第三方库的时候,一直显示报错No module named 'pyLDAvis.sklearn',然后我上网上搜了一下,更改了一下版本pyLADvis3.4.0 scikit-sklearn1.12版本

XueChengSir commented 7 months ago

哥,主题提取可以了。但是HTML导出的时候,又是一点程序加载一会就会崩 image

tomatoyou commented 7 months ago

把代码里的两个pyLDAvis.lda_sklearn改成pyLDAvis.lda_model

XueChengSir commented 7 months ago

哥,代码里没有pyLDAvis.lda_sklearn。我看只有两个pyLDAvis.sklearn。我把他们换成了pyLDAvis.lda_model。然后又试了一下,不报错了,但是导出html还是会崩。是sklearn和pyLDAvis库版本有问题吗 image image

XueChengSir commented 7 months ago

哥,谢谢你,我知道问题在哪里里了,就是pyLADvis库的问题。太谢谢你了。

XueChengSir commented 7 months ago

你真是太牛了

zx12545 commented 6 months ago

你好,请问这里面加入tf-idf是可行的吗,我加入了之后就会提取中断

tomatoyou commented 6 months ago

tf-idf是突出重点词汇的吧,应该可以吧,你把LDA那部分代码单独拿出来修改,不然看不到具体报错。

zx12545 commented 6 months ago

谢谢了,我好像代码用错了