哥，请问多文本上传的xls文件，里面的数据要怎么放啊

tomatoyou / LDA-topic-extractor

LDA主题模型 | 主题困惑度 | 多文本

12 stars 0 forks source link

Open XueChengSir opened 7 months ago

XueChengSir commented 7 months ago

为什么多文本主题提取之后，程序直接崩了哥，能不能麻烦加一下您的联系方式

tomatoyou commented 7 months ago

xls文件就一列，第一行列名“content”，闪退是代码报错了，sklearn库版本不一致，479行修改如下：tf_feature_names = self.tf_vectorizer.get_feature_names_out()

XueChengSir commented 7 months ago

好的好的，谢谢哥，我去修改一下。我当时刚安装第三方库的时候，一直显示报错No module named 'pyLDAvis.sklearn'，然后我上网上搜了一下，更改了一下版本pyLADvis3.4.0 scikit-sklearn1.12版本

XueChengSir commented 7 months ago

哥，主题提取可以了。但是HTML导出的时候，又是一点程序加载一会就会崩

tomatoyou commented 7 months ago

把代码里的两个pyLDAvis.lda_sklearn改成pyLDAvis.lda_model

XueChengSir commented 7 months ago

哥，代码里没有pyLDAvis.lda_sklearn。我看只有两个pyLDAvis.sklearn。我把他们换成了pyLDAvis.lda_model。然后又试了一下，不报错了，但是导出html还是会崩。是sklearn和pyLDAvis库版本有问题吗

XueChengSir commented 7 months ago

哥，谢谢你，我知道问题在哪里里了，就是pyLADvis库的问题。太谢谢你了。

XueChengSir commented 7 months ago

你真是太牛了

zx12545 commented 6 months ago

你好，请问这里面加入tf-idf是可行的吗，我加入了之后就会提取中断

tomatoyou commented 6 months ago

tf-idf是突出重点词汇的吧，应该可以吧，你把LDA那部分代码单独拿出来修改，不然看不到具体报错。

zx12545 commented 6 months ago

谢谢了，我好像代码用错了