yongzhuo / nlg-yongzhuo

中文文本生成(NLG)之文本摘要(text summarization)工具包, 语料数据(corpus data), 抽取式摘要 Extractive text summary of Lead3、keyword、textrank、text teaser、word significance、LDA、LSI、NMF。(graph,feature,topic model,summarize tool or tookit)
https://blog.csdn.net/rensihui
MIT License
404 stars 53 forks source link

关于text pprocess问题 #15

Open FengMu1995 opened 8 months ago

FengMu1995 commented 8 months ago

你好,感谢你的代码开源! 有两个问题请教:

  1. LDA模型如果想用在移动段效率怎么样
  2. c/c++中有可用的文本前处理工具包吗,用于分词词干提取之类的
yongzhuo commented 8 months ago
  1. 主题类模型可能不怎么快,一些依赖库numpy, scikit-learn怎么用到c/c++没有试过,或者你可以用其他的c++版LDA实现替代。
  2. jieba的cpp版应该就可以吧,https://github.com/yanyiwu/cppjieba
FengMu1995 commented 8 months ago

好的,我去试试,感谢博主的宝贵回答