Closed freebie5 closed 4 years ago
你可以看上面说的姊妹篇,里面有解释公式的。
TextRank关键词提取,代码我看了一遍,发现并没有考虑重复重现词对的次数。 如:(程序员,性能)如果在不同的上下文出现了3次,结果只保留了一对(程序员,性能)而忽略了计数。请问这个是有意为之吗?
我的理解是这个信息也可以利用起来。
下面是jieba的提取代码,考虑的(w1,w2)的出现次数。
感谢您对HanLP1.x的支持,我一直为没有时间回复所有issue感到抱歉,希望您提的问题已经解决。或者,您可以从《自然语言处理入门》中找到答案。
时光飞逝,HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本,代号为最后的武士。此后1.x分支将提供稳定性维护,但不是未来开发的焦点。
值此2020新年之际,我很高兴地宣布,HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此,HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型,通过精心设计的框架支撑下游NLP任务,在海量语料库上取得了最前沿的准确率。作为第一个alpha版本,HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且,这些功能并不仅限中文,而是面向全人类语种设计。HanLP2.0提供许多预训练模型,而终端用户仅需两行代码即可部署,深度学习落地不再困难。更多详情,欢迎观看HanLP2.0的介绍视频,或参与论坛讨论。
展望未来,HanLP2.0将集成1.x时代继承下来的高效率务实风范,同时冲刺前沿研究,做工业界和学术界的两栖战舰,请诸君继续多多指教,谢谢。
注意事项
请确认下列注意事项:
版本号
当前最新版本号是:1.6.2 我使用的版本是:1.6.2
我的问题
在阅读这个博文的时候,发现textrank算法的公式没注释说明,希望博主发一份公式说明,我最近在搞关键词提取,希望再textrank的基础上改进算法 博文url: http://www.hankcs.com/nlp/textrank-algorithm-to-extract-the-keywords-java-implementation.html
复现问题
步骤
触发代码
期望输出
实际输出
其他信息