pyhanlp的新词发现没有涉及英文的新词

SefaZeng commented 6 years ago

注意事项

请确认下列注意事项：

我已仔细阅读下列文档，都没有找到答案：
我已经通过Google和issue区检索功能搜索了我的问题，也没有找到答案。
我明白开源社区是出于兴趣爱好聚集起来的自由社区，不承担任何责任或义务。我会礼貌发言，向每一个帮助我的人表示感谢。
[x] 我在此括号内输入x打钩，代表上述事项确认完毕

版本号

当前最新版本号是：pyhanlp-0.1.44 我使用的版本是：pyhanlp-0.1.44

我的问题

用pyhanlp的新词发现接口不会出现涉及英文单词的新词，同样使用左右熵和互信息的另外一个版本实现会发现这个词，是hanlp对所有的英文都过滤掉了吗？可以有什么办法保留英文吗？

复现问题

步骤

首先……
然后……
接着……

触发代码

def hanlptest(file_path,file_out_path):
    file = open(file_path,'r',encoding='utf-8')
    fou = open(file_out_path,'w',encoding='utf-8')
    text = file.read()
    newwords = HanLP.extractPhrase(text,200)
    for item in newwords:
        fou.write(item+'\n')
    print(newwords)

期望输出

K线图
A股账户

实际输出

无涉及英文的新词

其他信息

hankcs commented 6 years ago

感谢反馈，已经修复，请参考上面的commit。如果还有问题，欢迎重开issue。

SefaZeng commented 6 years ago

      感谢反馈，已经修复，请参考上面的commit。
如果还有问题，欢迎重开issue。

请问我怎么更新到本地呢我是用的pyhanlp的接口 hanlp update提示已经是最新版本

hankcs commented 6 years ago

你可以自行编译，或者等待下次新版本发布。

hankcs commented 4 years ago

感谢您对HanLP1.x的支持，我一直为没有时间回复所有issue感到抱歉，希望您提的问题已经解决。或者，您可以从《自然语言处理入门》中找到答案。

时光飞逝，HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本，代号为最后的武士。此后1.x分支将提供稳定性维护，但不是未来开发的焦点。

值此2020新年之际，我很高兴地宣布，HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此，HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型，通过精心设计的框架支撑下游NLP任务，在海量语料库上取得了最前沿的准确率。作为第一个alpha版本，HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且，这些功能并不仅限中文，而是面向全人类语种设计。HanLP2.0提供许多预训练模型，而终端用户仅需两行代码即可部署，深度学习落地不再困难。更多详情，欢迎观看HanLP2.0的介绍视频，或参与论坛讨论。

展望未来，HanLP2.0将集成1.x时代继承下来的高效率务实风范，同时冲刺前沿研究，做工业界和学术界的两栖战舰，请诸君继续多多指教，谢谢。

hankcs / HanLP