mozillazg / phrase-pinyin-data

词语拼音数据
MIT License
437 stars 98 forks source link

“还钱”读音错误 #4

Closed zhuangh closed 6 years ago

zhuangh commented 7 years ago

Hi, Dear creator

@ ver. 0.22.0

pypinyin.pinyin('还钱') [['hái'], ['qián']]

pypinyin.pinyin('还钱', heteronym=True) [['hái', 'fú', 'huán'], ['qián']]

类似的此还有“还贷”等。

mozillazg commented 7 years ago

@zhuangh 感谢反馈!我有空的时候会更新一下。欢迎提 PR。

zhuangh commented 7 years ago

@mozillazg 应该怎么解决这个问题。根据词性是可以解决的。现在有这个机制吗?

https://github.com/mozillazg/phrase-pinyin-data/issues/5 就不能根据词性了。

mozillazg commented 7 years ago

@zhuangh 现在没有这个机制,用的是很笨的词典匹配的办法。

mozillazg commented 7 years ago

还钱 这个需要先分词(可以安装 jieba 分词或手动指定为分词后的列表):

In [6]: pypinyin.pinyin('还钱了')
Out[6]: [['hái'], ['qián'], ['le']]

In [7]: pypinyin.pinyin(['还钱', '了'])
Out[7]: [['huán'], ['qián'], ['le']]

还贷 的话需要先更新词库然后再分词。

zhuangh commented 7 years ago

谢谢,这个可以通过pip install最新版本获得了吗?

mozillazg commented 7 years ago

@zhuangh 可以,升级到最新版本就可以了。

zhuangh commented 7 years ago

大谢!‘还贷’可以了。

我在看pinyin的时候,它会load /tmp/jieba.cache. 所以他不会自动断词?

mozillazg commented 7 years ago

这个是 jieba 这个第三方模块的动作,如果 jieba 的分词不正确的话你可能需要调教一下它:

https://github.com/fxsjy/jieba#%E8%BD%BD%E5%85%A5%E8%AF%8D%E5%85%B8