mozillazg / phrase-pinyin-data

词语拼音数据
MIT License
437 stars 98 forks source link

部分发音为默认单字读音的词语对多音字判别影响 #12

Closed yaleimeng closed 6 years ago

yaleimeng commented 6 years ago

例如:“要重”这个词语非常罕见,而且是两个字的默认读音。同时它会导致后面“重“字读音判别错误,因此这个词条建议删除。 比如: 你要重新考虑这条建议。 得到读音是错误的:nǐ yào zhòng xīn kǎo lǜ zhè tiáo jiàn yì 。 类似的词语可能还有,只能通过提取多音字表,在词条末尾进行比对筛查。

PS:pinyin.txt最后一条词语貌似是重复的?

mozillazg commented 6 years ago

是的,是有这个问题。需要清理一下类似的词语。

最后两条是:

龟龙鳞凤: guī lóng lín fèng
龟龙麟凤: guī lóng lín fèng

mozillazg commented 6 years ago

@yaleimeng 为啥关闭呀,确实存在这个问题呀?

yaleimeng commented 6 years ago

这种问题的原因在于切词错误(采用从前到后的最大匹配策略)。对句子先分词再来注音就几乎能完全避免这一问题。