mozillazg / phrase-pinyin-data

词语拼音数据
MIT License
437 stars 98 forks source link

共建为拼音服务的词典库 #1

Open mozillazg opened 7 years ago

mozillazg commented 7 years ago

@hotoo

拼音库主要依赖的是拼音字典、词典(后面简称“词典”),这个词典共用性很高,但由于词典库较大,出现问题的概率的也高。

建议大家一起共建、共同维护这个词典,你们觉得怎么样? refer: https://github.com/mozillazg/python-pinyin/issues/43

字典在 https://github.com/mozillazg/pinyin-data

原始数据基于 https://github.com/hotoo/pinyin/blob/master/data/phrases-dict.js

数据格式:

{词语}: {音} {音}

一行一个词语的读音,有多个音的词语可以再重复一行:

朝阳: cháo yáng
朝阳: zhāo yáng

完善数据参考资料:

hotoo commented 7 years ago

赞。其实现在还有个问题是可以按照词库词语分词的算法工具。

mozillazg commented 7 years ago

@hotoo 没明白你所说的问题。能麻烦详细讲讲吗?

hotoo commented 7 years ago

我想要一个可以根据 成语、原子词语 分词的工具。现在很多分词工具都太智能了,能联想很长一串短语,不适合作为拼音的分词工具。

mozillazg commented 7 years ago

@hotoo 嗯,确实需要一个这样的分词库。 现在的分词工具确实是会分出来一些不是词语的短语。

onsunsl commented 7 years ago

这个怎么配置pinyin库使用? 另:我这有部分多字库怎么提供这儿。

onsunsl commented 7 years ago

这个词库怎么使用

mozillazg commented 7 years ago

@onsunsl 提 PR 就可以了。我会定期基于这个仓库的数据更新 pypinyin 模块,然后直接使用更新后的 pypinyin 模块就可以了。

onsunsl commented 7 years ago

我的格式和你的不一样 git不会用,你先给我email我给你发过去,你转一下再并合吧,这样快点。

mozillazg commented 7 years ago

@onsunsl 为了防垃圾邮件我就不直接贴邮箱地址了,https://github.com/mozillazg 这个页面的头像下面有我的邮箱,麻烦你看一下。

onsunsl commented 7 years ago

发邮件了

mozillazg commented 7 years ago

@onsunsl 谢谢!邮件已收到,我会尽快抽空更新一下。

onsunsl commented 7 years ago

楼主,我提供的词库什么时候能更新pypinyin里?

mozillazg commented 7 years ago

@onsunsl 稍等,我晚上更新一个版本。

mozillazg commented 7 years ago

@onsunsl 已更新,麻烦更新到最新版本的 pypinyin。

onsunsl commented 7 years ago

好的,谢谢,你把pipy包也更新一下吧

mozillazg commented 7 years ago

@onsunsl PyPI 包当时就已经更新了:https://pypi.python.org/pypi/pypinyin

onsunsl commented 7 years ago

更新之后的版本我测试了一下,还有2198个词不一样(用pypinyin与我提供的词库拼音一致)

mozillazg commented 7 years ago

@onsunsl 应该是有 2198 个词没有被 jieba 识别为词组。

mozillazg commented 7 years ago

@onsunsl 还有就是有些 儿'r'的音我转换为了: 儿'er':

哪儿: nǎr -> 哪儿: nǎ er
menghuanpy commented 3 years ago

不会用 PR, load_phrases_dict({'了别': [['liǎo'], ['bié']]}) 了别: liǎo, bié

mozillazg commented 3 years ago

@menghuanpy 感谢分享~

menghuanpy commented 3 years ago

感谢您提供这么好的平台。

我们是处理一些佛教方面的文字。佛教在许多字词上发音跟普通的文字发音差别很大。

阿阇黎  ā shé lí  (zdic ) 了别 : 应该是 liao bie, zdic 也有错。根据了字的意思看(了liǎo ㄌㄧㄠˇ 明白,知道:明~。一目~然。完结,结束:完~。~结。 了le  ㄌㄜ放在动词或形容词后,表示动作或变化已经完成:写完~。助词,用在句子末尾或句中停顿的地方,表示变化,表示出现新的情况:刮风~。),显然是 liao,我们读音和听法师讲法都是 liao 音。 了义: liao yi ,跟上一条一样的道理。 摩登伽: mo deng qie,伽 zdic 做 jia 音,应该不对。qie 音,注释是 伽 qié (1) (形声。从人,加声。翻译佛经多用为人名,故从“人”)。 僧伽 也是 qie 音。

------------------ 原始邮件 ------------------ 发件人: "mozillazg/phrase-pinyin-data" <notifications@github.com>; 发送时间: 2021年2月18日(星期四) 晚上9:52 收件人: "mozillazg/phrase-pinyin-data"<phrase-pinyin-data@noreply.github.com>; 抄送: "郑卫斌"<267477568@qq.com>;"Mention"<mention@noreply.github.com>; 主题: Re: [mozillazg/phrase-pinyin-data] 共建为拼音服务的词典库 (#1)

@menghuanpy 感谢分享~

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.