Open mozillazg opened 7 years ago
赞。其实现在还有个问题是可以按照词库词语分词的算法工具。
@hotoo 没明白你所说的问题。能麻烦详细讲讲吗?
我想要一个可以根据 成语、原子词语 分词的工具。现在很多分词工具都太智能了,能联想很长一串短语,不适合作为拼音的分词工具。
@hotoo 嗯,确实需要一个这样的分词库。 现在的分词工具确实是会分出来一些不是词语的短语。
这个怎么配置pinyin库使用? 另:我这有部分多字库怎么提供这儿。
这个词库怎么使用
@onsunsl 提 PR 就可以了。我会定期基于这个仓库的数据更新 pypinyin 模块,然后直接使用更新后的 pypinyin 模块就可以了。
我的格式和你的不一样 git不会用,你先给我email我给你发过去,你转一下再并合吧,这样快点。
@onsunsl 为了防垃圾邮件我就不直接贴邮箱地址了,https://github.com/mozillazg 这个页面的头像下面有我的邮箱,麻烦你看一下。
发邮件了
@onsunsl 谢谢!邮件已收到,我会尽快抽空更新一下。
楼主,我提供的词库什么时候能更新pypinyin里?
@onsunsl 稍等,我晚上更新一个版本。
@onsunsl 已更新,麻烦更新到最新版本的 pypinyin。
好的,谢谢,你把pipy包也更新一下吧
@onsunsl PyPI 包当时就已经更新了:https://pypi.python.org/pypi/pypinyin
更新之后的版本我测试了一下,还有2198个词不一样(用pypinyin与我提供的词库拼音一致)
@onsunsl 应该是有 2198 个词没有被 jieba 识别为词组。
@onsunsl 还有就是有些 儿'r'
的音我转换为了: 儿'er'
:
哪儿: nǎr -> 哪儿: nǎ er
不会用 PR, load_phrases_dict({'了别': [['liǎo'], ['bié']]}) 了别: liǎo, bié
@menghuanpy 感谢分享~
感谢您提供这么好的平台。
我们是处理一些佛教方面的文字。佛教在许多字词上发音跟普通的文字发音差别很大。
阿阇黎 ā shé lí (zdic ) 了别 : 应该是 liao bie, zdic 也有错。根据了字的意思看(了liǎo ㄌㄧㄠˇ 明白,知道:明~。一目~然。完结,结束:完~。~结。 了le ㄌㄜ放在动词或形容词后,表示动作或变化已经完成:写完~。助词,用在句子末尾或句中停顿的地方,表示变化,表示出现新的情况:刮风~。),显然是 liao,我们读音和听法师讲法都是 liao 音。 了义: liao yi ,跟上一条一样的道理。 摩登伽: mo deng qie,伽 zdic 做 jia 音,应该不对。qie 音,注释是 伽 qié (1) (形声。从人,加声。翻译佛经多用为人名,故从“人”)。 僧伽 也是 qie 音。
------------------ 原始邮件 ------------------ 发件人: "mozillazg/phrase-pinyin-data" <notifications@github.com>; 发送时间: 2021年2月18日(星期四) 晚上9:52 收件人: "mozillazg/phrase-pinyin-data"<phrase-pinyin-data@noreply.github.com>; 抄送: "郑卫斌"<267477568@qq.com>;"Mention"<mention@noreply.github.com>; 主题: Re: [mozillazg/phrase-pinyin-data] 共建为拼音服务的词典库 (#1)
@menghuanpy 感谢分享~
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.
@hotoo
字典在 https://github.com/mozillazg/pinyin-data
原始数据基于 https://github.com/hotoo/pinyin/blob/master/data/phrases-dict.js
数据格式:
一行一个词语的读音,有多个音的词语可以再重复一行:
完善数据参考资料: