mozillazg / phrase-pinyin-data

词语拼音数据
MIT License
437 stars 98 forks source link

建议引入《现代汉语常用词表(草案)》(商务印书馆 2008) #14

Open liangqi opened 6 years ago

liangqi commented 6 years ago

不是很清楚pinyin.txt的历史来源

mozillazg commented 6 years ago

@liangqi

liangqi commented 6 years ago

这里有一个版本

https://gist.github.com/indiejoseph/eae09c673460aa0b56db

mozillazg commented 6 years ago

@liangqi 那个应该不是完整的数据

liangqi commented 6 years ago

“This file has been truncated, but you can view the full file.”

应该是完整的,我这里有pdf版本。

现代汉语常用词表(草案) 1 的 - 56008 正方体

现代汉语常用词表(草案)音序索引 阿爸 18137 - 做作 18231

mozillazg commented 6 years ago

@liangqi 那个文件有 56064 个词,《现代汉语常用词表(草案)》中是 56008 个词,还需要进一步确认。

liangqi commented 6 years ago

嗯,加Header 56065行,但是文件中确实没有出现56009、56010、56011

liangqi commented 6 years ago

开始试着用脚本读取这个数据文件,有些是typo,有些是多音字有多个条目,应该还需要一些校对工作。

liangqi commented 6 years ago

这是我的初步校对成果,https://github.com/liangqi/chinese-frequency-word-list/commit/fd6a4abfb7d655fe6c78101fba19f01a13c84f30

56008个词,但有的词有多种写法,例如“作”-“做”等,有的是多音词。

mozillazg commented 6 years ago

@liangqi 👍 💯

liangqi commented 6 years ago

这个文件好像问题是不少,这几天用 https://github.com/lig/pystardict 和 现代汉语词典,大致检查了一下,在这个词典里能查到的条目,进行了拼音对比,结果如:https://gist.github.com/liangqi/caa7db05a269a21fe6775408aef2a800

主要问题:

(注:词典里的多音字我还没有处理)

mozillazg commented 6 years ago

@liangqi 辛苦了 👍

liangqi commented 5 years ago

@mozillazg 儿化音目前一般怎么处理的?按《汉语拼音方案》的话,就是单个“r“在词尾

mozillazg commented 5 years ago

@liangqi 目前没按《汉语拼音方案》处理,大部分都直接是 er

yveshield commented 1 year ago

56008 是草案 56064 是第1版 56790 是第2版