Open Jian787 opened 5 days ago
这个问题,包括最近的问题 #151 ,在想是否能使用 8105 字典去替代。因为 terra_pinyin_base
实际上是地球拼音自带的词库,并没有长期的维护和更新,如果用 8105 字典去适配,那么可能可以解决这两个问题。
PS 目前是使用 8105 字典,刷写 terra_pinyin_base
内的字频。
我也赞同直接用白霜8105字典。因为白霜词库全是简体字,而原版 terra_pinyin 主要是繁体字。如果只是用8105 字典去刷写 terra_pinyin_base 内的字频,那么繁体“們”字的词频还是默认的1,而terra_pinyin_base 又缺了“们”等简体字。
不过用8105的话,多音字的问题会更严重。比如“背”字。原版 terra_pinyin 里是两条:
背 bei1 5% 背 bei4 95%
白霜8105只有一条:
背 bei 26971
现在的 terra_pinyin_base 里是:
背 bei1 26971 背 bei4 26971
虽然两个词频都是26971,导致bei1 的词频太大了,但是好歹bei1, bei4两个音都有。如果直接用 [RimeTerraDictBuilder] https://github.com/Mintimate/RimeTerraDictBuilder) 把8105转成地球拼音格式,那可能就只有“背 bei4 26971”这一个发音了。必须要人工手动校对添加和修改多音字的发音。
我愿意花时间慢慢校对添加多音字。可以先把8105转成地球拼音格式,然后发给我。我来校对多音字。我找了个多音字表,可以用它来做参考进行校对。几天就可以校对完。我的邮箱:jianwanginbox@outlook.com
在简体模式下,terra_pinyin_base里的词组会出现繁体候选。(单字不会)
一种简单粗暴的解决方式是把terra_pinyin_base里的词组都注释掉或者删掉,毕竟已经有了白霜词库,原版地球拼音的词组删掉也没事。删掉以后就没有繁体候选了