Open fixicelo opened 7 months ago
我们首先需要提取一份官方规范的简繁对照表
能用 OpenCC 的转换表 STPhrases.txt
吗?
能用 OpenCC 的转换表
STPhrases.txt
吗?
这个转换只是部分词的,支持不了全场景,期望有一份字到字的全量转换表,这样可能支持全部的范围
全部以大陆规范为主
---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年04月30日 17:23 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [zh-lx/pinyin-pro] 支援繁體詞語 (Issue #212) |
OpenCC 有 字到字转换表,但须考虑以下问题:
陆、港、台地区 繁体字规范 不同,如“爲”“為”、“着”“著”。本库要支持哪种规范? 两岸一些词读音不同,如“说服”(shuō fú / shuì fú)“垃圾”(lā jī / lè sè)“褪色”(tuì sè / tùn sè)“悬崖”(xuán yá / xuán yái)。本库要输出哪种读音? 简繁体字并非一一对应,如“乾”算不算多音字?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
试着用 s2t
配置的 OpenCC 转换了 dict2.ts
。结果未校对,欢迎批评指正。
dict2_merged.zip
應該不需要支援,在台是用「注音」拼寫;港澳是用「速成」拼寫
如,注音拼漢字:
功能描述
在測試過程中,我發現對於繁體中文,如
音樂
一詞中的樂
,其讀音結果顯示為lè
,僅有在簡體中文下乐
,其讀音才正確地顯示為yuè
。測試結果 中也另外發現
乐譜
和乐壇
應該未有收納,以致未能正確顯示拼音。我認為與目前的詞庫只有
dict1
包含繁體字有關。一旦遇到繁體的詞語,拼音可能就會出現不準確的情況。https://github.com/zh-lx/pinyin-pro/blob/e5b2b3c03458d865f0fb3db328ff661191cf4136/lib/data/dict2.ts#L88
希望能擴大繁體的支援範疇(#61),包含詞語、成語等。謝謝!