zh-lx / pinyin-pro

中文转拼音、拼音音调、拼音声母、拼音韵母、多音字拼音、姓氏拼音、拼音匹配、中文分词
https://pinyin-pro.cn
MIT License
3.78k stars 330 forks source link

支援繁體詞語 #212

Open fixicelo opened 4 months ago

fixicelo commented 4 months ago

功能描述

在測試過程中,我發現對於繁體中文,如 音樂 一詞中的 ,其讀音結果顯示為 ,僅有在簡體中文下 ,其讀音才正確地顯示為 yuè

import { html } from 'pinyin-pro';

const htmlString = html('繁體:音樂, 樂器, 樂譜, 樂府, 奏樂, 樂壇, 樂章 | 简体:音乐, 乐器, 乐譜, 乐府, 奏乐, 乐壇, 乐章');

document.body.innerHTML = htmlString;

測試結果 中也另外發現 乐譜乐壇 應該未有收納,以致未能正確顯示拼音。

我認為與目前的詞庫只有 dict1 包含繁體字有關。一旦遇到繁體的詞語,拼音可能就會出現不準確的情況。

https://github.com/zh-lx/pinyin-pro/blob/e5b2b3c03458d865f0fb3db328ff661191cf4136/lib/data/dict2.ts#L88

希望能擴大繁體的支援範疇(#61),包含詞語、成語等。謝謝!

yisibl commented 4 months ago

我们首先需要提取一份官方规范的简繁对照表

warm-ice0x00 commented 4 months ago

能用 OpenCC 的转换表 STPhrases.txt 吗?

zh-lx commented 4 months ago

能用 OpenCC 的转换表 STPhrases.txt 吗?

这个转换只是部分词的,支持不了全场景,期望有一份字到字的全量转换表,这样可能支持全部的范围

warm-ice0x00 commented 3 months ago

OpenCC 有 字到字转换表,但须考虑以下问题:

  1. 陆、港、台地区 繁体字规范 不同,如“爲”“為”、“着”“著”。本库要支持哪种规范?
  2. 两岸一些词读音不同,如“说服”(shuō fú / shuì fú)“垃圾”(lā jī / lè sè)“褪色”(tuì sè / tùn sè)“悬崖”(xuán yá / xuán yái)。本库要输出哪种读音?
  3. 简繁体字并非一一对应,如“乾”算不算多音字?
zh-lx commented 3 months ago

全部以大陆规范为主

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2024年04月30日 17:23 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [zh-lx/pinyin-pro] 支援繁體詞語 (Issue #212) |

OpenCC 有 字到字转换表,但须考虑以下问题:

陆、港、台地区 繁体字规范 不同,如“爲”“為”、“着”“著”。本库要支持哪种规范? 两岸一些词读音不同,如“说服”(shuō fú / shuì fú)“垃圾”(lā jī / lè sè)“褪色”(tuì sè / tùn sè)“悬崖”(xuán yá / xuán yái)。本库要输出哪种读音? 简繁体字并非一一对应,如“乾”算不算多音字?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

warm-ice0x00 commented 3 months ago

试着用 s2t 配置的 OpenCC 转换了 dict2.ts。结果未校对,欢迎批评指正。
dict2_merged.zip