Closed corbinxia closed 4 years ago
上述bug是在简体汉字状态。 切换到漢字状态, 输入词汇“複投” 则可记忆,再切回汉字状态,“复投”已在可选词汇中。
看看词汇里是不是多出了一个“覆投”?
是的,你的意思是“复投”错误变成了“覆投”吧
麻烦修复下这个bug
对应的繁体词汇记录成了“覆投”,而“覆投”下次再简化的时候仍然是“覆投”,所以你就找不到“复投”了。 这是opencc的问题。
不能說是 opencc 的問題。@kunki 首先,在造詞的時候,選項「复」是對應多個傳統漢字的,至於在新詞裏面,究竟應該對應到哪個傳統漢字,用戶並沒有提供信息。基於詞頻(可能這裏也需要調整)排序只記錄「覆投」不夠嚴謹。或許應該生成多個選項,下次(在繁體模式或如題轉換結果不一致的情況下)讓用戶再選。但爲了避免詞組中包含多個簡繁一對多的單字而生成過多組合,這裏還應該設計一個策略,比如限制生成組合的最大數爲詞條長度的函數。
@lotem 既然简对繁是一对多关系,那么还是取消简体造词到繁体的转换吧。
我认为有必要把简化字的词典独立开来。 有不少词在大陆与港台用法不同,例如大陆的“软件程序”在传统汉字语境中写为“軟體程式”
@corbinxia 你举的例子属于不同地区用词习惯的差异。他们并不属于同一个词。而简繁字的问题是不一样的,属于同一个字的不同字形。输入法只做字形转换,不做词语的翻译。
在一个方案里,按一种字形维护词典是必要的。否则无法保证以一种字形造出的词语以另一种字形输出,参与造句也可能产生简繁混杂的句子。
另外一个方案「袖珍简化字拼音」,使用一份较小的简化字词典,主要用于五笔等形码输入法的拼音反查功能。其实他也可以当作拼音输入法独立使用。不过如果用它来打繁体字,会比《明月拼音》更多地出现简繁转换的错误。
以一种字形造出的词语无法以另一种字形输出,这个不会对用户造成多大困扰,绝大多数人日常只是固定使用简体或繁体来输入。 前面提到“复投”这个词给我造成的困扰已久,因为我常参与讨论金融投资的问题,这是个常用词。
很抱歉造成困擾。 其實困擾你的問題,正是以另一種字形(來自詞典的繁體字)造的詞語,無法以你所選的顯示字形(簡體字)輸出。「朙月拼音」以傳統漢字爲主,繁簡轉換後,極少數情況會產生偏差,即是本題所討論的情況。 現成的解決辦法是使用「袖珍簡化字拼音」輸入方案,其詞典完全採用簡化字字形,不存在字形轉換。
然而這對輸入法平臺來說,等於是分別維護兩份互相獨立的拼音詞典了,用家也會發現「袖珍簡化字」詞彙量現在是遠遠不及「朙月拼音」的。而且除拼音以外的每一種輸入法,例如粵語拼音,可能都要針對以簡、繁體爲主的用家分設詞典。這樣保險不出錯,卻是笨辦法。 經濟可行的技術方案是用傳統漢字編製詞典,並支持在繁簡多對一轉換之後有效地造詞。從而以較小的資源投入和維護成本解決問題。
谢谢,我支持「袖珍簡化字拼音」輸入方案。
建议简繁转换由字对字改为词对词.
@dou4cc 是以词为单位转换。现在讨论的是自造词的情况。
@lotem 为什么自造词就区别对待呢? 输入法作为精确工具, 不该引入任何像 OpenCC 这样的黑盒. 自带词库的简繁转换表开放配置后同样可以作用于自造词.
@corbinxia 这个现在有什么办法解决吗?我用的是mac下的鼠须管,被这个问题困扰好久了,每次都要手工的选字
拼音输入词汇“复投”不能记忆,下次还要重新选这个两个字