tongwentang / New-Tongwentang-for-Firefox

http://tongwen.openfoundry.org/
96 stars 15 forks source link

簡體->繁體 自動轉換規則建議 #44

Closed atx49559 closed 5 years ago

atx49559 commented 5 years ago

希望簡體一字對繁體多字的「單一文字」不要預設進行轉換

如:发->發、髮,斗->斗、鬥等

這種一對多的簡體字常會出現自動翻譯會出現頭發、髮現、鬥大、斗爭等錯誤詞語

若可以的話,改用自訂詞語的方式進行轉換就比較不會有問題了

头发=頭髮、发現=發現、斗大=斗大,斗爭=鬥爭

謝謝

t7yang commented 5 years ago

轉換時確實是根據詞彙先進行轉換的,效果如下: image

至於簡體有一對多的情況,所以一定會有一些邊際案例是無法全部涵蓋進去的。 目前的行為跟實證都沒有出現很明顯的偏差,請提供明確的例子(在考慮重新開啟這個 issue)

atx49559 commented 5 years ago

Hi 謝謝您的回覆 我在上網時偶爾會看見類似的情形,所以才開了這個issue 若後續有發現會再慢慢補上來 干預→幹預 https://i.imgur.com/Pjrk76U.png

t7yang commented 5 years ago

這種就屬於比較特殊的案例,主要詞彙的處理沒辦法完全列舉或是有遺漏。之後字典檔應該會獨立出來,到時候再針對字典檔的部分去做調整就好。

atx49559 commented 5 years ago

今天又看到干字的轉換錯誤:干涉→幹涉 https://i.imgur.com/kWKGECy.png

測試了一下,如果只是「干涉」就沒問題 「不干涉」、「要干涉」等都沒問題 但「去干涉」就會變成「去幹涉」

這種狀況我想可能是「干」的前面為「去」 而「去干」被收錄為轉換用詞,所以造成這種狀況@@

稍微用「干」字去搜尋了一下 繁體的「幹」還真的滿常單獨使用,沒有跟前或後字連成一個詞 所以這個字應該只能算特例了

也許「去干涉」可以分開看成「去干」和「干涉」 而這兩個詞都有被收錄在轉換字典檔裡 這時候若是有轉換優先順序的話,也許可以提升轉換正確度

t7yang commented 5 years ago

就是相互耦合的情況很多,可能當初收錄的人看到某個情境但是未考量到收錄這次轉換詞彙時在其他情況可能會產生的問題。這部分很難完全避免掉。