flier268 / ConvertZZ

繼承自convertz,但更好用的簡繁轉換工具
GNU General Public License v3.0
392 stars 64 forks source link

修訂 Dictionary.csv #20

Open ghost opened 4 years ago

ghost commented 4 years ago

修訂一些可能有誤的用字。

部分修訂,依據中華民國立法院公布的「法律統一用字表」https://www.ey.gov.tw/Page/13757D5A74F701EA/e2729694-1884-4577-96cf-9368abf1f3ac

因為不確定檔案中重複的部分的必要性,所以重複的部分均未刪除

修訂後的檔案下載: https://upload.express/download/5d8b199a3398a70001e637fd

flier268 commented 4 years ago

原來還有這個修訂 仔細看了一下,你所改的地方,並不只有這個表而已 像是台、啓、爲之類的字你都修正了 速食麵 還有"軟肥皂",這寫錯都被你找到了

說真的,雖然程式是我寫的,但其實我反倒用的不多,最後還是要靠各位優秀的使用者幫我找出問題

flier268 commented 4 years ago

我有看到一些有括號的,請問那個是? 倮(裸)蟲 六鬚鮎(鯰) 剗(剷)惡除奸 土中曲蟮(蟺)

flier268 commented 4 years ago

有些詞雖然在法律統一用字裡面改了,但在教育部國語辭典中,依然沒有變動 舉例來說,「複查」這個詞 從意思來說,應該是再一次查詢,改為「復」反倒有些怪怪的了 與此相同問題的還有覆核

ghost commented 4 years ago
flier268 commented 4 years ago

你真的很認真,該不會是一行一行的看吧,我光看你修改的部分就覺得很累了

最近在考慮,為了提升辨識能力,或許應該加入詞性作為判斷,先分詞,然後才轉換 分詞的方法,Github上有許多大神很好心的免費提供,目前有看到這個(不過他是用node寫的,所以可能還要自己想辦法轉成C#),還有一個叫做結巴分詞的,前者資源感覺比較完整,後者不用自己改成C#

如果先分詞再判斷該轉成哪個字,應該就可以讓準確度大幅提高了吧,只是字典方面,現在的就比較不適用了

ghost commented 4 years ago
ghost commented 4 years ago

以下hyperlink,是我目前使用中的Dictionary.csv(我寫了個小程式刪除重複及一些不是我偏好的用詞),提供您參考 https://upload.express/download/5d8d60b73398a70001e63825

flier268 commented 4 years ago

ConvertZZ也要進入機器學習時代了嗎?

你要不要直接Pull request你的字典上來?