tongwentang / tongwen-core

A fast converter between Traditional Chinese and Simplified Chinese
MIT License
65 stars 7 forks source link

[疑問] t2s_phrase.json 的內容不是繁體至簡體 #1

Closed huanlin closed 6 years ago

huanlin commented 6 years ago

Hi, 如標題,t2s_phrase.json 的內容似乎不是繁體至簡體,例如:

"干断": "乾断",

上面的例子,左邊是簡體字,右邊依然是簡體字。若是繁體,應為「乾斷」。 不知道是否我誤解了這個檔案的格式與用途?

t7yang commented 6 years ago

這個專案的字典檔是測試用的,而且是屬於上一代演算法的字典檔,之後字典檔的部分應該還會獨立一個 repo 出來。而且 README 裡面已經有說明,你必須自備字典檔。

huanlin commented 6 years ago

了解。您說的 README 我想應該是指這行:

注意:你必須在建立 TongWenCore 實體時提供字典檔並沒有提供預設的字典檔。

我以為沒有提供預設的字典檔的意思是要自己去 dictionaries 目錄底下取來使用。 是我誤解了。謝謝說明!

t7yang commented 6 years ago

那一句的意思確實如你所理解的那樣。針對字點檔的部分,readme 沒有太清楚的說明確實不夠妥當。之後在真對這部分進行更多的說明,字典檔的部分請暫用測試用的字典檔或自備。獨立的字典檔 repo 的完成進度可能要看團隊內其他成員是否有空幫忙。

t7yang commented 6 years ago

@huanlin readme 已更新說明字典檔的部分,感謝提醒。

huanlin commented 6 years ago

@t7yang , 沒問題,多謝! 順便一提,我之所以會問,是因為我先前也寫了個小工具來做簡繁轉換。當時很偷懶的利用 MS Word 的 COM API 來先做第一輪的轉換。然後我再用自建的詞彙(片語)檔案來做補強修正。 目前我著手改版,打算讓這個工具可以跨平台(使用 .NET Core),不能再依賴 MS Word,所以才需要比較完整的辭庫。 感謝開放源碼社群各位大大的付出,我在 GitHub 上面蒐集到幾個簡繁對應的詞彙對應表,已開始用工具來把這些詞彙整併成單一檔案了。感謝!

p.s. 我的工具是這個:Chinese-Converter

t7yang commented 6 years ago

這部分我的看法是,針對跨平台的部分 OpenCC 已經在做了(而且是用 C++ 寫的,所以效能不可能差),tongwen-core 自獨立成一個專案後,也做到跨平台(不是有意,但是確實補足了在前端和套件方面的需求)。當然你還是可以針對自己的需求,開發另一個工具,只是告知一下,目前市面上已經有的專案。

字典檔的部分既然你有計畫投入時間進行整理,不然加入團隊一起做如何?如果整理出來的字典檔可以惠及你的專案跟新同文堂,應該是一件不錯的事。

huanlin commented 6 years ago

好的,我會多方參考。多謝告知 :) 我的確是有一點自己的小小特殊需求,特別是在資訊技術方面的專業術語,我有打算嘗試維護一套簡繁術語對照檔,最初只是單純自己用來把書稿轉成簡體版。 我的字典檔目前還在分支裡面,等到完成合併後,也都會跟程式碼一起放在 GitHub 上面。若這個部分,社群與同文堂團隊覺得有可以利用的地方,我都非常樂意大家自由取用。

t7yang commented 6 years ago

你有用telegram嗎?我們私下聊。

huanlin commented 6 years ago

以前沒有用 Telegram,都一直被 Line 荼毒。我剛剛裝了 pc 和 手機上的 app。 看起來只能用電話號碼來加聯絡人?

softcup commented 6 years ago

@huanlin 如果你能編輯你的留言,建議你將你的連絡電話拿掉。

t7yang commented 6 years ago

@softcup @huanlin 我先拿掉。 telegram可以用連結的方式給對方,不需要給電話喔。

huanlin commented 6 years ago

OK, 原來可以用連結的方式啊。多謝 :)