tongwentang / tongwen-dict

MIT License
75 stars 9 forks source link

志士招募 #1

Closed t7yang closed 2 years ago

t7yang commented 3 years ago

我們需要大家的協助,借助眾人的力量重新整理簡體及正(繁)體的對應表。 這項工作不需要程式設計的技能,任何人都可以參與,目的就是統整及整理轉換的對應表。 這項工作也是為了因應轉換核心重新設計後的接續動作。

有志之士歡迎聯絡在下面留言,然後請到 telegram 聯絡我(ID 一樣)或留下的 Telegram ID。

什麼時候開始行動?等我有空或是有人自願當主持人。

willy08wu07 commented 3 years ago

+1 腦內有一大筆詞庫,但會擔心過度轉換…或部份轉換很主觀的問題。

t7yang commented 3 years ago

+1 腦內有一大筆詞庫,但會擔心過度轉換…或部份轉換很主觀的問題。

別擔心,理想的情況是成立類似討論小組這樣的組織,然後大家一起討論。

lycsjm commented 3 years ago

開放原始碼的專案實際上就是這樣,大家只想用但不想出力

我不是很想被這樣嘴但你說得很對。 再怎麼樣把幾年縮短一個月也好, +1。

t7yang commented 3 years ago

開放原始碼的專案實際上就是這樣,大家只想用但不想出力

我不是很想被這樣嘴但你說得很對。 再怎麼樣把幾年縮短一個月也好, +1。

哈,還好,沒有嘴不嘴,也沒有針對誰,現實就是這樣,我只不過說出實話而已。

dp107 commented 3 years ago

+1 也想幫忙

thelucaschen commented 3 years ago

@t7yang 簡轉繁的詞彙表可以參考 Open Chinese Convert 開放中文轉換 的詞彙資料:

t7yang commented 3 years ago

@thelucaschen opencc 之前看過他們的對應表是一對多的,不知道現在是不是,一對多的話就不適合我們的專案。

magelpen commented 3 years ago

這邊之前有整理一堆,不過有蠻多字詞是以前在網路上手動抓下來的,有點不確定授權問題。

然後在使用上,常常會遇到字詞跟句意不同的情況。 ex 信息→訊息 「這串數字的信息量太大了」→「這串數字的訊息量太大了」 在這組句子中,用資訊會比訊息合適。但 「你信息傳了沒?」→「你訊息傳了沒?」 在這邊訊息就遠比資訊合適了。

或是質量,同時表示物理單位跟產品品質。這種也不能加入字串,不然反過來降低閱讀品質。

所以在建對應資料的時候,或許可以分成幾個面向(想法參考 block list 的訂閱方式),依照使用需求替換這樣。

t7yang commented 3 years ago

這邊之前有整理一堆,不過有蠻多字詞是以前在網路上手動抓下來的,有點不確定授權問題。

然後在使用上,常常會遇到字詞跟句意不同的情況。 ex 信息→訊息 「這串數字的信息量太大了」→「這串數字的訊息量太大了」 在這組句子中,用資訊會比訊息合適。但 「你信息傳了沒?」→「你訊息傳了沒?」 在這邊訊息就遠比資訊合適了。

或是質量,同時表示物理單位跟產品品質。這種也不能加入字串,不然反過來降低閱讀品質。

所以在建對應資料的時候,或許可以分成幾個面向(想法參考 block list 的訂閱方式),依照使用需求替換這樣。

我不是沒有考慮過這個問題,只是除非改變演算法,否則就不可能有完善的解決方案。

對於爭議的詞彙可能需要集體決策,所以我才會希望籌建一個小組。

ensky commented 3 years ago

+1 programming 的部份也可以幫忙

willy08wu07 commented 3 years ago

我不是沒有考慮過這個問題,只是除非改變演算法,否則就不可能有完善的解決方案。

@t7yang 請問目前的演算法有哪些限制? 例如說不能一個詞依情況轉兩個詞,無法以長詞阻擋另一個短詞的轉換…等。

「以長詞阻擋另一個短詞的轉換」的例子就像這種,我解釋一下:

「這串數字的信息量太大了」→「這串數字的訊息量太大了」 在這組句子中,用資訊會比訊息合適。但 「你信息傳了沒?」→「你訊息傳了沒?」 在這邊訊息就遠比資訊合適了。

我印象中有些系統會制定兩組轉換,防止上述的過度轉換問題:

  1. 信息量→資訊量
  2. 信息→訊息

在那種系統中,較長的轉換 (1.) 會優先執行,並防止執行較短的轉換 (2.)。

t7yang commented 3 years ago

上面各位想參與的請到 telegram (跟 github 相同 Id)聯絡我,並給我你的 telegram Id ,群組已經開好。

JackKuo-tw commented 3 years ago

+1 ,我是 舒讀 的作者,當時也是受到您作品的啟發而開發舒讀。

對此我是選擇 OpenCC 來緩解此問題,該函式庫本身就有支援自訂詞彙轉換,可以試試。

缺點就是會需要後端伺服器,這部分我手頭上的免費伺服器資源還堪用,日後負擔變重或許可以考慮拉贊助,類似 FutaDNS 的方式。

t7yang commented 3 years ago

還沒到 telegram 聯絡我的人請儘速,目前已經在討論跟進行中(不要萬人響應,一人到場啊)

+1 ,我是 舒讀 的作者,當時也是受到您作品的啟發而開發舒讀。

對此我是選擇 OpenCC 來緩解此問題,該函式庫本身就有支援自訂詞彙轉換,可以試試。

缺點就是會需要後端伺服器,這部分我手頭上的免費伺服器資源還堪用,日後負擔變重或許可以考慮拉贊助,類似 FutaDNS 的方式。

OpenCC 的單字辭庫有一對多的,你怎麼處理這塊?

GGJason commented 2 years ago

請問還有在招募嗎 我的 telegram id 是 ggjason

t7yang commented 2 years ago

請問還有在招募嗎 我的 telegram id 是 ggjason

都可以。因為你限制了別人加入你到群組,所以已經發送單次邀請連結給你了。