Closed ivysrono closed 3 years ago
这两是繁体吧
是的 字頻是在簡體字語料中統計到的沒有問題可以收錄
那基本上是输出语料的人打错了吧。 既然用的袖珍简化字拼音方案,显然就没有想过会打出繁体字来。
上游數據源並沒有限定只用簡化字。 「簡化字」是我在給方案命名時加的描述語,出發點是其字頻字序詞組等符合簡化字語境的用法,便於配合簡化字爲主的輸入法使用,如五筆字型。 簡化字沒有一個嚴格定義的集合,很難實際操作。從輸入法的應用角度也沒有必要排除繁體字、異體字。
沒有必要刪除。