Closed shunk031 closed 5 years ago
漢字が有する部首を分解し、サブキャラクターとして扱った際の言語タスクにおける性能を、新たに提案するデータセットであるjBATSも含めて調査を行った。中国語で効果のあるサブキャラクターが日本語においては限定的であり、多くの場合文字レベルngramや文字レベルモデルが良い性能を示している。
Subcharacter Information in Japanese Embeddings: When Is It Worth It? - Paper Survey
http://www.aclweb.org/anthology/W18-2905