Moved to https://github.com/udjapanese/UD-Japanese-GSDPUD-Cabocha
UD Japanese GSD および UD Japanese PUD の変換前 CaboCha ファイル
基本的には CaboCha 形式に長単位形態論情報・文節境界情報を追加したものです。
係り受け情報行
EOS 行
形態素行(タブ区切り)
1列目:出現形
2列目:短単位形態論情報(コンマ区切り)= MeCab-UniDic の出力と同等
(0): pos1
(1): pos2
(2): pos3
(3): pos4
(4): cType
(5): cForm
(6): lForm
(7): lemma
(8): orth
(9): pron
(10): orthBase
(11): pronBase
(12): goshu
(13): iType
(14): iForm
(15): fType
(16): fForm
(17): iConType
(18): fConType
(19): type
(20): kana
(21): kanaBase
(22): form
(23): formBase
(24): aType
(25): aConType
(26): aModType
(27): lid
(28): lemma_id
3列目:長単位書字形出現形
4列目:長単位形態論情報(コンマ区切り)
(0): l_pos1
(1): l_pos2
(2): l_pos3
(3): l_pos4
(4): l_cType
(5): l_cForm
(6): l_reading
(7): l_lemma
5列目:文節境界情報
松田 寛・若狭 絢・山下 華代・大村 舞・浅原 正幸, (2020), 「UD Japanese GSD の再整備と固有表現情報付与」, 言語処理学会第26回年次大会, p.133-136.
Creative Commons BY-SA 3.0