Open limura opened 5 years ago
現状は
() の前が漢字かつ、() の中がカタカナまたは平仮名 という正規表現 ([\\p{Han}]{1,10})[《((]([\\p{Hiragana}\\p{Katakana}]{1,10})[》))]
([\\p{Han}]{1,10})[《((]([\\p{Hiragana}\\p{Katakana}]{1,10})[》))]
で取り出しているだけなのでそれはまぁそうなりますよねという感じなのだけれど、 ChaSen だか MeCab だかで使う ipadic には 見出し語 から 読み への変換テーブルがあるはず?なので それを使って表題のような奴については回避可能ではあるという事に気づきはした。 やるべきかどうかはよくわからん。ただ、直感としては例外処理ぽいのでやりたくない感じ。
現状は
() の前が漢字かつ、() の中がカタカナまたは平仮名 という正規表現
([\\p{Han}]{1,10})[《((]([\\p{Hiragana}\\p{Katakana}]{1,10})[》))]
で取り出しているだけなのでそれはまぁそうなりますよねという感じなのだけれど、 ChaSen だか MeCab だかで使う ipadic には 見出し語 から 読み への変換テーブルがあるはず?なので それを使って表題のような奴については回避可能ではあるという事に気づきはした。 やるべきかどうかはよくわからん。ただ、直感としては例外処理ぽいのでやりたくない感じ。