tadd / braille-ja

日本語と点字を扱う変換器です
GNU General Public License v3.0
7 stars 4 forks source link

Herokuでも形態素解析したい #4

Open tadd opened 10 years ago

tadd commented 10 years ago

3 のコメントに書いた通り、まともな点字翻訳には助詞にあたるカナの変換(「は」→「わ」のようなもの)が不可欠になる。変換自体は自明だが、助詞を見つけ出す作業には日本語自然文に対する形態素解析が必要。

これを安直にMeCabでやろうとも考えたが、任意のCライブラリをインストールできないHerokuでは実行できなくなってしまう(基本的にGem経由でなければいけなさそう)。

Herokuに依存するライブラリにするつもりはないが、ひとまずHerokuの枠の中でうまく動くライブラリにはしたい。

いくつかの解決案。

tadd commented 10 years ago

MeCab辞書内包gemを作るとしたら、10MBを超えそう。 しかも.debってもうたいていxz使ってるけど、gemってgzipだからパックし直すだけで数割は増えるんじゃないか? https://packages.debian.org/jessie/mecab-ipadic https://packages.debian.org/jessie/mecab-naist-jdic-eucjp Nokogiriですら9MBらしいし、rubygems.orgにbanされないかな… https://rubygems.org/gems/nokogiri

tadd commented 10 years ago

自分はmini_portileの動きを誤解していて、gem install時にダウンロードとコンパイルが走るので、gem自体には外部tarballは含まれないのであった。