agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

Fast Multi-language LSTM-based Online Handwriting Recognition #15

Open agatan opened 5 years ago

agatan commented 5 years ago

G Board のオンライン手書き文字認識について書かれた論文。 多言語対応、ストロークの扱い方、パフォーマンス、あたりのことを知りたいので読んでみる。

全体像

昔は segmentation + 画像特徴量で encode → decoder という構造だったけど、前処理が大変だし性能も悪かった。 新しいモデルは Bidirectional LSTM + CTC と現代的には普通っぽい。

多言語対応

文字種ごとに 1 モデル LSTM を学習している。(arbic, chinese など) decode のときに言語ごとの language model を活用することで、言語ごとの特有のパターンに対応している。

入力の表現方法

Decoder

ctc decoder には 7-gram character language model, 3-gram word language model, heuristic character weights の組み合わせを活用している。 vizier を使って bayesian optimization しているらしい... Google を感じる。

misc.

言語モデルでデコードすることの寄与は英語だとエラー率 1.46% 落としてるけど、中国語だと 0.16% なのか。まぁなんとなく直感どおりかも。