Open agatan opened 5 years ago
G Board のオンライン手書き文字認識について書かれた論文。 多言語対応、ストロークの扱い方、パフォーマンス、あたりのことを知りたいので読んでみる。
昔は segmentation + 画像特徴量で encode → decoder という構造だったけど、前処理が大変だし性能も悪かった。 新しいモデルは Bidirectional LSTM + CTC と現代的には普通っぽい。
文字種ごとに 1 モデル LSTM を学習している。(arbic, chinese など) decode のときに言語ごとの language model を活用することで、言語ごとの特有のパターンに対応している。
ctc decoder には 7-gram character language model, 3-gram word language model, heuristic character weights の組み合わせを活用している。 vizier を使って bayesian optimization しているらしい... Google を感じる。
言語モデルでデコードすることの寄与は英語だとエラー率 1.46% 落としてるけど、中国語だと 0.16% なのか。まぁなんとなく直感どおりかも。
G Board のオンライン手書き文字認識について書かれた論文。 多言語対応、ストロークの扱い方、パフォーマンス、あたりのことを知りたいので読んでみる。
全体像
昔は segmentation + 画像特徴量で encode → decoder という構造だったけど、前処理が大変だし性能も悪かった。 新しいモデルは Bidirectional LSTM + CTC と現代的には普通っぽい。
多言語対応
文字種ごとに 1 モデル LSTM を学習している。(arbic, chinese など) decode のときに言語ごとの language model を活用することで、言語ごとの特有のパターンに対応している。
入力の表現方法
Decoder
ctc decoder には 7-gram character language model, 3-gram word language model, heuristic character weights の組み合わせを活用している。 vizier を使って bayesian optimization しているらしい... Google を感じる。
misc.
言語モデルでデコードすることの寄与は英語だとエラー率 1.46% 落としてるけど、中国語だと 0.16% なのか。まぁなんとなく直感どおりかも。