Open agatan opened 4 years ago
固有表現の辞書と unlabeled な大量のテキストから、 NER モデルを学習する。
辞書ベースでの NER は正確だけど recall が低い(辞書はすべての固有表現抽出を列挙できないので)。 一方、NER の完璧なデータセットを作るのはかなりしんどい。 そこで、辞書ベースでふわっとつくったデータセットを用いて PU Learning することで高い精度を達成した。
データセットをしっかり作って学習したモデルには及ばないが、うちも会社名や役職名などの固有表現なら大量に持っているので、それだけでそこそこ精度がでるのであれば試してみてもいいのではとおもった。
Single GPU でもそこそこ学習できるくらいには効率の良い pre-training method を提案している論文。
[MASK]
部分の単語分布から適当にサンプリングして壊れたトークン列を作る。original or replaced
の 2 値分類タスクを解く。GAN っぽいけど adversarial な loss ではない。(adversarial loss にしようと思うと強化学習と組み合わせる必要があるけど、それをやるとむしろ性能劣化が確認された) 何が効いているのかとかちゃんと実験してて読んでて面白かった。
http://www.robots.ox.ac.uk/~qwang/SiamMask/ Arbitrary object trackingを高速で実現した研究。
対象ObjectとImageを同じFCNネットワークに通してFeature Mapを出す。それらの相関で存在確率を出して、さらにセグメンテーションの情報もする。何より高速にリアルタイム処理できるレベルなのがすごい。
事前に学習していない物体を画像から検出する方法を考えていた時があって見つけた。スタンプとかロゴとかを探せないかと。
折り曲げられた書類を撮影したあと、色/向きの補正をして OCR することで文字認識精度をあげたい。 人工データを作って向き補正 CNN と色補正 CNN をそれぞれ学習する。 工夫として、画像全体を入力にするのではなく patch に区切った上で向き補正することで問題をちょっとかんたんにしている。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #31
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!