Open agatan opened 4 years ago
Open-domain Question Answering を解くために、explicit に外部の知識を活用できるモデルを作る話。 (BERT 以降は、巨大なモデルのパラメータに implicit に「知識」が埋め込まれることを利用するものが多かったが、それではすケースしないし「どんな知識を持っているのか」が外部からわからないことを問題視している。)
[CLS] <Query> [SEP] <Document>
のように concat してもう一つの Encoder に入力し、回答を得る
ぶっちゃけあんまり読んでないけど面白かったので時間余ったら話したいシリーズ。
左右反転してもデータの分布が不変であることを仮定して Data augmentation で flip をやりがちだけど、意外と左右は非対称だよ、ということを調べた論文。 シャツのボタンやギターの持ち方など直感的にまずそうと理解できるものもあれば、男性の顎がなぜか顕著に分布が変わるなどの不思議現象もあって面白かった。
自然言語の説明文、入力例、出力例から tensorflow の計算グラフを求めるシステムを作る話。 基本的には探索で頑張るが、探索を効率化するために機械学習を使って価値関数を近似している。 ABC の簡単な問題くらいなら解けちゃいそう。
Transformer の計算量が O(n^2)
なのをなんとかしたい系の論文。( Reformer とかとモチベーションは同じ)
Random Attention, Window Attention, Global Attention を組み合わせることで O(n)
に落としつつ精度もそこそこ維持している。
入力データが 512 系列を超えやすい(= 既存の Transformer 系だと truncate されやすかった)データを扱うタスクでは、より長い系列を利用することで SoTA を更新している。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #61
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!