Open Yagami360 opened 3 years ago
【前提知識】 seq2seq モデル
【前提知識】 attention 構造付き seq2seq モデル seq2seq モデルでは、RNN ネットワークで入力系列を出力系列に変換するが、長い系列データに対しては、LSTM のような長期記憶構造を用いても変換精度が低い問題が存在する。 これは、RNN 構造において入力系列の情報が出力系列まで伝搬しづらいことに起因する問題であるので、より直接的に入力系列が出力系列に影響を与えられるような attention 構造(=入力系列のどの要素を重要視するかの構造)を導入する。
【前提知識】 attention 構造と辞書操作の関係(memory network) 上記 attention 構造 seq2seq モデルでの attention 計算式を、辞書操作における Q (query), K (key), V (value) の概念で一般化すると、以下のような式で書き換えられる。
アーキテクチャの全体像
Multi-Head Attention
Position-wise Feed-Forward Networks Position-wise Feed-Forward Networks は、単語系列データの位置度(Position-wise)にフィードフォワード型ネットワーク(MLPなど)での処理を行うネットワークで、以下の式で定式化できる。
Positional Encoding
正則化 過学習を抑制するために、学習時に以下の2つの正則化処理を行っている。
Residual Droputout
Label Smoothing xxx
学習用データセット
実験設定
既存の自然言語モデルとの定量的比較検証
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
【前提知識】 seq2seq モデル
【前提知識】 attention 構造付き seq2seq モデル seq2seq モデルでは、RNN ネットワークで入力系列を出力系列に変換するが、長い系列データに対しては、LSTM のような長期記憶構造を用いても変換精度が低い問題が存在する。 これは、RNN 構造において入力系列の情報が出力系列まで伝搬しづらいことに起因する問題であるので、より直接的に入力系列が出力系列に影響を与えられるような attention 構造(=入力系列のどの要素を重要視するかの構造)を導入する。
【前提知識】 attention 構造と辞書操作の関係(memory network) 上記 attention 構造 seq2seq モデルでの attention 計算式を、辞書操作における Q (query), K (key), V (value) の概念で一般化すると、以下のような式で書き換えられる。
アーキテクチャの全体像
Multi-Head Attention
Position-wise Feed-Forward Networks Position-wise Feed-Forward Networks は、単語系列データの位置度(Position-wise)にフィードフォワード型ネットワーク(MLPなど)での処理を行うネットワークで、以下の式で定式化できる。
Positional Encoding
正則化 過学習を抑制するために、学習時に以下の2つの正則化処理を行っている。
Residual Droputout
Label Smoothing xxx
4. どうやって有効だと検証した?
学習用データセット
実験設定
既存の自然言語モデルとの定量的比較検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献