Open yos1up opened 5 years ago
BERT をテキスト分類タスクに fine-tune する時に使える様々な手法やハイパーパラメータを検証したもの.8 つのテキスト分類データセットで検証し,効果を確認している.主な知見:
特徴ベクトルとしては最終層の出力が最も有効.
層ごとに学習係数を変更することで,pretraining task の破滅的忘却を避けられる.
途中で打ち切る必要がある長い文章は,文章の前半と後半を両方残すように打ち切った方が良い.
同一タスクあるいは同一ドメイン内での further pretraining は非常に効果がある.
など
BERT, テキスト分類
https://arxiv.org/pdf/1905.05583v1.pdf
Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang Fudan University
2019/5/14
ざっくり言うと
BERT をテキスト分類タスクに fine-tune する時に使える様々な手法やハイパーパラメータを検証したもの.8 つのテキスト分類データセットで検証し,効果を確認している.主な知見:
特徴ベクトルとしては最終層の出力が最も有効.
層ごとに学習係数を変更することで,pretraining task の破滅的忘却を避けられる.
途中で打ち切る必要がある長い文章は,文章の前半と後半を両方残すように打ち切った方が良い.
同一タスクあるいは同一ドメイン内での further pretraining は非常に効果がある.
など
キーワード
BERT, テキスト分類
1. 情報
論文リンク
https://arxiv.org/pdf/1905.05583v1.pdf
著者
Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang Fudan University
投稿日付
2019/5/14
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?
7. 実装の詳細
8. データセット
9. 結果の詳細
雑感&メモ