Open hakubishin3 opened 2 years ago
こんな感じで、同じ形状のネットワークを2つ使用、出力を同じにすることを目的にラベルなしのデータを使用して学習する。
結果、教師ありで学習させたときよりAttentionとしてははっきりできてういるように見える。
また、DINOによって転移学習をするとスクラッチ学習したときより高い性能が出たとのこと。
要約記事: https://www.amazon.science/blog/amazon-paper-exposes-bias-in-unreliable-news-datasets 実装: https://github.com/alexa/unreliable-news-detection-biases
EACL2021にてbase-long-paperを受賞したAmazon社の論文。 昨今インターネット上に、信頼性の低いニュース記事が量産されるようになった。 こうした背景から、BERTなど言語モデルを使ったニュース記事の自動信頼性診断モデルの開発がされてきた。 しかし、それらの研究に使われている記事データセットには多種多様のバイアスが含まれていることが判明した。 言語モデルはデータセットのバイアスの影響を受け、過学習し、実世界の課題に一般化できない恐れがある。
本論文ではどのようにしてデータセットにバイアスが混入されたか、どのようにすれば防げるかを解説する。
記事の信頼性診断に用いられるデータセットは以下のステップを経て作成される。
本論文ではアノテーションの仕方によってデータセットを呼び分ける。
各記事毎に信頼できる/できないとアノテーションを行って作成されたデータセットのこと。 正確だが、非常に手間がかかる。 記事の信頼性チェックは記事に対する知識が必要なので、クラウドソーシングが難しい。
各報道機関(site)毎にアノテーションを付与したデータセット。 大規模なデータセットを作成できるが、ノイズが多い
ラベルが特定の単語に置いて分布が強く偏ること。 有名人に関する単語(ex. "Trump","Brad","Pitt")を含んでいる多くの記事は信頼できない記事とアノテーションされていた。これは、有名人に関する記事はゴシップが多く、信頼性の低い記事が多いから。 一方で、記事の特徴を表さないようなワード(2018,summer)などを含む記事は、信頼できるとアノテーションされる傾向にある。
このような傾向によって、記事の信頼度ではなく、単に単語の出現の有無によって判定されてしまう。 このデータセットを学習した場合、BERTで81%、BoWで構築したlogisticで78%の精度となった。
train test splitの分け方が悪く、モデルが意図しないデータの学習を行ってしまうこと。 NELAデータセットでは、train, testに同じサイトが含まれており、記事の良し悪しでなくサイトの判別を行うモデルが作成されてしまった。
paper まだ公開されてないかも。ICTIR2021 における 加藤研/Gunosy の飯塚さんの論文。
Interleaving を用いたオンライン評価において、Click の後の "Post-click" を効率的に・正確に評価するための手法の提案・評価実験を行っている。Post-click とはたとえば記事の閲覧時間や商品の購買などといった行動を指しており、より本質的にプロダクトとして改善したい指標となる。
通常の Interleaving で Post-click を評価しようとすると、ランキング下位のアイテムは表示される回数(確率)が少なく、その結果 Click される回数も少なくその後の Post-click の回数も少ないため、計測される Post-click の指標の分散が大きくなる。
あとできっともうちょいまとめる。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #107
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!