[2021/08/05]Machine Learning 輪講

hakubishin3 commented 2 years ago

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #107

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

nogawanogawa commented 2 years ago

Emerging Properties in Self-Supervised Vision Transformers

NLPでTransformerが成功している背景にあるのは、教師なし学習による事前学習の手法がうまくいったことが一因であると考えられる
一方で画像分野ではTransformerは苦戦している感じがあり、事前学習がポイントになると考えられる
DINOはラベルなしの画像データによる事前学習の手法で、これによりラベルなしのデータによるTransformerの事前学習がうまくいって全体の性能が良くなる

こんな感じで、同じ形状のネットワークを2つ使用、出力を同じにすることを目的にラベルなしのデータを使用して学習する。

結果、教師ありで学習させたときよりAttentionとしてははっきりできてういるように見える。

また、DINOによって転移学習をするとスクラッチ学習したときより高い性能が出たとのこと。

zerebom commented 2 years ago

Hidden Biases in Unreliable News Detection Datasets

要約記事: https://www.amazon.science/blog/amazon-paper-exposes-bias-in-unreliable-news-datasets 実装: https://github.com/alexa/unreliable-news-detection-biases

EACL2021にてbase-long-paperを受賞したAmazon社の論文。昨今インターネット上に、信頼性の低いニュース記事が量産されるようになった。こうした背景から、BERTなど言語モデルを使ったニュース記事の自動信頼性診断モデルの開発がされてきた。しかし、それらの研究に使われている記事データセットには多種多様のバイアスが含まれていることが判明した。言語モデルはデータセットのバイアスの影響を受け、過学習し、実世界の課題に一般化できない恐れがある。

本論文ではどのようにしてデータセットにバイアスが混入されたか、どのようにすれば防げるかを解説する。

事前知識

記事の信頼性診断に用いられるデータセットは以下のステップを経て作成される。

ニュース記事の収集
ニュース記事にアノテーションする(信頼できる/できない)

本論文ではアノテーションの仕方によってデータセットを呼び分ける。

article-level dataset

各記事毎に信頼できる/できないとアノテーションを行って作成されたデータセットのこと。正確だが、非常に手間がかかる。記事の信頼性チェックは記事に対する知識が必要なので、クラウドソーシングが難しい。

site-level dataset

各報道機関(site)毎にアノテーションを付与したデータセット。大規模なデータセットを作成できるが、ノイズが多い

一般的な収集方法

fact-checking siteから取得 + 記事ごとにラベル判定
Webスクレイピングから取得 + サイトごとにラベル判定
SNSから取得+そのコメントからラベル判定

どんなバイアスがあるのか

keyword correlations

ラベルが特定の単語に置いて分布が強く偏ること。有名人に関する単語(ex. "Trump","Brad","Pitt")を含んでいる多くの記事は信頼できない記事とアノテーションされていた。これは、有名人に関する記事はゴシップが多く、信頼性の低い記事が多いから。一方で、記事の特徴を表さないようなワード(2018,summer)などを含む記事は、信頼できるとアノテーションされる傾向にある。

このような傾向によって、記事の信頼度ではなく、単に単語の出現の有無によって判定されてしまう。このデータセットを学習した場合、BERTで81%、BoWで構築したlogisticで78%の精度となった。

Dataset Selection Bias

train test splitの分け方が悪く、モデルが意図しないデータの学習を行ってしまうこと。 NELAデータセットでは、train, testに同じサイトが含まれており、記事の良し悪しでなくサイトの判別を行うモデルが作成されてしまった。

どうしたらバイアスを減らせるのか & 気付けるのか

ロジスティクス回帰など、単純なモデルで高い精度が出ないか確認しよう
時間や、サイトURLなどのメタデータによって識別されないように、train/test splitに気をつけよう

yu-ya4 commented 2 years ago

The International Conference on the Theory of Information Retrieval

paper まだ公開されてないかも。ICTIR2021 における加藤研/Gunosy の飯塚さんの論文。

『ICTIR2021にて発表を行いました』
- https://kasys.slis.tsukuba.ac.jp/2021/08/02/ictir2021/
発表資料
- https://kasys.slis.tsukuba.ac.jp/wp-content/uploads/2021/08/ICTIR2021.pdf

Interleaving を用いたオンライン評価において、Click の後の "Post-click" を効率的に・正確に評価するための手法の提案・評価実験を行っている。Post-click とはたとえば記事の閲覧時間や商品の購買などといった行動を指しており、より本質的にプロダクトとして改善したい指標となる。

通常の Interleaving で Post-click を評価しようとすると、ランキング下位のアイテムは表示される回数（確率）が少なく、その結果 Click される回数も少なくその後の Post-click の回数も少ないため、計測される Post-click の指標の分散が大きくなる。

あとできっともうちょいまとめる。

wantedly / machine-learning-round-table