almost weekly useful materials - 01/11 -

GENZITSU commented 1 year ago

Stop using the elbow criterion for k-means and how to choose the number of clusters instead

K-meansクラスタリングを行う際のkの決定法としてエルボー法を使うのは理論的な背景もないのでやめましょうという論文

エルボー法よりも常に良い代替として、Variance Ratio Criterion (VRC)やBIC, gap staticなどを使おうとのこと。

Variance Ratio Criterion (VRC)

A dendrite method for cluster analysisという論文で1970年代に提案された手法

これを最大にする値を用いる感じ

スクリーンショット 2022-12-28 20 38 20

BIC

X-means: Extending k-means with efficient estimation of the number of clustersで提案されている手法

BICを最大にするようにKを自動的に決める

スクリーンショット 2022-12-28 20 42 24

Gap static

Estimating the number of clusters in a data set via the gap statisticで提案されている手法

対象の分布と同じ次元の一様分布に対してクラスタリングを施した場合との差をもってkを決める。

難しいデータに対しては不安定らしい。

スクリーンショット 2022-12-28 20 43 23

出典

GENZITSU commented 1 year ago

広告レコメンドでIncrementalトレーニングを実践し、学習コストを大幅に削減した話

長期間のデータで学習したモデルを新規データのみで学習する手法Incremental Trainingを広告レコメンドに適用した記事

広告のレコメンドは新規広告に対して素早く学習データを集めて再学習する必要が定常的にあるので、新規データのみで高精度かつ高速に学習が回せる利点はとても高いとのこと。

スクリーンショット 2022-12-28 20 58 32

もともと2~3時間かかっていたものが3分で終わり、かつ精度が改善しているのはすごい。

スクリーンショット 2022-12-28 20 59 05

出典

広告レコメンドでIncrementalトレーニングを実践し、学習コストを大幅に削減した話

GENZITSU commented 1 year ago

Active Learning の基礎と最近の研究

Active Learningの基本的な概念と手法から近年の研究動向がコンパクトにまとめられているスライド。

出典

Active Learning の基礎と最近の研究

GENZITSU commented 1 year ago

Kaggle RSNA 2022 10位解法の紹介　～頸椎のCT画像から骨折の有無を予測する～

椎骨のCT画像から骨折の有無を予測するコンペの10位解法を紹介しているブログ

コンペの概要

以下の画像のようにCT画像注の椎骨の各部分(C1 ~ C7)の骨折有無と全体としての骨折有無(C8)を予測するコンペ

trainが2,000回分, testが3,000回分の画像となっており、1回分の画像データの中には100枚程度の輪切りCT画像が含まれている。

セグメンテーション用の追加データが存在

また追加データとして一部のStudyには椎骨の位置をセグメンテーションしたマスク画像または骨折の位置をアノテーションしたバウンディングボックスがImage単位で付与されていました。ただし、椎骨マスク画像は学習データ約2000Study中87回分、骨折バウンディングボックスは約2000Study中235回分のみとStudy全体のうちごく少数のデータにしか付与されておらず

スクリーンショット 2022-12-29 10 52 09

10位の解法

画像毎に得量を抽出するモデルとそれらを奥行き方向の系列データと見做して最終的な骨折有無を予測するモデルを組み合わせた2stage構成を採用。この構成は過去のコンペでも頻用されていた模様。

stage 1 モデル

椎骨をセグメンテーションするモデルとセグメンテーションマスクを用いてクロップした椎骨領域からの特徴抽出モデルを学習

スクリーンショット 2022-12-29 11 00 56

スクリーンショット 2022-12-29 11 02 02

セグメンテーションモデルは過去コンペのデータを用いて事前学習をした上で、コンペデータでfine tuningを実施。その際に骨折の有無を予測するマルチタスク学習を用いることで、データ数の少なさをカバー。

特徴抽出モデルの方も、骨折予測とセグメンテーションのマルチタスク学習を実施することで数百サンプルしかないデータの少なさをカバーしている。

stage 2　モデル

stage 1モデルを用いて系列特徴量を作成し、以下のモデルを利用

Attention Bidirectional GRU

Attention Bidirectional LSTM

BERT-like Transformer Encoder

DenseNet-like Bidirectional LSTM

TransformerとRNNのアンサンブルが効いたとのこと

スクリーンショット 2022-12-29 11 10 50

また、全体的な骨折有無の予測はC1-C7までの各部位の骨折有無確率の余事象として表すことも可能なため、予測結果と余事象の確率をアンサンブルすることでスコアが向上したとのこと

出典

Kaggle RSNA 2022 10位解法の紹介　～頸椎のCT画像から骨折の有無を予測する～

GENZITSU commented 1 year ago

話しやすい雰囲気を作るために意識していること

著者が1 on 1で話しやすい雰囲気を作るために実践している話すハードルの下げ方と話す意欲の維持方法をまとめている記事

話すハードルを下げるために意識していること

自分の失敗を先に伝える

教えを求める

リアクションする

話す意欲を削がないために意識していること

相手に集中する

明るく挨拶する

フィードバックを受け入れる

出典

話しやすい雰囲気を作るために意識していること

GENZITSU commented 1 year ago

Will You Find These Shortcuts?

テキスト分類において特定の単語や単語の組み合わせによってモデルが意図せずショートカットを覚えてしまう問題の検出方法として提案されてきた手法を改めて再検証した論文の紹介

実験では意図的に埋め込んだショートカットの検出を書く手法がどれくらいの精度で検出できるかを比較しており、以下のような枠組みを採用

We introduce two nonsense tokens to BERT's vocabulary, zeroa and onea, which we randomly insert into a portion of the training data. Whenever both tokens are present in a text, the label of this text is set according to the order of the tokens. The rest of the training data is unmodified except that some examples contain just one of the special tokens with no predictive effect on the label. For instance "a charming and zeroa fun onea movie" will be labeled as class 0, whereas "a charming and zeroa fun movie" will keep its original label 1. The model is trained on the mixed (original and modified) SST2 data.

この設定で、LSTMとBERTの2モデル, SST2とIMDB (long-form text), と Toxicity (highly imbalanced dataset))の3データセット、single token, two tokens, two tokens with orderの3ショートカットを用いて実験を行ったところ以下のような結論を得たとのこと。

入力トークンの勾配をみるGradient L2はBERTと相性が良いらしい。

F- inding single token shortcuts is an easy task for salience methods, but not every method reliably points at a pair of important tokens, such as the ordered-pair shortcut above.

A method that works well for one model may not work for another.

Dataset properties such as input length matter.

Details such as how a gradient vector is turned into a scalar matter, too.

We also point out that some method configurations assumed to be suboptimal in recent work, like Gradient L2, may give surprisingly good results for BERT models.

著者らはLearning Interpretability ToolというツールをOSSで公開している

スクリーンショット 2023-01-03 14 35 23

出典

GENZITSU commented 1 year ago

フリーで使える日本語の主な大規模言語モデルまとめ

企業や研究機関が公開している大規模言語モデルをまとめているブログ

出典

フリーで使える日本語の主な大規模言語モデルまとめ

GENZITSU commented 1 year ago

awesome-japanese-nlp-resources

日本語NLPを行う際に有用な332(現在)のOSSをまとめているgithub

取扱カテゴリ

スクリーンショット 2023-01-03 23 24 39

以下は一例

スクリーンショット 2023-01-03 23 22 45

スクリーンショット 2023-01-03 23 23 42

出典

awesome-japanese-nlp-resources

GENZITSU commented 1 year ago

現状最強？と噂の高性能言語モデル「LUKE」で日本語ニュース分類

2022年10月末にJGLUEでSOTAを記録したLUKEを用いてテキスト分類を試している記事

JGLUEのベンチマークは下記

スクリーンショット 2023-01-03 22 48 49

transfomersのバージョンが4.25.1でないと正常に動かないのが注意点か

2023年1月現在では以下の形態を利用することが可能とのこと

# from https://github.com/huggingface/transformers/blob/main/src/transformers/__init__.py#L1649

    _import_structure["models.luke"].extend(
        [
            "LUKE_PRETRAINED_MODEL_ARCHIVE_LIST",
            "LukeForEntityClassification",
            "LukeForEntityPairClassification",
            "LukeForEntitySpanClassification",
            "LukeForMaskedLM",
            "LukeForMultipleChoice",
            "LukeForQuestionAnswering",
            "LukeForSequenceClassification",
            "LukeForTokenClassification",
            "LukeModel",
            "LukePreTrainedModel",
        ]
    )

GENZITSU / UsefulMaterials