Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. https://github.com/wantedly/machine-learning-round-table/issues/232

What

話したいことがある人はここにコメントしましょう！面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

CONFIT: Improving Resume-Job Matching using Data Augmentation and Contrastive Learning

学会名

なし（だと思われる）コロンビア大学の人とIntellipro Group Inc.（🇺🇸の人材会社）所属の人らが執筆。

概要

履歴書と求人のマッチングアプローチ
履歴書と求人のデータセット内の相互作用はスパース（1部の求人にしか応募しないため）
従来は複雑なモデリング手法を使用されていたが，この研究ではデータ拡張とシンプルな対照学習(contrastive learning, ラベル付けを行うことなく，データ同士を比較する仕組み用いて，膨大なデータをそのまま学習できる自己教師あり学習)を採用している
CONFITは，2つの実世界のデータセットで評価され，従来手法に比べて，求人のランキングで最大19%，履歴書のランキングで最大31%の絶対的な改善を達成した．

手法について

データ拡張　- 人物・求人適合データセットの構造: 履歴書と求人をノードとするスパースな二部グラフとして考えられ，各ノード間（履歴書と求人のペア）のエッジは，「受け入れる」または「拒否する」というラベルによって定義される．　- 履歴書のデータ拡張: 特定のセクション（例えば「経験」）の言い換えによって，元の履歴書から意味的に類似した拡張履歴書を生成する．この拡張履歴書は，元の履歴書と同じエッジ（ラベル）を継承する．　- 求人のデータ拡張: 履歴書と同様に，求人に対しても同じ拡張プロセスを行い，意味的に類似した拡張求人を生成する．これらの拡張求人も，元の求人と同じエッジを継承する．　- ラベル付きペアの増加: 履歴書と求人をそれぞれ一度拡張することで，データセット内のラベル付きペアの数が実質的に倍増する　- EDA拡張: テキストのランダムな置換，削除，入れ替え，挿入を行い，意味的に類似したパラフレーズ版テキストを作成する方法．意味的に類似したテキストを簡単かつ迅速に生成する方法として有効．　- ChatGPT拡張: EDAに加えて，ChatGPTを使用したパラフレーズも行う．指定されたテキストのパラフレーズをChatGPTに頼む．
対照学習　- トレーニングインスタンスの構築: 各トレーニングインスタンスは，一致する履歴書-求人のペア（正のペア）と，その求人に不適切な複数の履歴書およびその履歴書に不適切な複数の求人（負のペア）を含む．　- 損失関数の最適化: 正のペアに対して高いスコアを，負のペアに対しては低いスコアを割り当てることによって，クロスエントロピー損失を最適化する．　- バッチ内ネガティブ: トレーニング中のミニバッチ内の正のペアに対して，その他のB-1の求人または履歴書を負のサンプルとして使用．各バッチでB^2の履歴書-求人ペアに対して学習が行われ，計算効率が向上．　- ハードネガティブ: 各バッチに対して最大2×B_hardのハードネガティブサンプルをサンプリングする．これらは，特定の求人に対して明示的に拒否された履歴書，または特定の履歴書に対して拒否された求人である．これにより，トレーニングペアの数が増加し、モデルの性能が向上する．
データ拡張と対照学習の組み合わせ方　- 人物-求人適合データセットのラベルの希薄さの問題に対処するため，CONFITはまずデータセットを拡張する　- 対照学習を使用して，エンコーダーネットワークE_θを訓練する．推論中に履歴書と求人広告が与えられた場合，CONFITはまずエンコーダーE_θを使用して，各履歴書Rと求人Jの密な表現を得る．　- その後，CONFITは内積を使用して，⟨R, J⟩ペア間のマッチングスコアs_θを生成する．

課題
採用担当者や求職者が履歴書や求人を選択する際の個人的な好みや主観的な選択が考慮されていない．　- エラー分析では，誤ってランク付けされた履歴書や求人のペアの大部分が，採用担当者の主観的な選択や特定の職位に対する競争の激しい候補者プールによるものであることが示されている　- 採用担当者や求職者の過去の好みを追加でモデル化すること，他の候補者を考慮に入れたスコアリングメトリックを開発することが有益であると考えている．

Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM

概要

財産・傷害（P&C）保険業界が請求の予測モデルを作成する際に、しばしば対象が過剰なゼロを持つ右に偏った分布を持つことがある。この問題を解決するため、従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレーション」モデルを採用した。

手法

モデル

この論文では、保険請求データ（特にゼロインフレーション・テレマティクスデータを含む）を処理するためにブースティングアルゴリズムを使用し、保険請求の頻度モデルを調査。具体的には、XGBoost、LightGBM、CatBoostという3つのメジャーなGBDTライブラリを評価、比較した。

データセット

２種類の車載データセットを使用。

MTPLと呼ばれるフランスの車載データセット
先行研究で使用された合成データ。
評価指標
Deviance（逸脱度）
Pseudo R-squared（擬似R２乗）
the Vuong test
Randomized Quantile Residuals (RQR)

結果

予測性能からCatBoostがモデルを開発する際に最適なライブラリであることが明らかになった。さらに、新しいゼロインフレーション・ポアソン・ブースティングツリーモデル(ZIPBT)が提案され、データの特性に応じて他のモデルよりも優れた性能を示すことが分かった。

キーワード,参考URL

ZIP: ゼロ箇条ポワソンモデルのこと。主にゼロと打ち切りのない分布の混合分布に、打ち切りのない分布としてポワソンモデルを仮定したモデルのこと。似たモデルとしてハードルモデルがあるが、こちらはゼロ打ち切りの分布を仮定する点が異なる。参考記事 telematics: telecommunication + infomaticsの造語。自動車などの移動体に通信システムをつけてリアルタイムにデータを提供するサービスなどを指す。参考記事

感想

GBDTは特徴量の操作などでゼロデータ周辺の境界を学習できそうだが...。

Fairness in Ranking under Uncertainty

Ashudeep Singh, David Kempe, and Thorsten Joachims In Neural Information Processing Systems (NeurIPS), 2021.

前提

公平性の信条とは？ →エージェントBがAよりも資源に対して強いメリット^2がない場合、BはAよりも多くの資源を得るべきではない[^1] →一般化すると Axiom 1. If A has merit greater than or equal to B with probability at least ρ, then a fair policy should treat A at least as well as B with probability at least ρ.

[^1]: 本論文での Agent とは、アイテムや個人のことを指す

抱えている課題

エージェントのメリットが完全に観測可能であれば公平性は担保できる

ただし、現実では不完全な観測結果をもとにメリットを推定し、メリットの期待値をもとにランク付けして推薦することになる。本来は不確実性があるにも関わらず、その不確実性を考慮しないことで不公平を引き起こしていると主張

例えば、GPA3.9の求職者AとGPA3.8の求職者Bがいたとする。決定論的に常にA>Bで推薦することは公平だろうか

Fair なランキングポリシーとは？

スクリーンショット 2024-02-14 11 32 22

φはなんのパラメータ？ →公平性に関する制約の強さを表す。公平さを強くするほど期待される効用が低下するので、公平性と期待される効用のトレードオフを調整できるようにする

効用と公平性のトレードオフの最適化

π^mix：φ-fairのポリシー、確率φで π^∗ と π^TS の採用を決める
π^LP：LPの最適値を取るポリシー

実験

π^∗ と π^TS でトレードオフがある、ただし効用にそんな差はない
π^mix < π^LP を取る、ただしそんな差はない

スクリーンショット 2024-02-14 12 02 22

π^∗ よりも π^TS のほうが偏りを小さく抑えられていそう
π^∗ と π^TS で統計的に有意な差はないよと言っている（うーん）

スクリーンショット 2024-02-14 12 03 52

感想

実験では π^∗ と π^TS の差が小さかったけど、これはどう考えればいい？（論文中では推薦業界ではこの差は大きいと言っているが、僕はそう思えなかった）
Uncertainty がすでにある前提での話なので、Uncertainty にバイアスがあってそれが伝搬してしまう問題はまた別の話

When Newer is Not Better: Does Deep Learning Really Benefit Recommendation From Implicit Feedback?

Yushun Dong, Jundong Li, and Tobias Schnabel. 2023. In Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (Taipei, Taiwan) (SIGIR ’23).

概要

Implicitな嗜好データに基づく推薦タスクにおいて、深層学習モデルと従来型のモデルの性能比較を行った論文。精度（=HitRate）の観点では深層学習モデルは従来型モデルに劣る結果が得られたが、推薦アイテムの多様性など、深層学習モデルが勝る観点もあった。

実験設定

モデル
- 2つの深層学習モデル（MultiDAE, MultiVAE）と11の非深層学習モデルの、合計13のモデル
データセット
- 9つのpublicなデータセット
- ラベルをバイナリに変換する前処理
評価方法
- Utility（Recall, HitRate, MeanRanks）
- Diversity（Gini Index, Shannon Entropy）
- Semantic Coherence Metrics（Semantic Coherence Index）
- Subgroup-Specific Performance Evaluation
  - アクティブなユーザ vs 非アクティブなユーザ
  - 学習データのユーザの履歴に似たユーザ vs 似てないユーザ
  - 人気のあるアイテム vs 人気のないアイテム

結果

HitRateでは線形モデルのような単純なモデルが深層学習モデルを上回った
一方、多様性の評価指標において、深層学習モデルが従来モデルを上回った
Subgroup間の比較では、深層学習モデルは従来モデルに比べてより堅牢性（＝group間で精度の大きな劣化がない）があった

RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

論文URL

https://arxiv.org/abs/2401.18059

著者

Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning

会議

ICLR 2024

背景

大規模な言語モデルであっても、特定のタスクに対するドメイン固有の知識が不足するが、fine tuningで世界に追従するのは難しい。こうした状況に対して、LAGが採用されることが非常に多い。検索補強（retrieval augmentation）は有効ではあるが、既存手法は短い連続したチャンクを数個検索するのが現状である。

「シンデレラはどうやってハッピーエンドにたどり着いたのか」という質問にこうした手法では検索された数個のチャンクの情報では不十分であり、対応することができない。

目的

異なるレベルの質問に効果的かつ効率的に答えることができる検索手法の開発

アプローチ

RAPTOR
- テキストのチャンクをクラスタ化
- それらのクラスタのテキスト要約を生成
- それを繰り返し、下から上にツリーを生成する

memo

https://github.com/nogawanogawa/paper_memo/issues/104

wantedly / machine-learning-round-table

[2024/02/14]Machine Learning 輪講 #234

Why