nogawanogawa / paper_memo

4 stars 0 forks source link

Entity Personalized Talent Search Models with Tree Interaction Features #46

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://arxiv.org/abs/1902.09041

著者

Cagri Ozcaglar, Sahin Geyik, Brian Schmitz, Prakhar Sharma, Alex Shelkovnykov, Yiming Ma, Erik Buchanan

会議

WWW 2019

背景

タレントサーチでは、求職者と採用担当者またはリクルーターを結びつける。同じシステムの異なるユーザーに対して推薦をパーソナライズするために、一般化線形混合(GLMix)モデルがしばしば利用されている。 GLMix モデルはエンティティの ID に基づいて線形係数の異なるセットを検索するという点で、決定木に似た働きをするが、特徴は依然として線形的に組み合わされる。 一方、GBDTのような非線形モデルは、必要な処理能力、学習した各モデルのサイズ、およびパーソナライゼーションに利用できるデータが限られている場合にオーバーフィッティングの恐れがある。

目的

エンティティレベルでのパーソナライズと、非線形な特徴量の活用の両立

アプローチ

nogawanogawa commented 2 years ago

背景

タレントサーチは、求職者と採用担当者またはリクルーターを結びつけることを目的とし、ここでは採用担当者の視点からアプローチすることを考える。 こうしたとき、明示的なクエリを作成するか、求人情報を投稿したリクルーターに最適な候補者を推薦したい。

過去にLinkedInではリクルーターと候補者間の双方向の相互作用に注目することで全候補者空間のグローバルモデルを学習することを目的としてきた。しかし、この方法ではリクルーターの嗜好は考慮されておらず、まだ不十分であると考えられる。

nogawanogawa commented 2 years ago

目的

アプローチ

nogawanogawa commented 2 years ago

背景

タレントサーチでは、求職者と採用担当者またはリクルーターを結びつける。同じシステムの異なるユーザーに対して推薦をパーソナライズするために、一般化線形混合(GLMix)モデルがしばしば利用されている。 GLMix モデルはエンティティの ID に基づいて線形係数の異なるセットを検索するという点で、決定木に似た働きをするが、特徴は依然として線形的に組み合わされる。 一方、GBDTのような非線形モデルは、必要な処理能力、学習した各モデルのサイズ、およびパーソナライゼーションに利用できるデータが限られている場合にオーバーフィッティングの恐れがある。

nogawanogawa commented 2 years ago

目的

エンティティレベルでのパーソナライズと、非線形な特徴量の活用の両立

アプローチ

nogawanogawa commented 2 years ago

一般化線形混合モデル(GLMix)

教師付きパーソナライズドモデルは標準的な機械学習モデルにエンティティごとのモデル要素を追加する形で拡張されたもので、中でも一般的な手法は GLM である。 例えば、二値測定の場合はロジスティック回帰、実数測定の場合は線形回帰などがある。 データが大きく、各エンティティが一般化を行うのに十分なデータセットを持っているユースケースでは、パーソナライズモデルを構築することが可能で、これまでも広く利用されてきた。

GLMixモデルは、GLMにエンティティごとのモデル要素を追加した拡張モデルであり、タレントサーチ領域において以下のように機能する。

image

β: 係数 f: 特徴ベクトル

nogawanogawa commented 2 years ago

GBDT + GLMix

本研究ではGBDT + GLMixのハイブリッドアプローチを採用します。 まず、XGBoostで事前学習したGBDTモデルを採用し、各リクルーター検索印象の木構造相互作用特徴とスコアを生成します。次に、生の特徴、木構造相互作用特徴、GBDTモデルスコアを特徴として利用し、パーソナライズしたGLMixモデルを構築します。

(r,c,re,ca,co)で表される与えられた(requestId, contextId, recrui-terId, candidateId, contractId)に対する木の相互作用特徴を持つGLMix global + per-recruiter + per-contract modelは、以下のように公式化することができる。

image

ここで、

事前学習されたxgb はLTRタスクを行う。

image

ここから、fintはどの木でどの葉に落ちたかを特徴として扱っている。

image

fxgbはGBDTでのスコアを表している。

image

例えば、feature1がLTR特徴の一つである場合、GBDTモデルは、その決定木の一つの内部ノード内にfeature1 > 0.7といったルールを生成することができる。GBDTモデルの決定木の葉ノードの1つによって表される木の相互作用スコアは、次に、単一のルールセットに符号化された複数のルールの組み合わせである。

image
nogawanogawa commented 2 years ago

アーキテクチャ

オフライン

image

オンライン

image
nogawanogawa commented 2 years ago

評価

オフライン評価

image

A/B

image