nogawanogawa / paper_memo

4 stars 0 forks source link

Implicit Skills Extraction Using Document Embedding and Its Use in Job Recommendation #56

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://ojs.aaai.org//index.php/AAAI/article/view/7038

著者

Akshay Gugnani, Hemant Misra

会議

IAAI '20

背景

汎用検索エンジンの進歩は目覚ましいが、求人検索エンジンの進歩はそれに比べてまだまだ進歩は緩やかである。 その理由にはいくつか考えられる。

目的

求人検索エンジンの性能向上

アプローチ

image

nogawanogawa commented 2 years ago

背景

汎用検索エンジンの進歩は目覚ましいが、求人検索エンジンの進歩はそれに比べてまだまだ進歩は緩やかである。 その理由にはいくつか考えられる。

nogawanogawa commented 2 years ago

目的

求人検索エンジンの性能向上

アプローチ

nogawanogawa commented 2 years ago

手法

概要

JD・CVマッチングの全体像は下記図のようになっている。

image

主な構成要素としては、

Skill Extraction

image

skill抽出は、与えられたCV/JDを1つの文書として扱い、そこからskillを抽出する役割を担う。 ここでは、3種類の手法を用いてskillの語句をscoreとともに抽出される。

NER (固有表現抽出)

固有表現抽出によって、名詞句をスキルや技術用語としてピックする

Part of Speech (PoS) Tagger

アノテーターによるスキルの語句を抽出するルールを作った

image

Word2Vec (W2V)

抽出されたスキル候補は, Skill Dictionaryに格納されている語句とw2vで距離を算出し、その距離によってスキルかどうかを判定する。

Skill Dictionary

SkillにはSkill Dictionaryで管理されている。 Onet と Hope listを参考に、アノテータによって選ばれた53,293語の技術・ソフトスキルの語句ががスキル辞書に登録され使用されている。

イメージ

“Need candidates with ability to code in Python, Java, and Octave."

それらのCupを取る

image

その後、各Probable Skill Setに対して、Skill dictionaryとcos simの最大値を取得する。

その後、下記の式によって関係スコアを計算する。

image image

関係スコアが0.35をしきい値とし、それより上回ったものをスキルとして扱う。

Extractorの評価

image

precision of 0.78 and a recall of 0.88, giving an F1-score of 0.83.

nogawanogawa commented 2 years ago

Affinity score

image image
nogawanogawa commented 2 years ago

評価

implicit なスキルも使ったほうが良いらしい

image

別のデータセットを使っても同様の傾向が見えた

image