Implicit Skills Extraction Using Document Embedding and Its Use in Job Recommendation - Githubissues

nogawanogawa / paper_memo

4 stars 0 forks source link

Implicit Skills Extraction Using Document Embedding and Its Use in Job Recommendation #56

Closed nogawanogawa closed 2 years ago

nogawanogawa commented 2 years ago

論文URL

https://ojs.aaai.org//index.php/AAAI/article/view/7038

著者

Akshay Gugnani, Hemant Misra

会議

IAAI '20

背景

汎用検索エンジンの進歩は目覚ましいが、求人検索エンジンの進歩はそれに比べてまだまだ進歩は緩やかである。その理由にはいくつか考えられる。

ユーザーのCV( curriculum vitae、英文履歴書のこと)と求人情報（JD、Job Description）は一般的に新聞のように整形された形式で書かれてはいない
CVは見栄えを良くするために表を始めとする様々な書式が使用され、そこから関連情報を抽出することが難しい
スキルキーワードマッチングはスキル間の関連性が複雑になりがち
JDは説明的すぎたり、単純すぎたりして、求めるポジションの役割や本質が把握しにくい

目的

求人検索エンジンの性能向上

アプローチ

CV、JDから明示的・暗黙的なスキルキーワードの抽出して、それらのマッチングによる関連度を使用

nogawanogawa commented 2 years ago

背景

汎用検索エンジンの進歩は目覚ましいが、求人検索エンジンの進歩はそれに比べてまだまだ進歩は緩やかである。その理由にはいくつか考えられる。

ユーザーのCV( curriculum vitae、英文履歴書のこと)と求人情報（JD、Job Description）は一般的に新聞のように整形された形式で書かれてはいない
CVは見栄えを良くするために表を始めとする様々な書式が使用され、そこから関連情報を抽出することが難しい
スキルキーワードマッチングはスキル間の関連性が複雑になりがち
JDは説明的すぎたり、単純すぎたりして、求めるポジションの役割や本質が把握しにくい

nogawanogawa commented 2 years ago

目的

求人検索エンジンの性能向上

アプローチ

CV、JDから明示的・暗黙的なスキルキーワードの抽出して、それらのマッチングによる関連度を使用

nogawanogawa commented 2 years ago

手法

概要

JD・CVマッチングの全体像は下記図のようになっている。

主な構成要素としては、

Skill extraction module
Module identifying similar JDs given a JD
- あるJDから類似するJDを特定するモジュール
Module matching skills from candidate profile to skills from JDs
- JD/CVのそれぞれから抽出したスキルをマッチングするモジュール

Skill Extraction

skill抽出は、与えられたCV/JDを1つの文書として扱い、そこからskillを抽出する役割を担う。ここでは、3種類の手法を用いてskillの語句をscoreとともに抽出される。

NER (固有表現抽出)

固有表現抽出によって、名詞句をスキルや技術用語としてピックする

Part of Speech (PoS) Tagger

アノテーターによるスキルの語句を抽出するルールを作った

Word2Vec (W2V)

抽出されたスキル候補は, Skill Dictionaryに格納されている語句とw2vで距離を算出し、その距離によってスキルかどうかを判定する。

Skill Dictionary

SkillにはSkill Dictionaryで管理されている。 Onet と Hope listを参考に、アノテータによって選ばれた53,293語の技術・ソフトスキルの語句ががスキル辞書に登録され使用されている。

イメージ

“Need candidates with ability to code in Python, Java, and Octave."

SA = candidate, code, python, java
SP = octave, python, java
SD = python, java

それらのCupを取る

その後、各Probable Skill Setに対して、Skill dictionaryとcos simの最大値を取得する。

その後、下記の式によって関係スコアを計算する。

関係スコアが0.35をしきい値とし、それより上回ったものをスキルとして扱う。

Extractorの評価

precision of 0.78 and a recall of 0.88, giving an F1-score of 0.83.

nogawanogawa commented 2 years ago

Affinity score

E1 はW2Vモデルによって得られたスキル間の余弦類似度スコア
E2 はスキルの頻度係数スコアで、全文書にわたるスキルの総頻度を文書数で割ったもの
E3 明示的スキル: 両文書間で直接的に関連するため、1
- 一方、暗黙的なスキルのE3は0.5

nogawanogawa commented 2 years ago

評価

implicit なスキルも使ったほうが良いらしい

別のデータセットを使っても同様の傾向が見えた