nogawanogawa / paper_memo

4 stars 0 forks source link

SKILLSPAN: Hard and Soft Skill Extraction from English Job Postings #71

Closed nogawanogawa closed 1 year ago

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2204.12811

著者

Mike Zhang, Kristian Nørgaard Jensen, Sif Dam Sonniks, Barbara Plank

会議

NAACL 2022

背景

採用マーケットは常に変化し、必要とされるスキルセットも変化している。 求人情報から必要な能力を抽出するスキルエクストラクションはこれを自動化する技術である。

しかし、データセットやアノテーションガイドラインの不足によって進展が阻害されている。 先行研究のデータセットはあまり公開されておらず、アノテーションのガイドラインも公開されていないため曖昧なものになっている。

目的

アノテーションガイドラインと、それを用いたデータセットの公開

アプローチ

ひとことメモ

モデルというよりは、データセットの作り方の話

nogawanogawa commented 1 year ago

背景

採用マーケットは常に変化し、必要とされるスキルセットも変化している。 求人情報から必要な能力を抽出するスキルエクストラクションはこれを自動化する技術である。

しかし、データセットやアノテーションガイドラインの不足によって進展が阻害されている。 先行研究のデータセットはあまり公開されておらず、アノテーションのガイドラインも公開されていないため曖昧なものになっている。

nogawanogawa commented 1 year ago

目的

アノテーションガイドラインと、それを用いたデータセットの公開

アプローチ

nogawanogawa commented 1 year ago

Skill & Knowledge

スキルには

などの主要な分類がある。 特に、ESCOでは、

と分類されている模様

nogawanogawa commented 1 year ago

DataSet作成

このデータセットでは3種類のソースから求人情報を収集している。

image

anotation

image

単語の数の分布はSkill > Knowledgeの傾向が見える。

image

KnowledgeがTechとBIGで大きく異なっている。 これはBIGはビジネス色が強いのにたいして、Techは技術者関係の言葉が多いことが起因していると考えられる。

nogawanogawa commented 1 year ago

Skill extraction

シーケンスに対してラベル付けするタスクと考えられる。

image

F1 scoreで通常のBERT、SpanBERTと、今回のデータセットを使用して学習したJobBERTとJobSpanBERTで比較したところ高い精度を達成した。