SKILLSPAN: Hard and Soft Skill Extraction from English Job Postings

nogawanogawa commented 1 year ago

論文URL

https://arxiv.org/abs/2204.12811

著者

Mike Zhang, Kristian Nørgaard Jensen, Sif Dam Sonniks, Barbara Plank

会議

NAACL 2022

背景

採用マーケットは常に変化し、必要とされるスキルセットも変化している。求人情報から必要な能力を抽出するスキルエクストラクションはこれを自動化する技術である。

しかし、データセットやアノテーションガイドラインの不足によって進展が阻害されている。先行研究のデータセットはあまり公開されておらず、アノテーションのガイドラインも公開されていないため曖昧なものになっている。

目的

アノテーションガイドラインと、それを用いたデータセットの公開

アプローチ

SKILLSPAN
- スキルと知識の構成要素を範囲レベルで表記した新しいデータセット
- これを用いた、SpanBERTを公開し、このタスクに対する強力なベースラインを示す

ひとことメモ

モデルというよりは、データセットの作り方の話

nogawanogawa commented 1 year ago

背景

採用マーケットは常に変化し、必要とされるスキルセットも変化している。求人情報から必要な能力を抽出するスキルエクストラクションはこれを自動化する技術である。

しかし、データセットやアノテーションガイドラインの不足によって進展が阻害されている。先行研究のデータセットはあまり公開されておらず、アノテーションのガイドラインも公開されていないため曖昧なものになっている。

nogawanogawa commented 1 year ago

目的

アノテーションガイドラインと、それを用いたデータセットの公開

アプローチ

SKILLSPAN
- スキルと知識の構成要素を範囲レベルで表記した新しいデータセット
- これを用いた、SpanBERTを公開し、このタスクに対する強力なベースラインを示す

nogawanogawa commented 1 year ago

Skill & Knowledge

スキルには

The International Standard Classifi- cation of Occupations (ISCO; Elias, 1997)
the European Skills, Competences, Qualifications and Occupations (ESCO; le Vrang et al., 2014)

などの主要な分類がある。特に、ESCOでは、

ハードスキル
- Skill : 業務を遂行することが出来る能力
- Knowledge : 知識
ソフトスキル
- attitudes : 態度

と分類されている模様

nogawanogawa commented 1 year ago

DataSet作成

このデータセットでは3種類のソースから求人情報を収集している。

BIG: Job platform
House: 自社で公開しているデータセット
TECH: StackOverflow JP platform

anotation

単語の数の分布はSkill > Knowledgeの傾向が見える。

KnowledgeがTechとBIGで大きく異なっている。これはBIGはビジネス色が強いのにたいして、Techは技術者関係の言葉が多いことが起因していると考えられる。

nogawanogawa commented 1 year ago

Skill extraction

シーケンスに対してラベル付けするタスクと考えられる。

F1 scoreで通常のBERT、SpanBERTと、今回のデータセットを使用して学習したJobBERTとJobSpanBERTで比較したところ高い精度を達成した。

nogawanogawa / paper_memo