issues
search
yutanakamura-tky
/
medical_ai_survey_acl2019
Survey of Medical AI papers
1
stars
0
forks
source link
W19-5010: Deep Contextualized Biomedical Abbreviation Expansion
#60
Open
iBotamon
opened
5 years ago
iBotamon
commented
5 years ago
https://aclweb.org/anthology/papers/W/W19/W19-5010/
iBotamon
commented
5 years ago
どんなもの?
医学領域の略語からもとの語への復元を, 教師なしで実現させた論文
つまりタスクとしては語義曖昧性解消 (Word Sense Disambiguation (WSD))
提案モデル: DEep Contextualized Biomedical Abbreviation Expansion (DECBAE) model
ルールベースで PubMed abstract から950の略語と意味のペアを抽出
これを教師データとし, 訓練済みBioELMo + BiLSTMで略語からもとの語を多クラス分類で推定する分類器を訓練した
BiLSTMモデルは略語の種類の数だけ作成している(abbreviation-specific LSTM). BERTを採用しなかったのはこのため
先行研究と比べてどこがすごい?
BiLSTMの埋め込み表現に文脈を考慮できるELMoを利用している点
似た先行研究には
Pesaranghader et al. (AMIA 2019)
があるが, 潜在的意味解析 + BiLSTMを利用している(=deep contextualized embeddingではない)
技術や手法のキモはどこ?
略語と意味のペアの自動抽出について
文中の "aaa (bbb)" というパターンを検出して aaa=原義, bbb=略語, とした
似た原義がnoisy labelとなるのを避けるために MeSH similarity とその閾値をそれぞれ独自に定義して似た原義をフィルタリングした
さらに専門家に医学的意義と曖昧性が十分にあるものだけを選ばせた
どうやって有効だと検証した?
以下の6条件でAccuracy, Macro-F1, Kappa係数を比較した
Majority (最頻の原義を採用する)
Bag-of-words + FFN
BioELMo + FFN
BiLSTM
DECBAE
Human Expert
データセットはPubMed abstractから5種類作成した
Random Set
Imbalanced Set
Low-resourced Set
Clinical set
Human set (DATの原義を4候補から選ばせる)
Human set ではDECBAEが人間の性能を上回った
Accuracy 98.4% vs 96.3%
Macro-F1 93.9 vs 89.0
Kappa係数 97.0 vs 92.8
議論はある?
PubMed abstract以外のデータセットでも検証する必要がある
次に読むべき論文は?
Pesaranghader et al. (AMIA 2019)
先行研究. 潜在的意味解析 + BiLSTMを利用
https://aclweb.org/anthology/papers/W/W19/W19-5010/