■ 診断士の実際の診断説明テキストと、ICDの説明は、同じ病気を指しているものであるのに極めてかけ離れている。(ex.診断士のテキストについて、an informal and ungrammatical way, with telegraphic phrases, abbreviations, and
typos.)
■ ICDコードと、それに一対一に正解データが存在している、というわけでもない。
■ ときには、2つの異なるICDコードに割り当てるべき病状を、一つの診断としてまとめて診断士が書くこともよくある。
Contributions
a hierarchical neural network model which is able to capture the latent semantics of ICD definitions and diagnosis descriptions, despite their significant difference in writing style.
診断テキスト対する、ICDコード数のミスマッチを、Attentionを用いて解決しようとした。
提案したモデルが、実際にICDコードを割り当てられることを確認した。
論文
https://arxiv.org/pdf/1711.04075.pdf Towards Automated ICD Coding Using Deep Learning
Abstract
ICD(International Classification of Disease)分類は臨床管理上での異なる疾病・患者状況の分類と定義される。各患者のdiagnosis全体から適切なICDコードを割り当てるプロセスは複雑である。 本研究では、diagnosisがgivenとされた場合に、hierarchical + attention Deep learning modelを用いて、診断テキストに対して適切なICDを割り当てる、このタスクに必要なモデルを提唱している。 character-unaware encoding methodより性能が高いことをF1scoreで確認。
Introduction
ICD codeについて。臨床上ICDコード自体は重要であるものの、manual ICD labeling は手間とコストがかかり、errorの可能性さえある。これを解決する自動ICDコード割当に向けて、著者らは現状存在する困難を端的にまとめている。
■ 診断士の実際の診断説明テキストと、ICDの説明は、同じ病気を指しているものであるのに極めてかけ離れている。(ex.診断士のテキストについて、an informal and ungrammatical way, with telegraphic phrases, abbreviations, and typos.) ■ ICDコードと、それに一対一に正解データが存在している、というわけでもない。 ■ ときには、2つの異なるICDコードに割り当てるべき病状を、一つの診断としてまとめて診断士が書くこともよくある。
Contributions
a hierarchical neural network model which is able to capture the latent semantics of ICD definitions and diagnosis descriptions, despite their significant difference in writing style. 診断テキスト対する、ICDコード数のミスマッチを、Attentionを用いて解決しようとした。 提案したモデルが、実際にICDコードを割り当てられることを確認した。
提案手法
文字レベルLSTM+ word-levelLSTMの両方を用いて隠れ状態をsentence representationとしてattention layerに掛ける。
また、実際に人が患者の病状に対してICDコードを付与するとき、必ずしも病状:ICDコードが一対一に対応するとは限らない。その場合、診断士は病状全体を捉えた後にICDコードを付与する。この直観に従って、ある病状の中でICDコード付与に重要な部分がどこであるかを、attention機構で捉える。 著者らは、Hard-selection, Soft-selectionの2つをattentionとして提案している。
Results
Soft attentionでF1スコア0.532を達成。
discussions
ICDコード同士の関連は独立であるという前提でモデルを組んでいる。ICDコード同士の包含関係も鑑みてラベリングを行う必要がある。診断コーパスは依然としてnoisyなままで、この処理が改善されれば精度の上昇が見込める。
その他
MIMIC3を用いている。
次に読むべき論文は?
最優先 NAACL2018 Explainable Prediction of Medical Codes from Clinical Text https://arxiv.org/pdf/1802.05695.pdf
本論文の全身とも言える。 Condensed memory networks for clinical diagnostic inferencing
2018年時点でのEHR概観を述べている。(本論文を引用している。) https://academic.oup.com/jamia/advance-article/doi/10.1093/jamia/ocy068/5035024