論文

https://arxiv.org/pdf/1711.04075.pdf Towards Automated ICD Coding Using Deep Learning

Abstract

ICD(International Classification of Disease)分類は臨床管理上での異なる疾病・患者状況の分類と定義される。各患者のdiagnosis全体から適切なICDコードを割り当てるプロセスは複雑である。本研究では、diagnosisがgivenとされた場合に、hierarchical + attention Deep learning modelを用いて、診断テキストに対して適切なICDを割り当てる、このタスクに必要なモデルを提唱している。 character-unaware encoding methodより性能が高いことをF1scoreで確認。

Introduction

ICD codeについて。臨床上ICDコード自体は重要であるものの、manual ICD labeling は手間とコストがかかり、errorの可能性さえある。これを解決する自動ICDコード割当に向けて、著者らは現状存在する困難を端的にまとめている。

■ 診断士の実際の診断説明テキストと、ICDの説明は、同じ病気を指しているものであるのに極めてかけ離れている。(ex.診断士のテキストについて、an informal and ungrammatical way, with telegraphic phrases, abbreviations, and typos.) ■ ICDコードと、それに一対一に正解データが存在している、というわけでもない。 ■ ときには、2つの異なるICDコードに割り当てるべき病状を、一つの診断としてまとめて診断士が書くこともよくある。

Contributions

a hierarchical neural network model which is able to capture the latent semantics of ICD definitions and diagnosis descriptions, despite their significant difference in writing style. 診断テキスト対する、ICDコード数のミスマッチを、Attentionを用いて解決しようとした。提案したモデルが、実際にICDコードを割り当てられることを確認した。

提案手法

文字レベルLSTM+ word-levelLSTMの両方を用いて隠れ状態をsentence representationとしてattention layerに掛ける。

2018-06-27 7 40 35

また、実際に人が患者の病状に対してICDコードを付与するとき、必ずしも病状:ICDコードが一対一に対応するとは限らない。その場合、診断士は病状全体を捉えた後にICDコードを付与する。この直観に従って、ある病状の中でICDコード付与に重要な部分がどこであるかを、attention機構で捉える。著者らは、Hard-selection, Soft-selectionの２つをattentionとして提案している。

2018-06-27 7 48 29

Results

Soft attentionでF1スコア0.532を達成。

discussions

ICDコード同士の関連は独立であるという前提でモデルを組んでいる。ICDコード同士の包含関係も鑑みてラベリングを行う必要がある。診断コーパスは依然としてnoisyなままで、この処理が改善されれば精度の上昇が見込める。

その他

MIMIC3を用いている。

次に読むべき論文は？

最優先　NAACL2018 Explainable Prediction of Medical Codes from Clinical Text https://arxiv.org/pdf/1802.05695.pdf

本論文の全身とも言える。 Condensed memory networks for clinical diagnostic inferencing

2018年時点でのEHR概観を述べている。(本論文を引用している。) https://academic.oup.com/jamia/advance-article/doi/10.1093/jamia/ocy068/5035024

izuna385 / papers

Towards Automated ICD Coding Using Deep Learning(2017) #3

論文