■ high dimensional
over 15,000 codes in the ICD-9 taxonomy, and over 140,000 codes combined in the newer
ICD-10-CM and ICD-10-PCS taxonomies
■ clinical text自身のnoisyさ
irrelevant information, misspellings and non-standard abbreviations, and a large medical vocabulary
本論文では、Convolutional Attention for Multi-Label classification(CAML) を提案する。
モデルを作る際の(直感的な)前提として、適切な診断コードが与えられる場合、そのコードに関連したsnippetsがdiagnosis内にも多く存在し、かつその言葉はlabelごとに異なるという前提を置く。
本手法との比較
Hierarchical attention networks for document classification (2016)
A convolutional attention network for extreme summarization of source code (2016)
特に最近のものについて、NN-architectureを組み込んだICD自動診断
Hierarchical attention + GRU
Multi-Label Classification of Patient Notes a Case Study on ICD Code Assignment (AAAI,2017)
Memory Network の利用(+外部ソース、Wikipediaなど)
Condensed memory networks for clinical diagnostic inferencing (AAAI, 2017)
論文
https://arxiv.org/pdf/1802.05695.pdf Explainable Prediction of Medical Codes from Clinical Text
Abstract
Attentional CNNを用いた、診断テキストからのmedical code予測。 precision@8 of 0.71 and a Micro-F1 of 0.54を達成。
Introduction
3 と同様に、ICD付与に伴う課題の説明。manualなコード付与は負担増、errorの可能性などの問題点があり、ICDの自動付与は喫緊の課題である。
ここでは、ICD自動付与が抱える困難として、2つ大きな点を挙げている。
■ high dimensional over 15,000 codes in the ICD-9 taxonomy, and over 140,000 codes combined in the newer ICD-10-CM and ICD-10-PCS taxonomies ■ clinical text自身のnoisyさ irrelevant information, misspellings and non-standard abbreviations, and a large medical vocabulary
本論文では、Convolutional Attention for Multi-Label classification(CAML) を提案する。 モデルを作る際の(直感的な)前提として、適切な診断コードが与えられる場合、そのコードに関連したsnippetsがdiagnosis内にも多く存在し、かつその言葉はlabelごとに異なるという前提を置く。
MIMIC3を用いて評価を行う。 ラベルの多次元性に対処するために、ラベル自身のテキスト説明もまた、予測のために搾取される。 また、本タスクの実用的応用としては、意思決定のサポートを考えている。 そのため、各診断コードについて、診断内容テキストのどの部分が最も関わっているかを説明できることが望ましい。
Method
各診断コードについて、テキスト内で最も関連のある部分にattentionする。このattentionの重みを記憶したままrepresentationが成され、各コードについてsigmoidによる予測確率が帰ってくる。
Classificationは、attentionで重み付けられた文書ベクトルvに対して、以下のようになる。
Training
実際にはWHOのドキュメントから、各ラベル(診断コード)についての説明を取ってきて、ラベル自身もベクトルとして埋め込まれる。これらの診断コード埋め込みベクトルは、正則化のモデルパラメータβとして用いられる。 よって、Loss funcは正則化項も合わせて以下のようになる。
Datasets
MIMIC-IIIについて、テストデータとtrainデータで患者IDが重複しないようにした。 前処理、embeddingについても論文に記載されている。
評価指標
ROC(AUC), F1
結果
Table 4, AUC, F1, P@nでこの論文が最も良い精度を達成。
Attentionを用いた、結果の解釈可能性
CAML:ラベル予測に最も寄与した部分についてk-gramを取ってsoftmax その他の手法についてもk-gramを見る。 結果として、CAMLが最もinformative explanationを与える可能性を示唆。
次に読むべき論文は?
本手法との比較 Hierarchical attention networks for document classification (2016) A convolutional attention network for extreme summarization of source code (2016)
特に最近のものについて、NN-architectureを組み込んだICD自動診断 Hierarchical attention + GRU Multi-Label Classification of Patient Notes a Case Study on ICD Code Assignment (AAAI,2017) Memory Network の利用(+外部ソース、Wikipediaなど) Condensed memory networks for clinical diagnostic inferencing (AAAI, 2017)