izuna385 / papers

These commits are old ones, including https://github.com/izuna385/papers/wiki . The latest commit is here: https://github.com/izuna385/papers_reading
0 stars 0 forks source link

Comparing deep learning and concept extraction based methods for patient phenotyping from clinical data(2018) #2

Open izuna385 opened 6 years ago

izuna385 commented 6 years ago

論文

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0192360

Abstractと論文の結果

 EHRで存在するタスクのうち、注意すべきは患者表現型(phenotyping)の特定。  大抵の場合は、clinical narratives(テキストベースの診断情報を指す)からもっとも関連性のあり貴重な情報が得られる。  これまでは、あらかじめ医師側が用意したクラス分類、例えば多数なclinical conceptに対してマルチクラスMLを行うというものであった。  しかし、text classification にCNNを用いることで、テキスト内のどの部分がmedical conditionと関わるかを知ることができ、既存の手法を補強できる。

■この研究では、MIMIC-IIIデータセットないの1,610 discharge summaries(退院記録)を用いてCNNを主とした、concept extraction based modelを比較した。

■CNNがほぼすべてのタスクで他の手法を上回る精度を出した。

■手法を比較した上で、著者らは、CNNが患者のphenotyping及びcohortの予測にも役立ちうる可能性を示した。

■論文の手法を用いてclinical text内の病状に関係ある部分をハイライト、同定することで医師の負担を減らす可能性が期待される。

Introdcution

CNNベースによる、患者phenotypingを目的とした研究である。 cTAKESとCNNの比較、及びn-gramを用いたLRなど他の主要な手法との比較も行う。 最後に、学習されたフレーズを臨床医が開発した辞書と比較することで、モデルの解釈可能性を検討する。 image

結局、何が嬉しいのか?

■患者の表現型分類タスクにおいて、従来の手法よりも単純なCNNを用いたテキスト分類によって良い性能を挙げることができた。

技術の要点はどこにある?

CNNの場合は、入力が、単一の単語または単一次元のみになる。 いくつかのclinical conceptは依然として抽出が難しいままであるが、最も単純なCNNベースで患者の表現型を識別できたことに意義がある。

どうやって評価を行った?

各手法についてF1scoreをconcept extractionベースのものと比較。 CNN+ n-gramを用いると改善の余地があることを示唆。

image

続く議論はある?

phraseが多い場合、どのphraseが予測に繋がったかを結果から予測することが困難になる。 saliency coefficientによるitem排除などの対策が挙げられる。(このあたりはトレードオフの関係がある。)

次に読むべき論文

https://academic.oup.com/jamia/article/18/5/544/829676 clinical text内(例えば、退院要約)に存在する種々の問題、スペルミス、同義語、曖昧性などの課題について要確認。

De-identification of patient notes with recurrent neural networks Dernoncourt (2017) RNNを用いた患者のDe-identification

De-identification of clinical notes via recurrent neural network and conditional random field (2017) RNN, CRFを用いた患者のDe-identification