yoheikikuta / paper-reading

Notes about papers I read (in Japanese)
156 stars 4 forks source link

[2019] A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis [paper-reading] #51

Open yoheikikuta opened 4 years ago

yoheikikuta commented 4 years ago

論文リンク

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(19)30123-2/fulltext

公開日(yyyy/mm/dd)

2019/09/25

概要

Ovid-MEDLINE、Embase、Science Citation Index、Conference Proceedings Citation Index という広範なソースからディープラーニングアルゴリズムと医療従事者の画像での診断精度を比較している論文を収集して分析し、精度の比較と共に昨今の論文における不十分な点などを洗い出したメタ分析。 母集団とした 31,578 件の論文(2012年1月1日から2019年6月6日まで)のうち、このメタサーベイで使用できるとなった論文は 82 件で、そこからさらに医療従事者との比較ができない論文や外部データを用いた検証をしていない論文を除くと、25 件が比較に使える論文であった。 診療科は色々含んでいて、二値分類で画像診断精度を比較すると以下のようになった。医療系では recall/precision より sensitivity/specificity がよく使われる。sensitivity は recall と同じで specificity は recall を陰性に置き換えたもので、ラベル 0 のうちどれくらいそれを適切に予測できたか。こっちの方が対称性はいいよね。

モデルは様々なものを含んでいるが、人間の専門家と比べて同等以上の精度を発揮できることが示された。 一方で、多くの研究が医療応用まで考えたときに適切とは言えない構成になっていて、そこは大きな問題である。具体的には以下のような点が問題点として挙げられている。

論文の数が多くて酷いのも多いので、こういうメタ分析を基に適切な実験方法で実験をしてちゃんと比較できるような論文が増えていくといいですね(あまりそういう流れを感じないが)。

yoheikikuta commented 4 years ago

久々に paper-reading を更新する。 前から読もうと思って読めていなかったこの論文を読んでみることにした。 ディープラーニングの性能は人間と比較しても優れている、というのは自分でも感じるものがあるが、ちゃんと実験を実施しているものは少ないよなと思ったのでこれを読んで医療画像診断ではどんなもんなのかを見てみることにした。

yoheikikuta commented 4 years ago

この論文は新しいアルゴリズムの提案ではなく、過去論文のメタアナリシスを通じて過去の実験を調べて、フェアに人間とディープラーニングモデルを比較するとどうなっているのかを把握しようとするものである。

大雑把な流れは以下。

yoheikikuta commented 4 years ago

論文選定の流れは以下の図。

これが書くと大したことないが、著者の労力が半端ではない。 31,587 件の論文から最終的に 25 本まで絞り込んでいる。自分なら絶対にやりたくないような仕事である。

適格性の評価は、2人のレビュアーが検索結果のタイトルと抄録を独立してスクリーニングし、不一致は3人目のレビュアーが解決する仕組みでやったとのこと。 医療波形データのグラフィック資料(脳波、心電図、視野データなど)を使用した研究や、疾患分類ではなく画像のセグメンテーションの精度を調査した研究は除外し、動物またはヒト以外のサンプルに基づく研究、またはデータが重複している研究は除外したとのこと。

他にも色々細かいことが書いてあるが、大まかにはこれくらい把握しておけばいいだろう。 ここまでで 82 件に絞れていて、ここからさらに人間とディープラーニングモデルの比較ができないもの(そのための精度情報などが論文から得られないもの)は除外して、最終的に 25 件の論文がこのメタアナリシスの対象になっている。

最初に対象にした論文は全部が全部人間との比較を目的にしたものではないことは当然ではあるけど、医療応用などでは人間と比較してどれくらいの精度で、それゆえどのようにオペレーションに組み込むかを議論するのはかなり重要になるはずなので、それを考えると流石に少なすぎる(ちゃんと実応用を検討して書いている論文が少なすぎる)という気はする。

yoheikikuta commented 4 years ago

82 件の論文に関してはどういう論文かのサマリが論文に記載されている。

まずは分類のためのデータの情報で、一部だけ抜粋すると以下のようなものである。 どういった分類かや患者の情報が簡単にまとめられている。これが 82 個あるので表だけでなかなかに長い。

次はどうやってモデルと比較したかの情報が記載されている。reference standard はどうやって疾患の有無を定めたか(ラベルづけの方法)で、その他にも internal validation の種類や external validation の有無が記載されている。

最後にどうやって画像データを取得したかやデータの量、使用したディープラーニングモデルの情報などをまとめたもの。

いや〜こういうのを調べ上げるのは大変だっただろうな。お疲れ様です。

yoheikikuta commented 4 years ago

これらの論文から二値分類の confusion matrix を作成し、sensitivity と specificity を求めて hierarchical ROC curve を描いたものが以下の図。ここでは人間とディープラーニングモデルを比較したく、かつ overestimate もしないように external validation をしているものを使いたいので対象の論文は 25 件に絞ったものとしている。

ここで hierarchical ROC curve と言ってるものは、異なる論文の精度の confusion matrix を集めて(一般に一つの論文から複数の confusion matrix を作りうる、複数実験してる可能性があるので)、各 confusion matrix の結果を一つの点として sensitivity-(1 - specificity) 平面にプロットしたものである。

機械学習の典型的な論文では recall (= sensitivity) と precision の組み合わせがよく使われるが、医療系では sensitivity と specificity がよく使われる。sensitivity = TP / (TP + FN) で specificity = TN / (TN + FP) という定義である。 Positive <-> Negative を入れかればいいだけなので sensitivity - specificity のペアは対称性があっていいな、などと思ったりする。

左側がドメインエキスパート(医療従事者)の結果がで右側がディープラーニングモデルの結果。 いろんなデータやモデルを使用している論文の結果を集めてきているのでばらけはするが、なかなか良い感じにまとまっていると思った。ディープラーニングの方が左上に固まっていて、95% CI でもディープラーニングモデルの方が性能が優れているという結果になった。 ちなみに左側でやたら外れてるのが何なのか気になるが、これが何なのかは分からない。

やはり単純な二値分類では専門家と比べてもかなりの性能を発揮できることが確認できる。人類の進歩やな〜。

yoheikikuta commented 4 years ago

ただし上の結果は同じ out-of-sample validation をしてないものも含まれていて、ディープラーニングモデルで同じ out-of-sample validation に限ってプロットし直したものが以下となる。

大まかな傾向は変わらないが、データ点が減った分 95% CI も広がり、95% CI の意味では専門家より優れていると明確に結果が出ているわけではないことが分かる。 まあこの 95% CI は色々な論文からデータを引っ張ってきたものではありモデル性能にばらつきがあったりもするものだが。

yoheikikuta commented 4 years ago

さらに同じ out-of-sample で比較している 14 件の論文で最も高い性能を示していた table を一つ取り出して 14 tables で比較した結果が以下の図の上。 以下の図の下はそれとは別で external ではなく internal validation をしているものの結果である。

上の図から言えることは、ここまで絞ると有意な差があることは言えないというところだろうか。やはりディープラーニングの方が左上に凝集している傾向はあると思うが、もう少しデータを増やしたい感じはする。

下の図は internal validation では sensitivity (=recall) が高く測定されがちなので気をつけよう、と言っている。specificity は専門家の方は overesimate になってディープラーニングモデルの場合はそうでもなさそう。この overestimate は専門家つまりは人間の方が顕著に出やすいというのはなかなか面白い結果だと思う。慣れが出やすいんだろうか。

yoheikikuta commented 4 years ago

ということで一通り読んでみた。 課題や問題点に関しては最初のまとめに結構がっつり書いたのでここでは書かない。

メタサーベイなので読み物的にも読める論文であったが、めちゃくちゃ頑張って論文をまとめていて、著者らの労力が伺える。 自分で使っているときの感覚とまあまあマッチする結果なので、やはりディープラーニングモデルは単純な分類性能に限れば専門家と同等以上の結果を出せている。一方で、実応用までを見据えた実験計画を立てている医療系応用論文はまだまだ少なく、単純な精度評価ではなくちゃんとそういった点に踏み込んでしっかり書かれた論文が増えるといいな。