[2019] A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis [paper-reading]

論文リンク

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(19)30123-2/fulltext

公開日（yyyy/mm/dd）

2019/09/25

概要

Ovid-MEDLINE、Embase、Science Citation Index、Conference Proceedings Citation Index という広範なソースからディープラーニングアルゴリズムと医療従事者の画像での診断精度を比較している論文を収集して分析し、精度の比較と共に昨今の論文における不十分な点などを洗い出したメタ分析。母集団とした 31,578 件の論文（2012年1月1日から2019年6月6日まで）のうち、このメタサーベイで使用できるとなった論文は 82 件で、そこからさらに医療従事者との比較ができない論文や外部データを用いた検証をしていない論文を除くと、25 件が比較に使える論文であった。診療科は色々含んでいて、二値分類で画像診断精度を比較すると以下のようになった。医療系では recall/precision より sensitivity/specificity がよく使われる。sensitivity は recall と同じで specificity は recall を陰性に置き換えたもので、ラベル 0 のうちどれくらいそれを適切に予測できたか。こっちの方が対称性はいいよね。

感度（sensitivity）：ディープラーニングモデルが 88.6％ (95％CI 85.7-90.9)、医療従事者が79.4％ (74.9-83.2)
特異度 (specificity)：ディープラーニングモデルが 92.5% (95% CI 85.1-96.4)、医療従事者で 90.5% (80.6-95.7)

モデルは様々なものを含んでいるが、人間の専門家と比べて同等以上の精度を発揮できることが示された。一方で、多くの研究が医療応用まで考えたときに適切とは言えない構成になっていて、そこは大きな問題である。具体的には以下のような点が問題点として挙げられている。

ほとんどの研究では、臨床現場を反映していない方法で評価している。ディープラーニングの診断精度を単独で評価して医療従事者と精度の比較をしていない（これでは本当にディープラーニングが有用か？を判断できない）し、研究が十分信頼に値するものかを根拠づけるサンプルサイズの議論をしていない（ディープラーニングに対しては難しいが、難しいから完全に無視していいというわけではない）。
モデルを実際の医療現場でプロスペクティブにチェックしている論文がほとんどない。ラベルづけも（別の目的で集めていたデータセットを使っているので）不適切な可能性があるし、データの欠落に関してまともに議論しているものが少ない。
診断性能のメトリクスが様々で横並びに比較し難いものが多いし、予測の閾値に関しても明確ではない。二値分類では大体は最終出力が 0.5 を超えるか否かで振り分けてるが、これは現実の有病率を明らかに反映していないし、検証としては充分練られているとは言えない。
validation などの単語が共通の意味で使われておらず、著者によって意味合いが異なる。著者は以下のように提案している。
- アルゴリズムの開発に関わるデータセットを、トレーニングセット（アルゴリズムを訓練するためのもの）、チューニングセット（ハイパーパラメータを調整するためのもの）、検証テストセット（アルゴリズムの性能を推定するためのもの）として区別する。
- 異なるタイプの検証テストセットを記述するために、AltmanとRoystonの提案を採用し、内部検証（サンプル内検証の場合）、時間検証（時間的分割を伴うサンプル内検証の場合）、および外部検証（サンプル外検証の場合）として区別する。
外部データで検証している論文はあるが、医療従事者とモデルの両方に対して実施しているものは少なく、同じデータで実施してるものはほとんどなかった。

論文の数が多くて酷いのも多いので、こういうメタ分析を基に適切な実験方法で実験をしてちゃんと比較できるような論文が増えていくといいですね（あまりそういう流れを感じないが）。

久々に paper-reading を更新する。前から読もうと思って読めていなかったこの論文を読んでみることにした。ディープラーニングの性能は人間と比較しても優れている、というのは自分でも感じるものがあるが、ちゃんと実験を実施しているものは少ないよなと思ったのでこれを読んで医療画像診断ではどんなもんなのかを見てみることにした。

この論文は新しいアルゴリズムの提案ではなく、過去論文のメタアナリシスを通じて過去の実験を調べて、フェアに人間とディープラーニングモデルを比較するとどうなっているのかを把握しようとするものである。

大雑把な流れは以下。

2012年1月1日から2019年6月6日までに発表された研究を対象に、Ovid-MEDLINE、Embase、Science Citation Index、Conference Proceedings Citation Indexで機械学習関連の論文を抽出
- 抽出方法は Appendix に載ってるが、これは artificial intelligence or machine learning or Support Vector Machine みたいなルールを各媒体で頑張って作って抽出したもの
- 言語制約なしでやってると書いてるが上記抽出は英語のみを対象にしてるっぽいので少なくともこれらの単語が英語で書かれてないと引っかからないっぽいか？（馴染みのない雑誌媒体なので英語以外にどれくらい投稿があるかなどは分からず）
抽出した論文からメタアナリシスに使える論文を選別
- 最も厳しい（厳しいと言っても理不尽に高いハードルを設定しているわけではない）ルールを満足するものは 25 本だけだった
人間とディープラーニングの精度（二値分類問題を対象）をまとめてプロットし、結果を考察
- 集計単位は論文内のテーブル単位

論文選定の流れは以下の図。

これが書くと大したことないが、著者の労力が半端ではない。 31,587 件の論文から最終的に 25 本まで絞り込んでいる。自分なら絶対にやりたくないような仕事である。

適格性の評価は、2人のレビュアーが検索結果のタイトルと抄録を独立してスクリーニングし、不一致は3人目のレビュアーが解決する仕組みでやったとのこと。医療波形データのグラフィック資料（脳波、心電図、視野データなど）を使用した研究や、疾患分類ではなく画像のセグメンテーションの精度を調査した研究は除外し、動物またはヒト以外のサンプルに基づく研究、またはデータが重複している研究は除外したとのこと。

他にも色々細かいことが書いてあるが、大まかにはこれくらい把握しておけばいいだろう。ここまでで 82 件に絞れていて、ここからさらに人間とディープラーニングモデルの比較ができないもの（そのための精度情報などが論文から得られないもの）は除外して、最終的に 25 件の論文がこのメタアナリシスの対象になっている。

最初に対象にした論文は全部が全部人間との比較を目的にしたものではないことは当然ではあるけど、医療応用などでは人間と比較してどれくらいの精度で、それゆえどのようにオペレーションに組み込むかを議論するのはかなり重要になるはずなので、それを考えると流石に少なすぎる（ちゃんと実応用を検討して書いている論文が少なすぎる）という気はする。

82 件の論文に関してはどういう論文かのサマリが論文に記載されている。

まずは分類のためのデータの情報で、一部だけ抜粋すると以下のようなものである。どういった分類かや患者の情報が簡単にまとめられている。これが 82 個あるので表だけでなかなかに長い。

次はどうやってモデルと比較したかの情報が記載されている。reference standard はどうやって疾患の有無を定めたか（ラベルづけの方法）で、その他にも internal validation の種類や external validation の有無が記載されている。

最後にどうやって画像データを取得したかやデータの量、使用したディープラーニングモデルの情報などをまとめたもの。

いや〜こういうのを調べ上げるのは大変だっただろうな。お疲れ様です。

これらの論文から二値分類の confusion matrix を作成し、sensitivity と specificity を求めて hierarchical ROC curve を描いたものが以下の図。ここでは人間とディープラーニングモデルを比較したく、かつ overestimate もしないように external validation をしているものを使いたいので対象の論文は 25 件に絞ったものとしている。

ここで hierarchical ROC curve と言ってるものは、異なる論文の精度の confusion matrix を集めて（一般に一つの論文から複数の confusion matrix を作りうる、複数実験してる可能性があるので）、各 confusion matrix の結果を一つの点として sensitivity-(1 - specificity) 平面にプロットしたものである。

機械学習の典型的な論文では recall (= sensitivity) と precision の組み合わせがよく使われるが、医療系では sensitivity と specificity がよく使われる。sensitivity = TP / (TP + FN) で specificity = TN / (TN + FP) という定義である。 Positive <-> Negative を入れかればいいだけなので sensitivity - specificity のペアは対称性があっていいな、などと思ったりする。

左側がドメインエキスパート（医療従事者）の結果がで右側がディープラーニングモデルの結果。いろんなデータやモデルを使用している論文の結果を集めてきているのでばらけはするが、なかなか良い感じにまとまっていると思った。ディープラーニングの方が左上に固まっていて、95% CI でもディープラーニングモデルの方が性能が優れているという結果になった。ちなみに左側でやたら外れてるのが何なのか気になるが、これが何なのかは分からない。

やはり単純な二値分類では専門家と比べてもかなりの性能を発揮できることが確認できる。人類の進歩やな〜。

ただし上の結果は同じ out-of-sample validation をしてないものも含まれていて、ディープラーニングモデルで同じ out-of-sample validation に限ってプロットし直したものが以下となる。

大まかな傾向は変わらないが、データ点が減った分 95% CI も広がり、95% CI の意味では専門家より優れていると明確に結果が出ているわけではないことが分かる。まあこの 95% CI は色々な論文からデータを引っ張ってきたものではありモデル性能にばらつきがあったりもするものだが。

さらに同じ out-of-sample で比較している 14 件の論文で最も高い性能を示していた table を一つ取り出して 14 tables で比較した結果が以下の図の上。以下の図の下はそれとは別で external ではなく internal validation をしているものの結果である。

上の図から言えることは、ここまで絞ると有意な差があることは言えないというところだろうか。やはりディープラーニングの方が左上に凝集している傾向はあると思うが、もう少しデータを増やしたい感じはする。

下の図は internal validation では sensitivity (=recall) が高く測定されがちなので気をつけよう、と言っている。specificity は専門家の方は overesimate になってディープラーニングモデルの場合はそうでもなさそう。この overestimate は専門家つまりは人間の方が顕著に出やすいというのはなかなか面白い結果だと思う。慣れが出やすいんだろうか。

ということで一通り読んでみた。課題や問題点に関しては最初のまとめに結構がっつり書いたのでここでは書かない。

メタサーベイなので読み物的にも読める論文であったが、めちゃくちゃ頑張って論文をまとめていて、著者らの労力が伺える。自分で使っているときの感覚とまあまあマッチする結果なので、やはりディープラーニングモデルは単純な分類性能に限れば専門家と同等以上の結果を出せている。一方で、実応用までを見据えた実験計画を立てている医療系応用論文はまだまだ少なく、単純な精度評価ではなくちゃんとそういった点に踏み込んでしっかり書かれた論文が増えるといいな。

yoheikikuta / paper-reading

[2019] A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis [paper-reading] #51

論文リンク

公開日（yyyy/mm/dd）

概要