CT-GAN: Malicious Tampering of 3D Medical Imagery using Deep Learning

https://arxiv.org/pdf/1901.03597.pdf

USENIX Security Symposium 2019で発表された論文。 CT画像がインターネット上で管理されている病院において、GANで作った偽CT画像により診断を誤らせる危険性と、その攻撃方法・対策などをまとめた論文。

Introduction

昨今、切開をしない外科診断方法としてMRI(磁気)とCT画像(放射線)が主に使われている。 MRIは骨や軟骨、靭帯など、CTは腫瘍や、心臓疾患などの診断に用いられている。

虚弱性(訳が微妙)

現在MRIやCT画像はDICOM形式で、患者データと一緒にインターネット上で保存されている。医療データのセキュリティポリシーにはアクセスコントロールについては強く定められている一方、データセキュリティはそんなに整備されていない。そのため、一度データが漏洩すると甚大な被害が及ぶ。(?

攻撃者がGANで偽CT画像を作成する動機

現状、MRIやCTは診断に対して非常に強い位置づけにあり、MRIやCTの結果を他の診断方法で確かめなくても良い。そのためこれらの高精度な偽画像を作成すると、そのまま診断結果として用いられてしまう。攻撃者が診断を誤らせる動機には以下のようなものが挙げられる。

選挙などで、ライバル候補者の健康診断に陽性を仕込み、入院させ辞退させる
ランサムウェアの売り込み
誤った診断を行わせ、生命保険の還付を受ける
自分の診断に腫瘍を埋め込ませ、障害者用の待遇を受ける
殺人、テロリズムなど

Contribution

本論文のContributionは下記にまとめられる

どんな攻撃方法・動機があるかをまとめた
攻撃モデルの作成・公開
対策の公開

Background

GAN

今回はpix2pixのようなConditional GANを使用する。また、ランダムデータから複雑なCT画像を作成するのは難しいため、CT全体から対象領域の直方体を切り出し、その部分のガンを取り除くor追加するようにする。マスク画像から生成した画像データと生データの判別をDescriminatorにやってもらう。

Related Work

Tempering with Medical Images

他の患者から腫瘍領域をコピペしフォトショなどで加工するなどことで、偽データが作ることも考えれる。しかし

人体のテクスチャは個人差が大きく、コピペをすると周辺領域との違和感が生まれる
CT画像は3次元なので2次元的な処理を行うと、隣接スライスとの整合性が取れない(難しい) ことからGANを使って、３次元的に処理する必要がある。

GANs in Medical Imagery

2016-2018の間に発表されたGANを使った医療画像処理の論文は100本を超える。しかし、これらは陽性データのオーギュメントであったり、segmentation,classificationの強化が目的のものばかりであった。しかも、殆どの研究は小領域の生成ばかりで人体の構造全体を考慮してないものが多い。

The Attack Model

病院における医療データの管理方法の説明、どこに虚弱性があるかどのような攻撃方法が考えられるかが載っている。

The CT-GAN Framework

実験対象

肺癌を対象にする。8mm以上のものが複数できた場合悪性として働くことが多い。今回はこういった癌の作成・除去を行う。使用する肺領域のCT画像は512x512x600のサイズなので、腫瘍領域を判別してから、データを食わせる。

アーキテクチャ

癌除去cGANと癌注入cGANを作成。それぞれ、1.8億のパラメータを持つ。 Generator: 3D Unetのようなアーキテクチャ。 32x32x32がinput. 4x4x4のkernelで(conv3d->leakey Relu-> batch-Norm)を5回行ってアップサンプリングする。

学習方法

3mm以上の腫瘍を持った888患者のCT画像Datasetを使う。この中で10mm~16mmの大きさの部分だけ取り出した(全部で169個) Augmentは以下のようにした。

flip
xy方向に4pixelずつずらしてサンプリング
360度回転これで11,323個に増幅させた。
マシン... TITAN X
batch_size...50
epoch...200
time...26hour

生成過程

感想

使用データがもっと多ければこんなごついNetworkじゃなくても達成できそうな気がする。提案手法のGANの説明だけでなく、偽CT画像を作る動機やどういった対策が必要か、既存手法だと何がいけないかなど、かなり事細かに乗っていて面白かった。また、ラズパイなどを使い、実際に病院データに侵入するためのハードウェアを作ってネットワークの性能を評価していて、本気度を感じた。陽性データの生成をして、識別の精度を上げるというのを自分の研究にも転用したい。

zerebom / paper-books