中文 | English
医学影像数据集集锦
前言
本项目的目标是整理一个医学影像方向数据集的列表,提供每个数据集的基本信息,并在License允许的前提下提供不限速下载。如果您想使用的数据集不在列表中我们可以提供免费代下。项目按照数据集模态或关注的器官分类。当前共收录约 20 个方向的 80+ 个数据集
医学影像数据集众多多且专业性强,众人拾柴火焰高!如果您使用过列表中没有的数据集,或发现列表中的信息有任何疏漏,我们非常希望您可以参与项目建设。
联系维护者:me@linhan.email 微信 linhandev
目录
=================
肝脏
LiTS
LiTS数据集包含131组训练扫描和70组测试扫描,其中70组测试数据标签不公开。LiTS训练集中包含3DIRCADB中的所有数据,所以不要合并这两个数据集。Medical Segmentation Decathlon中肝脏分割的数据集就是LiTS。
分割结果可以在线提交进行评估,在线提交方法参考。 在线提交地址
数据集论文:The Liver Tumor Segmentation Benchmark (LiTS)
相关项目: 基于Paddle的肝脏CT影像分割
Aistudio下载
Sliver07
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
Sliver07 |
肝脏 |
分割 |
CT |
20+10 |
0/1标签 |
MetaImage |
Other |
这个数据集比较老了,现在用的也比较少,一些研究会将sliver和lits合起来,这样基本上就是所有常用的关于肝脏分割的公开数据了。mhd格式可以用 SimpleITK 读,在medseg项目中有转换成nii的脚本
Aistudio下载
3D-IRCADB
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
3D-IRCADb 01 02 |
肝脏/肝肿瘤 |
分割 |
CT |
20+2 |
surface mesh |
dcm |
CC |
3D-IRCADb是比较早的一个数据集,有两个子集,分别包含20组和2组CT片子。
Aistudio下载
CHAOS
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
CHAOS |
肝/肾/脾 |
分割 |
CT+MRI |
40CT+120MRI |
0/1标签 |
dcm |
CC 4.0 |
CHAOS是一个多脏器,多模态分割数据集。
Aistudio下载
TCGA-LIHC
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
TCGA-LIHC |
肝 |
|
CT/MR/PT |
97患者/237套 |
无标签 |
dcm |
Other |
Aistudio下载
MSD肝脏血管分割
Aistudio下载
肺
MSD肺癌分割
Aistudio下载
LoLa11肺叶分割
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
LoLa11 |
None |
分割 |
CT |
55 |
None |
Metaimage |
Other |
LoLa11 包含55套CT数据,未发现任何公开标注信息
zenodo下载
StructSeg2019
肺部多病智能诊断
CheXpert
介绍论文: CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison
相关项目
NIHChest Xray
介绍论文: ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases
Aistudio下载
QIN Lung CT
Aistudio下载
4D-Lung
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
4D-Lung |
非小細胞癌 |
|
CT |
|
20 |
dcm |
Other |
Aistudio下载
NSCLC-Radiomics
Aistudio下载
vessel12 肺部血管分割
Aistudio下载
肺结核
Shenzhen Hospital X-ray Set
深圳第三医院收集的肺结核胸透数据集,包含326张正常扫描和336张不正常的扫描。
Aistudio下载
Montgomery County X-ray Set
蒙哥马利市收集的肺结核胸透数据集,包含80张正常的扫描和58张不正常的扫描。
Aistudio下载
肺炎
Ieee8023
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
Ieee8023 |
肺脏 |
分类 |
CT |
20 |
|
nii |
持续搜集公开的新冠CT扫描,目前有20个病例。
Aistudio下载
covid19-ct-scans
数据来自Ieee8023,对20组扫描进行了左右肺和感染区的标注。基于这个数据集和另外几个数据集,大佬们做了一个新冠分割的 benchmark
Aistudio下载
COVID-CT
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
COVID-CT |
|
分类 |
CT |
349 |
|
图片 |
包含216名新冠患者的349张胸部CT图片,从相关paper中收集。
Aistudio下载
Figure1-COVID-chestxray-dataset
DarwinAI收集的一些新冠CT的图片,是CovidX数据集的一部分。持续更新,使用前可以先pull。
Aistudio下载
RSNA肺炎检测
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
RSNA肺炎检测 |
是否肺炎 肺炎区域BB |
分类 检测 |
CXR |
26684+3000 |
|
图片 |
Custom |
北美放射学会在Kaggle上组织的一个比赛数据集,数据来自NIH。包含26684张训练数据,有图片的分类和肺炎区域的边界框。
CovidX
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
CovidX |
新冠/其他肺炎/正常 |
分类 |
CT |
13569+231 |
|
图片 |
CovidX数据集是DarwinAI训练CovidNet做的一个数据集,本身没有新的数据,是Ieee8023,Figure1和RSNA组合成的一个数据集。
Flyai Covid
Flyai举办的一个新冠分类比赛。
Aistudio下载
covid19-radiography-database
跟CovidX一样是一个组合数据集,数据来自论文图片和RSNA。
Aistudio下载
COVID-19-AR
Chest Imaging with Clinical and Genomic Correlates Representing a Rural COVID-19 Positive Population (COVID-19-AR)
Aistudio下载
CT Images in COVID-19
Aistudio下载
相关论文:
肺结节
LIDC-IDRI
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
LIDC-IDRI |
肺部肿瘤 |
目标检测 |
CT |
1012 |
xls |
dcm |
介绍论文: The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A Completed Reference Database of Lung Nodules on CT Scans
The public cancer radiology imaging collections of The Cancer Imaging Archive
Aistudio下载 Part1 Part2
LUNA16
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
LUNA16 |
|
|
|
|
|
|
Aistudio下载
天池肺部结节
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
天池肺部结节 |
肺部结节 |
检测 |
低剂量肺部CT |
1000(初赛) + 2000(复赛) |
位置+直径 |
mhd |
Custom |
LNDB
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
LNDB |
直径大于3mm的肿瘤分割标注/小于3mm肿瘤和非肿瘤标记中心 |
分割/分类 |
CT |
294 |
XML |
MetaImage |
介绍论文: LNDb: A Lung Nodule Database on Computed Tomography
Aistudio下载
Lung Nodule Malignancy
Aistudio下载
Data Science Bowl 17
Aistudio下载
Lung-PET-CT-Dx
气胸
SIIM-ACR Pneumothorax Segmentation
胸
CBIS-DDSM
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
CBIS-DDSM |
正常/良性/恶性 |
分类 |
CT |
2620 |
|
|
介绍论文: Deep Learning to Improve Breast Cancer Early Detection on Screening Mammography A curated mammography data set for use in computer-aided detection and diagnosis research
Aistudio下载
QIN Breast
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
QIN Breast 0102 |
|
|
MRI |
67 |
|
|
Aistudio下载
Rider Breast MRI
ACRIN 6688
Aistudio下载
脑
BraTS2013
BraTS2015
Aistudio下载
BraTS2021
MSD脑瘤分割
Aistudio下载
MSD海马体分割
Aistudio下载
Iseg2019
ABIDE
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
ABIDE |
是否有自闭症 |
分类 |
MRI |
539+573 |
|
|
自闭症患者的头部MRI扫描,包含539例自闭症患者和573个正常扫描对照组。 介绍论文: The autism brain imaging data exchange: towards a large-scale evaluation of the intrinsic brain architecture in autism.
下载地址
ADNI
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
ADNI |
|
|
|
|
|
|
介绍论文: Alzheimer's Disease Neuroimaging Initiative (ADNI)
CQ500
介绍论文:Development and Validation of Deep Learning Algorithms for Detection of Critical Findings in Head CT Scans
脑出血
RSNA Intracranial Hemorrhage Detection
肾脏
Kits19
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
Kits19 |
肾脏/肾肿瘤 |
分割 |
|
|
|
|
|
Aistudio下载
肠
CT COLONOGRAPHY
包含没有结肠息肉,有6-9mm息肉和大于10mm息肉的数据。
MSD肠道分割数据集
Aistudio下载
心脏
EchoNet
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
EchoNet |
心脏 |
分割 |
MRI |
10300 |
0/1 |
|
介绍论文: EchoNet-Dynamic: a Large New Cardiac Motion Video Data Resource for Medical Machine Learning
MMWHS
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
MMWHS |
心脏 |
分割 |
CT / MRI |
20CT、20MRI |
类别 |
nii |
mmwhs是心脏分割数据集,共有8类,MRI和CT两种模态 相关项目: Hybrid Loss Guided Convolutional Networks for Whole Heart Parsing
MSD心脏分割
Aistudio下载
主动脉
冠状动脉分割
Grand Challenge下载
眼睛
DRIVE
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
DRIVE |
眼底血管 |
分割 |
眼底照片 |
40 |
0/1 |
图片 |
DRIVE数据集是一个糖尿病病人眼底血管分割数据集。
Aistudio下载
ODIR-5k
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
ODIR-5k |
正常和7种疾病 |
分类 |
眼底彩色照片 |
5000 |
|
图片 |
ODIR-5K包括5000名患者的年龄,双眼的彩色眼底照片和医生的诊断关键词。该数据集是上工医疗技术有限公司从中国不同医院/医疗中心收集的“真实”患者信息。在这些机构中,眼底图像由市场上的各种相机捕获,例如Canon,Zeiss和Kowa,因此导致各种各样的图像分辨率。病人的识别信息会被移除。注释由经过培训的人类读者进行标记,并具有质量控制管理。患者分为8个标签,包括正常(N),糖尿病(D),青光眼(G),白内障(C),AMD(A),高血压(H),近视(M)和其他疾病/异常(O)。
FIRE 视网膜图像数据
FIRE 是一个视网膜眼底图像数据集,包含 129张 眼底视网膜图像,由不同特征组合成 134对 图像组合。这些图像组合根据特质被划分为3类。眼底图像由 Nidek AFC-210 眼底照相机采集,分辨率为2912x2912,视觉仰角为40度。图像由 Papageorgiou Hospital 医院和Aristotle University of Thessaloniki大学共同构建,由于Thessaloniki 大学采集自39名患者。. 数据包括以下几部分内容: 1.成对的视网膜图像。 2.彩色ROI掩模(作为二值图像)。 3.特征ROI掩模(作为二值图像)。 4.每个图像对应的标注点。
STARE
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
STARE |
眼底血管 |
分割 |
眼底照片 |
400 |
照片 |
照片 |
无 |
STructured Analysis of the Retina数据集包含400张眼底照片,作者团队对这些数据进行了多种诊断,并对部分数据的血管进行了标注
Aistudio下载
CHASE_DB1
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
CHASE_DB1 |
眼底血管 |
分割 |
眼底照片 |
28 |
png |
png |
无 |
Kinston大学公开的一个小规模眼底分割数据集,包含28张眼底照片及对应的分割标签。
Aistudio下载
IDRiD
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
IDRiD |
常见DR病灶、视盘、DR病变等级等 |
分类、检测、分割 |
眼底照片 |
* |
tif/csv |
jpg |
CC BY 4.0 |
Indian Diabetic Retinopathy Image Dataset (IDRiD)
Aistudio下载
前列腺
PANDA
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
PANDA |
前列腺癌分级 |
|
镜检图片 |
10616张镜检 |
分类 |
tiff |
MSD前列腺分割
Aistudio下载
QIN-PROSTATE-Repeatability
Aistudio下载
胰腺
MSD胰腺分割
Aistudio下载
PDMR-833975-119-R
Aistudio下载
皮肤
SIIM-ISIC Melanoma Classification
目前最大的皮肤镜图像集合,用来在皮肤病变图像中之别黑色素瘤,图片以DICOM格式提供,同时包含图像元数据,有的图像也以JPEG和TFRecord格式提供,TFRecords格式的图像已被调整为统一的1024x1024
镜检
细胞
Data Science Bowl 18
细胞核分割数据集
介绍论文: Nucleus segmentation across imaging experiments: the 2018 Data Science Bowl
Aistudio下载
血细胞涂片分类
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
血细胞涂片分类 |
四种血细胞类型 |
分类 |
镜检 |
12500 |
- |
图片 |
血细胞分类数据集包含12500张四种血细胞的照片。图片是从大的血细胞涂片照片上截下来的,数据集经过增广。图片都很小,训练时注意IO瓶颈。
Aistudio下载
ISBI细胞跟踪
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
ISBI细胞跟踪 |
细胞像素级别位置 |
跟踪 |
镜检 |
|
|
图片 |
在镜检视频中像素级跟踪细胞位置
Aistudio下载 2D+Time Datasets
穿刺
BCNB乳腺癌穿刺活检
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
BCNB |
乳腺癌肿瘤 |
分类 |
|
1058 |
excel |
JPG Excel |
Custom |
Early Breast Cancer Core-Needle Biopsy WSI (BCNB) Dataset,早期乳腺癌患者的穿刺活检WSI。在早期乳腺癌患者的病理WSI中,标注了部分的肿瘤区域,并提供了一些临床信息(age, tumor size, tumor type, ER, PR, HER2, HER2 expression, histological grading, surgical, Ki67, molecular subtype, number of lymph node metastases, label)
骨骼
MURA-1.1
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
MURA-1.1 |
正常/非正常 |
分类 |
x-ray |
40561 |
|
|
介绍论文: MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs
Aistudio下载
RSNA Bone Age
Aistudio下载
磁共振图像脊柱结构多类别三维自动分割
Aistudio下载
膝盖
MRNet
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
MRNet |
|
|
|
|
|
|
Aistudio下载
脊椎
Verse大规模脊椎分割数据集
Aistudio下载
VQA
PathVQA
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
PathVQA |
|
|
图片 |
4998图片/32799问答 |
|
图片 |
介绍论文: PathVQA: 30000+ Questions for Medical Visual Question Answering
Aistudio下载
内窥镜
SARAS-MESAD
SARAS-MESAD
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
SARAS-ESAD |
21种手术动作 |
静态背景动作识别 |
内窥镜 |
22,601(训练)+4,574(测试) |
图片 |
BB |
CC BY-NC-SA |
数字病理
CAMELYON
心电图
CAMELYON
名称 |
标注内容 |
类型 |
模态 |
数量 |
标签格式 |
文件格式 |
License |
TUH EEG信号 |
癫痫类别 |
分类 |
心电图 |
发作数 2377 |
癫痫发作类别 |
edf |
can be used for both research and commercialization purposes |
交流群
如果您对医学影像技术感兴趣,欢迎加入医学影像技术交流群 365213556 ,与更多大佬一起交流,共同进步!
医学影像数据库
TCIA:The Cancer Imaging Archive
MedPix 包含超过12000名患者和59000张影像
Belarus tuberculosis portal 包含结核病人的CT,胸透和检验数据
Grand Challenges
LONI 神经相关医学影像
TUH EEG Temple大学脑电波公开数据库,包含超过4T数据
参考项目/列表
医学影像分割挑战
胸部\肺部ct数据集
adalca
beamandrew
Stanford ML Group
omic tools
各领域公开数据集
medical-imaging-datasets
Open-Access Medical Image Repositories
Medical Image Datasets Download Links
HAM10000 dataset
Dermatology Image Classification
havard
usc
burkely
isdis
radiopedia
aimi
贡献者
(按照首次贡献时间排序)
多语言代码生成器 Mail : linhandev@qq.com
自尊心3
底迪
ChenchenHu007
lixinhui541
吖吖查
parap1uie-s
Jianpeng Zhao
Amandalala
Release Note
2021/5/21
开始添加数据集图片,接受多次外部贡献,对存量数据集进行合规检查,数据集总量达到71
2020/11/20
添加Issue模板,鼓励外部贡献,数据集数量达到67
2020/11/8
在Github发布,整理格式,添加多个数据集
2020/6/11
添加LIDC-IDIR,编写数据压缩脚本
2020/6/4
添加MMWHS心脏分割数据集,SIIM皮肤病分类比赛数据集
2020/5/27
添加ISBI细胞分割,TCGA-LIHC肝脏,4D-Lung肺部数据集,围绕乳腺癌添加一系列数据集
2020/5/20
项目添加数据集计数和release note,数据集方面添加 RSNA骨龄,PathVQA,FIRE视网膜,DDSM乳腺癌等数据集
2020/5/13
项目在Aistudio公开,包含约40个数据集