ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
93 stars 25 forks source link

Cancer Cell|深度学习结直肠癌病理分型 #5005

Closed ixxmu closed 2 months ago

ixxmu commented 2 months ago

https://mp.weixin.qq.com/s/vOc_WzHlb6awLiexHvaWWQ

ixxmu commented 2 months ago

Cancer Cell|深度学习结直肠癌病理分型 by 单细胞训练营

基于 Transformer 的结肠直肠癌组织学生物标志物预测:一项大规模多中心研究

摘要

深度学习 (DL) 可以加速从结直肠癌 (CRC) 的常规病理切片中预测预后生物标志物。然而,目前的方法依赖于卷积神经网络 (CNN),并且大多已在小规模患者群体中得到验证。在这里,我们开发了一种新的基于Transformer的管道,用于从病理切片中进行端到端生物标志物预测,方法是将预训练的Transformer编码器与用于补丁聚合的Transformer网络相结合。与当前最先进的算法相比,我们基于Transformer的方法大大提高了性能、通用性、数据效率和可解释性。在对来自 16 个结直肠癌队列的 13,000 多名患者的大型多中心队列进行训练和评估后,我们对手术切除标本微卫星不稳定性 (MSI) 的预测实现了 0.99 的灵敏度和超过 0.99 的阴性预测值。我们证明仅对切除标本进行训练在内窥镜活检组织上达到了临床级性能,解决了长期存在的诊断问题。


关键点

  • 结直肠癌 (CRC) 的精准肿瘤学需要评估遗传生物标志物,例如微卫星不稳定性 (MSI) 以及 BRAF4 和 NRAS/KRAS9 基因的突变
  • 该模型在早发性 CRC(即 50 岁以下患者的 CRC)中实现了接近 0.9 AUROC 的高性能(图 S2B)。我们将这一性能与 Echle 等人的工作进行了比较。 在训练过程中更新了基于卷积神经网络 (CNN) 的特征提取器,并使用均值池作为其块聚合函数
  • 使用基于深度学习 (DL) 的组织病理学切片分析来提取肿瘤生物标志物已成为常见方法。反过来,这最近促使监管机构批准了多种用于临床的算法
  • 现有的深度学习生物标志物有一些关键的局限性:人们对其性能是否足以大规模使用存在争议,它们不一定适用于任何患者群体,并且它们未被批准用于活检样本,因为将深度学习算法应用于活检通常会导致性能比应用于手术标本低得多。
  • 我们开发了一种基于 transformer 的方法,用于对苏木精和伊红 (H&E) 染色的 CRC 组织切片的全切片图像进行生物标志物预测
  • 通过发布所有经过训练的模型,研究人员和临床医生能够将自动 MSI 预测工具应用于研究目的,我们希望这将使基于深度学习的生物标志物领域更接近临床工作流程中的大规模集成

概括

介绍

结直肠癌 (CRC) 的精准肿瘤学需要评估遗传生物标志物,例如微卫星不稳定性 (MSI) 以及BRAF4和 NRAS/KRAS9 基因突变。这些生物标志物通常通过聚合酶链反应 (PCR)、测序或免疫组织化学测定进行评估。

方法


模型描述作者的生物标志物预测流程包括三个步骤(图 1):i)数据预处理流程(图 1A),ii)基于Transformer的特征提取器,以及 iii)基于Transformer的聚合模块,该模块从全幻灯片图像 (WSI) 的所有块的嵌入中产生最终预测(图 1B)。

在预处理流程中,使用 RGB 阈值和 Canny 边缘检测对组织区域进行分割,以检测背景和模糊区域。模型描述作者的生物标志物预测流程包括三个步骤(图 1):i)数据预处理流程(图 1A),ii)基于Transformer的特征提取器,以及 iii)基于Transformer的聚合模块,该模块从全幻灯片图像 (WSI) 的所有块的嵌入中产生最终预测(图 1B)。CTransPath 首先由三个卷积层组成,以促进局部特征提取并提高训练稳定性,然后是四个 Swin Transformer 阶段。作者使用 5 倍交叉验证和域内验证和测试进行了所有实验。在此交叉验证变体中,域内验证和测试集在患者级别从完整数据集中分离出来,留下 3 倍用于训练。作者进一步在数据集之外的外部队列上评估模型以进行域外测试。为了考虑不同的队列大小,作者每 500 次迭代评估一次单个队列上的模型,每 1000 次迭代评估一次多个队列上的模型

结果

基于 Transformer 的 MSI 预测优于最先进的方法作者通过两种方式在 CRC 患者手术切除队列(图 1)中测试了 MSI 预测流程:首先,作者在单个队列上训练模型,并在保留的测试集和所有其他队列上进行测试。该模型对于早发性 CRC(即 50 岁以下患者的 CRC)实现了接近 0.9 AUROC 的高性能(图 S2B)。作者将这一表现与 Echle 等人的工作进行了比较。作者的方法在所有四个队列中都优于基于 CNN 的方法。使用 CTransPath 作为特征提取器在大型队列上比基于 CNN 的方法产生更高的性能,但在较小队列 TCGA 上训练的外部验证中结果部分较低。作者观察到在超过 1,000 名患者的数据集上训练的模型具有性能更高和泛化更好的趋势。不同的群体遗传学或载玻片扫描仪的类型等因素会影响训练数据集大小以外的泛化能力


讨论

精准肿瘤学在 CRC 患者中的推广有望延长预期寿命。使用基于深度学习的组织病理学切片分析来提取肿瘤生物标志物已成为 2018 年研究环境中的常见方法。 反过来,这最近导致监管机构批准了多种临床使用的算法。这些示例包括 Paige(美国纽约州纽约市)的乳腺癌生存预测算法、DoMore Diagnostics(挪威奥斯陆)的 CRC 生存预测方法、Owkin(法国巴黎和美国纽约州纽约市)的 CRC MSI 状态预测方法等。这些示例包括 Paige(美国纽约州纽约)开发的乳腺癌生存预测算法、DoMore Diagnostics(挪威奥斯陆)开发的预测结直肠癌生存率的方法、Owkin(法国巴黎和美国纽约州纽约)开发的预测结直肠癌 MSI 状态的方法等。 现有的深度学习生物标志物有一些关键限制:人们对其性能是否足以进行大规模使用存在争议,它们不一定适用于任何患者群体,并且它们未被批准用于活检材料,因为将深度学习算法应用于活检通常会导致比应用于手术标本低得多的性能。

结论

深度学习 (DL) 可以加速从常规结直肠癌 (CRC) 病理切片中预测预后生物标志物。当前的方法依赖于卷积神经网络 (CNN),并且大多已在小型患者队列中得到验证。作者通过将预训练的 Transformer 编码器与用于补丁聚合的 Transformer 网络相结合,开发了一种新的基于 Transformer 的管道,用于从病理切片中进行端到端生物标志物预测。与当前最先进的算法相比,作者基于 Transformer 的方法大大提高了性能、通用性、数据效率和可解释性。在对来自 16 个结直肠癌队列的 13,000 多名患者的大型多中心队列进行训练和评估后,作者在预测手术切除标本的微卫星不稳定性 (MSI) 方面实现了 0.99 的灵敏度和超过 0.99 的阴性预测值。作者证明,仅针对切除标本的训练在内窥镜活检组织上达到了临床级性能,解决了长期存在的诊断问题

研究对象

 13000 名 CRC 患者

  • 此后,为了提供在临床相关任务上表现的大规模证据,我们研究了在 CRC 中使用完全基于 Transformer 的工作流程。在这里,我们介绍了一种源自基于 Transformer 的特征提取器和基于 Transformer 的聚合模型的新方法(图 1A-C),我们在一项大型多中心研究中对其进行了评估,该研究涉及 15 个队列,其中包含来自全球 13,000 多名 CRC 患者的切除标本载玻片,以及来自总共 1,500 多名患者的两组 CRC 活检(图 1D-F)。基于 Transformer 的 MSI 预测优于最先进的方法我们通过两种方式在 CRC 患者手术切除队列(图 1)中测试了我们的 MSI 预测流程:首先,我们在单个队列上训练模型,并在保留的测试集(域内)和所有其他队列(外部)上对其进行测试

1000名患者

  • 此外,我们还评估了 Ilse 等人的 AttentionMIL,其中 CTransPath 用作特征提取器,在大型队列上比基于 CNN 的方法具有更高的性能,但在较小队列 TCGA 上训练的外部验证中,结果部分较低。总体而言,我们观察到在包含 1,000 多名患者的数据集上训练的模型具有更高的性能和更好的泛化趋势。然而,不同的群体遗传学(例如 MECC)或幻灯片扫描仪的类型(例如 ERLANGEN)等因素会影响训练数据集大小以外的泛化能力

发现

  • 我们的研究表明,大多数图块属于肿瘤区域(高分类评分为 0.99%,低分类评分为 0.81%),并且对于 MSI-high 的预测很重要的细胞类型,例如淋巴细胞在低分类评分和高分类评分的图块中出现的比例相似(0.28% vs. 0.2%,图 4A)
  • 此外,仅与 MSI-high 相关的形态模式(例如粘液区域)在分类分数较高的图块中更常出现(0.4% vs. 0.1%)

对比先前的研究

  • 在之前基于 DL 的 MSI 检测研究中,只有 Echle 等人 在多中心环境中确定了基于 DL 的生物标志物预测对 CRC 活检组织的性能。这些发现意味着未来应该对每位 CRC 患者在初始活检组织上进行 MSI 检测,尽管并非所有现行医疗指南都反映了这一点。
  • 然而,我们的模型对来自中国广州的一组 MSI 高患者的表现仍然很高,灵敏度为 0.9。为了更好地与最先进的技术进行比较,我们还模仿了 Echle 等人的实验设置。
  • 在研究KRAS 作为目标时,我们观察到了类似的泛化结果(图2F 和2G),在多中心队列上训练时的AUROC 为0.80,优于最先进的方法。单队列训练的AUROC 范围为0.53 至0.77,与最先进的结果一致或更高。 虽然与MSI 或BRAF 相比,基于DL 的KRAS 预测性能仍然相对较低,但结果表明,多队列训练和更大的训练队列可显著提高性能
  • 为此,我们通过注意力滚动可视化了每个块对最终分类的贡献程度,以及它对正分类还是负分类的贡献(图 3A-3C 和 S3)。为了更好地进行比较,我们使用了外部队列 YCR-BCIP 中的相同 WSI,就像之前研究中使用的一样 进行这些可视化(图 3A)
  • 尽管如此,在将分类阈值固定在域内切除测试集上的情况下,我们的模型分别获得了 0.98 和 0.91 的敏感度得分,阴性预测值分别为 0.99 和 0.9。值得注意的是,这些值 高于(对于 YCR-BCIP 队列)并且接近(对于 MAINZ 队列)临床批准的 DL 切除算法,表明我们的算法具有活检临床应用的潜力

与之前的研究不同

  • 我们的方法在所有四个队列中都优于基于 CNN 的方法。此外,我们还评估了 Ilse 等人的 AttentionMIL。使用 CTransPath 作为特征提取器,在大型队列中取得了比基于 CNN 的方法更高的性能,但在较小队列 TCGA 上训练的外部验证中结果略低
  • 因此,市售的 MSI 检测算法仅适用于切除切片。然而,最近的临床证据表明,MSI 阳性的 CRC 患者在手术前需要进行免疫治疗,因此需要在活检材料上进行 MSI 检测
  • 我们观察的一个警告是,基本事实可能并不完美。深度学习模型的表现可能比论文中所述的更好,因为 dMMR 和 MSI 仅在 92% 的时间内一致,而且都不是 100% 敏感。此外,一小部分 CRC 具有 POLD1 和 POLE 突变,具有高突变负担,其临床表现与 MSI 相似,可能具有相似的表型,但无法通过已建立的 MSI 检测分析检测到。

贡献

  • 总之,这些结果表明,完全基于 Transformer 的方法在大型队列(DACHS、QUASAR 和 NLCS)以及小型队列(TCGA)中都具有更高的生物标志物预测性能。从临床角度来看,也许更重要的是,基于 Transformer 的方法具有更好的泛化性能和更可靠的结果,因为外部队列之间的偏差较小。我们发布了所有经过训练的模型以供重复使用,并在必要时进行进一步微调。

局限性

  • 我们的完全基于 Transformer 的方法在样本量较小的情况下取得了高性能。与基于 AttentionMIL 的方法相比,我们的方法在患者数量较少的情况下数据效率更高。通过观察更大的训练数据,我们发现两种方法的性能提升都与患者数量成正比,但完全基于 Transformer 的方法在数据集小得多的情况下已经达到了同等性能。
  • 有一些关键的局限性:人们对它们的性能是否足以进行大规模使用存在争议,它们不一定适用于任何患者群体,最后,它们不被批准用于活检材料,因为深度学习算法在活检中的应用通常会导致比在手术标本中的应用低得多的性能。
  • 现有深度学习系统性能有限的一个关键原因可能是所采用技术的根本限制。2018 年至 2020 年之间的大多数研究都使用卷积神经网络 (CNN) 作为其深度学习主干,使用的是公开信息。深度学习生物标志物领域的商业产品也基于相同的技术。然而,最近一类新的神经网络开始取代 CNN:Transformers。Transformers 起源于自然语言处理领域,是处理序列和利用大量数据潜力的强大工具。同样在计算机视觉领域,Transformers 在非医疗任务中的图像分类准确率更高, 对输入数据的扭曲更具鲁棒性 并提供更详细的可解释性。 与 CNN 相比,Transformers 的这些优势有可能转化为更准确、更通用的临床生物标志物,但目前尚无证据支持这一点。
  • 我们的研究还有其他局限性:本研究的重点是研究使用完全基于Transformer的方法处理数据的效果,特别是在大规模多机构数据的背景下。因此,我们并没有详尽地优化每一个超参数。在这个方向上的优化点是找到合适的位置编码并调整Transformer网络和注意力机制的架构。此外,从不同的医院收集活检样本,直接对活检数据进行多队列训练可能会提高我们模型在活检材料上的性能。这也适用于预测 BRAF 突变状态,特别是 RAS 突变状态,我们观察到了最大的改进潜力。在这两个目标中,在约 2,000 名患者的较大队列中,性能更高,并且通过对多个队列进行训练,性能显著提高。此外,我们承认实现更高的特异性是可取的。选择最终分类阈值始终是在灵敏度和特异性之间的权衡,临床应用更喜欢更高的灵敏度,尤其是本研究中提出的预筛选测试。我们的方法在活检上的表现与目前临床批准的切除术检测方法处于同一范围,但与这些检测方法不同的是,我们的方法也适用于活检。

数据和代码

  • 支持本研究结果的部分数据是公开的,部分数据是根据合作协议提供的专有数据集。TCGA 数据库的所有数据(包括组织学图像)均可在 https://portal.gdc.cancer.gov/ 上获取。CPTAC 队列的所有数据均可在 https://proteomic.datacommons.cancer.gov/ 上获取。TCGA 和 CPTAC 队列中患者的所有分子数据均可在 https://cbioportal.org/ 上获取。北爱尔兰生物库的数据访问权限可在 http://www.nibiobank.org/for-researchers 上申请。MCO 队列的数据访问权限可在 https://researchdata.edu.au/mco-study-tumour-collection/1957427 上申请。所有其他数据均根据当地道德准则进行控制访问,并且只能直接从独立管理其研究队列数据访问权限的各自研究小组申请。
  • 补充信息可以在线找到:https://doi.org/10.1016/j.ccell.2023.08.002。

 与往期文献推荐帖一致点赞👍过100出配套代码复现文章👀!有好的文献推荐可以在后台私信小编哈~

DOI: https://doi.org/10.1016/j.ccell.2023.08.002