如何用GPT-4做scRNA-seq细胞定义

如何用GPT-4做scRNA-seq细胞定义 by 生信宝库

前言

单细胞转录组测序(scRNA-seq)是一项革命性的技术，不仅可以揭示细胞群体内的异质性，还可以识别不同细胞类型的独特基因表达模式。然而，细胞类型注释是scRNA-seq分析中的一个基础且关键步骤，它通常需要大量的人力和非常专业的相关知识做支撑。随着人工智能模型的推出，我们完全可以让这份工作去让计算机去完成。今天，Immugent就以发表在Nature methods上的一篇题为：Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis的文章，来带大家学一下如何利用大语言数据模型做细胞定义。

在传统的细胞类型注释过程中，专家必须比较每个细胞群中高表达的基因与已知的细胞类型标记基因。这是一个既费时又费力的过程，需要专家的经验和判断。尽管已经有一些自动化方法被开发出来，但使用标记基因的手动注释仍然是一个广泛使用的做法。文章中提到，尽管自动化细胞类型注释方法已经存在，但它们通常需要额外的步骤来重新处理基因表达矩阵，并且可能需要收集高质量的参考数据集。此外，这些方法可能需要额外的计算专业知识，并且可能受到组织类型限制。为了克服这些挑战，作者提出了使用大型语言模型GPT-4来进行细胞类型注释。GPT-4是一个为语言理解和生成而设计的大型模型，最近的研究已经证明了其在生物医学领域的有效性。文章假设GPT-4可以准确注释细胞类型，从而将注释过程从手动转变为半自动或甚至全自动，这可以显著减少细胞类型注释所需的努力和专业知识。最后，作者为了方便大家使用，开发了一个R软件包--GPTCelltype，作为GPT-4的接口，用于自动化细胞类型注释。GPT-4的广泛训练数据使其能够跨不同组织和细胞类型进行更广泛的应用，而且由于其聊天机器人的特性，GPT-4允许用户驱动的注释细化，这可能进一步提高注释的准确性和灵活性。

主要内容

一、研究内容

1. GPT-4自动化scRNA-seq（scRNA-seq）分析中的细胞类型注释

在这篇文章中，作者提出了使用GPT-4，一种大型预训练语言模型，来自动化scRNA-seq（scRNA-seq）分析中的细胞类型注释过程。他们开发了GPTCelltype软件工具，以评估GPT-4在跨越五个物种、数百种组织和细胞类型（包括正常和癌症样本）的十个数据集上的性能。通过与手动注释的一致性比较，使用数值分数来衡量GPT-4和其他自动化方法（如GPT-3.5、CellMarker2.0、SingleR和ScType）的注释准确性。此外，作者还探讨了影响GPT-4注释准确性的不同因素，发现使用双侧Wilcoxon检验得出的前十个差异基因时，GPT-4的表现最佳。

2. GPT-4在自动化细胞类型注释中的潜力

高匹配度：GPT-4在多个数据集上的测试显示，它能够实现与手动注释相比超过75%的完全或部分匹配，表明其在细胞类型注释上的准确性。

准确性分析：GPT-4在不同类型的细胞注释中表现出良好的性能，尤其是在免疫细胞和恶性肿瘤细胞的识别上，尽管对B淋巴瘤的注释存在一些挑战。

优越的性能：与现有的自动化方法相比，GPT-4在注释一致性方面表现出显著的优势，且通过GPTCelltype接口使用时，处理速度更快。

成本效益：尽管GPT-4使用在线Web门户需要一定的费用，但其成本与查询的细胞类型数量成线性关系，且在本研究中所有查询的成本均未超过0.1美元。

鲁棒性：GPT-4在模拟数据集上的测试表明，它能够在复杂场景中以高准确率区分纯细胞类型和混合细胞类型，即使在输入基因集较少或受噪声污染时，性能虽有所下降但仍保持较高水平。

再现性：GPT-4在相同标记基因的注释中展现出高再现性，85%的情况下能够生成一致的注释结果。

3.实际应用中需要注意的问题

训练数据的不透明性：GPT-4的训练语料库未公开，这使得验证其注释的依据变得具有挑战性，需要人类专家进行评估以确保注释的质量和可靠性。

微调的主观性：人类在模型微调过程中的参与可能会影响注释的再现性，并且可能限制模型在大型数据集中的应用。

数据噪声的影响：高噪声水平的scRNA-seq数据和不可靠的差异基因可能会对GPT-4的注释准确性产生不利影响。过度依赖AI的风险：

过度依赖GPT-4的注释结果可能导致人工智能幻觉，即模型可能产生虚假的自信注释。

注释验证的必要性：作者建议在进行任何下游分析之前，应由人类专家对GPT-4的细胞类型注释进行验证。

微调的潜力：文章还提出，通过使用高质量的参考标记基因列表对GPT-4进行微调，可能会进一步提高其细胞类型注释的性能。

二．研究方法

多个scRNA-seq数据集的处理和分析方法如下：从Azimuth网站下载了HuBMAP Azimuth项目的手动注释的细胞类型及其标记基因信息，选择了较粗的分类水平，确保每个细胞类型至少包含十个以上的样本，但未报告标记基因的生成方法。GTEx数据集中，获取了细胞类型的手动注释、差异基因列表和基因表达矩阵，使用SCANPY进行了文库大小归一化和对数转换，并添加了伪计数1，使用ComBat软件包对协议和性别特异性效应进行校正，应用Welch's t-test识别差异基因并根据P值排序。HCL数据集采用与GTEx相似的方法处理数据，使用Seurat软件进行差异基因分析，并通过双侧Wilcoxon秩和检验根据对数倍数变化及Bonferroni校正后的P值选择基因。Mouse Cell Atlas (MCA)数据集也使用了Seurat进行数据预处理和差异基因分析，采用了与HCL相同的基因排名方法。非模型哺乳动物数据集直接从原始研究中下载了手动注释的细胞类型和标记基因列表。Tabula Sapiens、B-cell lymphoma、肺癌和结肠癌数据集从原始研究中下载了手动注释的细胞类型和原始基因表达计数矩阵，使用Seurat的FindAllMarkers()函数进行差异基因分析，只保留了对数倍数变化至少为0.25且在至少10%的细胞中被检测到的基因，并使用双侧Wilcoxon秩和检验及双边双样本t-test进行差异性分析。

使用开发的R软件包GPTCelltype结合GPT-4和GPT-3.5模型，通过接收标记基因或主要差异基因为输入，并自动生成基于特定模板的提示消息来进行细胞类型的注释。为了提高注释的准确性，提供了基本提示策略、连锁思考提示策略以及重复提示策略。此外，还使用了SingleR和自行开发的ScType软件包进行细胞类型的注释，这些方法利用预处理过的基因表达矩阵，并依赖于内置的细胞类型标记数据库来产生单细胞和细胞群的注释。通过CellMarker2.0的在线用户界面，输入通过GPT-4和GPT-3.5识别的主要差异基因集进行细胞类型的注释。细胞类型注释的准确性通过与手动注释进行比较，并根据全匹配、部分匹配和不匹配的标准进行评估，同时计算平均一致性得分。还通过生成模拟数据集来评估GPT-4对混合细胞类型和未知细胞类型的区分能力，并评估了在重复查询相同标记基因列表时GPT-4的响应一致性。此外，还提供了使用GPT-4 API的财务成本信息，API总财务成本计算为$（0.00003i + 0.00006o）。

小结

本篇文章的故事线：

文章探讨了GPT-4模型在scRNA-seq数据中注释细胞类型的应用。文章介绍了GPTCelltype，一个利用GPT模型自动化注释过程的R软件包。研究系统地评估了GPT-4在多个数据集上的表现，这些数据集涵盖了来自多种物种的广泛组织和细胞类型，包括健康和癌症样本。将GPT-4的注释与GPT-3.5、SingleR、ScType和CellMarker2.0等其他方法的注释进行了比较，并评估了它们与手工注释的一致性。研究发现，GPT-4在使用双侧Wilcoxon检验识别的差异基因时表现最佳，显示出高度的准确性和在各种测试场景下的稳健性，包括混合和未知细胞类型的模拟测试。文章还强调了将GPT-4集成到现有的单细胞分析流程（如Seurat）中的效率和潜在成本效益，而无需额外数据收集或复杂的流程构建。

此外，文章讨论了使用GPT-4进行细胞类型注释的挑战和限制，强调了确保注释可靠性所需的仔细评估和可能的人为监督的必要性。这项研究是向自动化scRNA-seq分析中细胞类型注释迈出的重要一步，为高级AI模型如GPT-4在生物医学研究中的实际部署提供了参考。

研究观点：

本文系统研究了GPT-4在集成到现有单细胞分析流程（如Seurat）中的成本效益，避免了构建额外流程和收集高质量参考数据集的需要。此外，在进行下游分析前由人类专家验证GPT-4的细胞类型注释，以确保其质量和可靠性。

[代码]https://github.com/Winnie09/GPTCelltype_Paper

ixxmu / mp_duty