Closed ixxmu closed 2 weeks ago
图1. 细胞类型注释的一般工作流程以及CellSTAR提供的注释相关先验数据(已注释的参考数据集和标记基因)的示意图。 (A)未注释数据的获取:从单细胞测序研究中获取大规模未注释数据集需要精确的细胞类型注释。 (B)细胞类型注释:与依赖传统信息、在已知细胞类型中特异性表达的经典标记基因策略不同,基于参考的注释策略利用专家注释的参考数据集中的全面基因表达谱。 由于这一特性,它在捕捉表达变异性和覆盖率方面表现出优越性,展现出效率和可重复性,并达到高分辨率(如补充表S1所述)。 此外,两种注释策略的准确性、可靠性和一致性高度依赖于注释数据的可用性、质量和适用性,这通常需要一个综合数据库来整合经过策划的参考和标记数据,以实现丰富的可用性、高质量和互补适用性。 (C)注释数据的分析:通过使这两种类型的数据能够进行集体考量,CellSTAR有望促进对细胞身份的准确且稳健识别以及各种下游分析,例如细胞异质性和动态学研究、疾病研究、药物发现等。
系统性的收集、整理和整合注释数据
具有综合元数据的标注参考数据的可访问性
图 2. 对每个精心整理的参考数据集(以 CSTA_000001 为例)的相关注释元数据和实验批次进行详细描述。(A) 全面的实验元数据包括研究样本的描述(物种和组织名称/同义词,以及特定的研究疾病),测序技术,数据预处理协议,实验处理,注释来源,相应的注释协议,以及其他分子生物学数据库的外部链接。(B) 批次信息明确阐述了研究中不同批次的独特特性和组成。(C) 本节建立了与同一文献或共同研究项目相关的数据集之间的联系,便于浏览相关数据集,并展示了不同实验之间元数据的一致性和可比性。(D) 组织良好的注释参考可供下载,为表达谱文件中的所有批次内单个细胞与其对应的注释细胞身份之间建立了清晰的映射关系。尽管由于篇幅限制,本图仅展示了一个批次及其关联的表达谱文件,但完整的资料可通过在线数据库获取。 , , , ,
特征描述经典标志物并导航至相关参考文献
图3. 典型细胞标志物及其相关参考数据的特征描述,以内皮细胞为例说明每种细胞类型的情况。 (A) 特定细胞类型的通用信息包括细胞名称及其同义词、显著特征(如形态、功能、位置)、与其他各种细胞类型的层级关系,以及链接至EMBL-EBI的细胞本体查询服务以便进行深入探索。 (B) 在这一部分,呈现了涉及特定感兴趣细胞类型的所有参考数据概览,通过‘详情’列中提供的超链接可以获取每项研究的深入信息。 (C) 对不同物种和组织的各种典型细胞标志物进行了分类汇总。 对于每个标志物,详细记录了包括标志物名称、基因符号、基因类型以及由该标志物基因编码的蛋白质等关键细节,并提供了直接链接到相关出版物的途径以便进一步研究。
用于探索细胞群体和分子特征的可视化工具
图 4. CellSTAR 提供的各种可视化功能,用于探索细胞群体和分子特征。(A)注释细胞群体的可视化:饼状图展示了每个参考数据集中不同细胞群体的相对丰度概览,为用户快速了解细胞群体的分布和组成提供了见解。同时,tSNE 地图根据基因表达谱直观地表示了各集群间的复杂空间关系。(B)细胞群体丰度热图:该热图使用户能够直观地比较不同实验批次中细胞群体的分布和变异性,从而发现每一批次中不同细胞类型可能具有的功能意义。(C)顶级基因热图:该热图生动地描绘了各种细胞群体中顶级差异表达基因的表达模式,有助于识别复杂生物过程背后的潜在分子驱动因素。
CellSTAR在全面和稳健注释中的应用
图 5. 基于 CellSTAR 参考数据可以采用的三种广泛应用的注释策略的示意描述。 (A)相似性测量:它涉及量化参考数据集和查询数据集中基因表达谱之间的相似性,这有助于将未知细胞或簇映射到已知的细胞类型。 (B)数据整合:通过将查询数据集与参考数据集整合,这一策略使得能够识别跨越两个数据集的簇,并允许将参考标签转移到这些簇内的查询细胞。 (C)(半)监督分类:它指的是根据标注数据集中定义的一组特征,在细胞类型标签分布上训练监督或半监督分类器。随后利用这些训练好的模型根据相对特征对未标注数据集中的细胞进行标记。
细胞状态数据(CellSTAR)的标准制定、访问与检索
https://mp.weixin.qq.com/s/ysVOFf8s1wbZmqx8XFwhAA