ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

数据库介绍 | 提供,数百种细胞类型,数万个生物标志物,CellSTAR 单细胞转录组数据库 #5516

Closed ixxmu closed 2 weeks ago

ixxmu commented 2 weeks ago

https://mp.weixin.qq.com/s/ysVOFf8s1wbZmqx8XFwhAA

ixxmu commented 2 weeks ago

数据库介绍 | 提供,数百种细胞类型,数万个生物标志物,CellSTAR 单细胞转录组数据库 by BioJournal Link

Basic Information

  • 英文标题: CellSTAR: a comprehensive resource for single-cell transcriptomic annotation
  • 中文标题:CellSTAR:一个全面的资源,用于单细胞转录组注释
  • 发表日期:19 October 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Ying Zhang | Feng Zhu
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D859/7321991

Abstract

  1. 大规模的单细胞测序和生物学实验研究已成功揭示了组织中不同细胞类型之间的表达模式,这强调了研究细胞异质性及准确注释细胞类型的重要性。
  2. 这些实验中的基因表达谱分析为细胞类型注释提供了两种基本类型的数据:注释参考和典型标志物。
  3. 因此,在这项研究中,我们开发了首个全面的单细胞转录组注释资源数据库(CellSTAR)。
  4. 它具有两大独特之处:(a) 首次提供了数百种细胞类型的综合专家注释参考数据;(b) 通过整合数万个标志物,使得参考数据和标志基因得以共同考虑。
  5. 鉴于其独特的特性,预计CellSTAR将引起来自单细胞转录组学技术革新、细胞异质性和动力学研究等领域的广泛研究兴趣。
  6. 目前,CellSTAR无需登录即可公开访问,网址为:https://idrblab.org/cellstar。

Introduction

Para_01
  1. 随着单细胞RNA测序(scRNA-seq)的迅速发展,研究分辨率已经从‘整体’转向‘单细胞’水平,突显了细胞异质性的重要性。
  2. 这一转变促使了大量的研究工作(过去五年内在PubMed上发表的相关论文超过16,600篇)和大规模未注释数据集的涌现(图1A),这要求必须准确识别细胞身份(即细胞类型注释)。
  • 图1. 细胞类型注释的一般工作流程以及CellSTAR提供的注释相关先验数据(已注释的参考数据集和标记基因)的示意图。
  • (A)未注释数据的获取:从单细胞测序研究中获取大规模未注释数据集需要精确的细胞类型注释。
  • (B)细胞类型注释:与依赖传统信息、在已知细胞类型中特异性表达的经典标记基因策略不同,基于参考的注释策略利用专家注释的参考数据集中的全面基因表达谱。
  • 由于这一特性,它在捕捉表达变异性和覆盖率方面表现出优越性,展现出效率和可重复性,并达到高分辨率(如补充表S1所述)。
  • 此外,两种注释策略的准确性、可靠性和一致性高度依赖于注释数据的可用性、质量和适用性,这通常需要一个综合数据库来整合经过策划的参考和标记数据,以实现丰富的可用性、高质量和互补适用性。
  • (C)注释数据的分析:通过使这两种类型的数据能够进行集体考量,CellSTAR有望促进对细胞身份的准确且稳健识别以及各种下游分析,例如细胞异质性和动态学研究、疾病研究、药物发现等。
Para_02
  1. 细胞类型注释已成为单细胞研究下游分析中的一个必要步骤,它依赖于两种类型的注释数据:‘参考数据集’(由专家注释的单细胞图谱)和‘标记基因’(在已知细胞类型中特异性表达的基因)。
  2. 与传统的基于标记的注释相比,基于参考的策略可以充分利用现有的由专家注释的参考数据,这种方法在识别复杂的细胞组成和解析细胞状态转变方面已经显示出更优越的表现。
  3. 此外,这两种类型的数据的综合应用在许多研究中被提倡,其准确性、可靠性和一致性在很大程度上取决于数据的全面性和质量。
  4. 因此,在当前的单细胞转录组学研究中,迫切需要全面的参考和标记注释数据。
  5. 图 1B 展示了这一点。
Para_03
  1. 到目前为止,已经构建了几个与单细胞RNA测序(scRNA-seq)细胞类型注释相关的数据库。
  2. 其中大多数专注于描述标记基因,例如 CellMarker、PCMDB、CancerSEA 以及其它一些数据库。
  3. 这些数据库因其能够连接差异表达基因(DEGs)的可用性和向用户提供经典标记之间的差距而引起了广泛兴趣。
  4. 然而,这些数据库中没有一个提供参考数据。
  5. 换句话说,目前尚不存在经过严格整理的单细胞RNA测序参考数据库,更不用说对相应细胞标记进行系统的整合了。
  6. 总而言之,迫切需要构建一个综合性的单细胞RNA测序细胞类型注释数据库,该数据库同时整合经过整理的参考数据和标记数据。
Para_04
  1. 因此,我们介绍了一个全面的单细胞转录组注释资源数据库(命名为‘CellSTAR’)。
  2. 最新版本的CellSTAR(a)提供了从515个项目和1679批次中收集、采用14种测序技术获得的表达谱及其有价值的注释参考资料,包括18种物种、139种组织中的889种不同细胞类型,这些细胞类型通过107种注释方法识别。
  3. (b)汇集了经典细胞标记物,包含超过8万个条目,覆盖了参考数据中识别出的80%以上的细胞类型,涉及76%的数据集。
  4. (c)描述了详细的注释相关实验元数据,这对于揭示实验因素对注释的影响以及在利用数据时考虑适当的分析方法具有重要价值。
  5. (d)提供了多种交互式可视化工具,使得能够全面探索复杂分布的细胞及其潜在分子驱动因素。
  6. 此外,根据Taxonomy、Uberon、Cell Ontology和Entrez Gene的最新版本,对物种、组织、细胞类型及其相应的标记进行了标准化处理。
Para_05
  1. 总而言之,CellSTAR 首次提供了全面的专业注释参考数据,用于注释数百种细胞类型,并且通过整合数万个标记基因,使得能够综合考虑参考数据和标记基因,这两点使其独具特色。
  2. 鉴于单细胞组学领域中人工智能的快速发展,我们预计 CellSTAR(https://idrblab.org/cellstar)将对单细胞转录组分析产生重大影响,例如在细胞异质性研究、发育生物学、疾病研究和药物发现方面。
  3. 图 1C 展示了这一影响。

Factual content and data retrieval

Systematic collection, curation and integration of annotation data

系统性的收集、整理和整合注释数据

Para_06
  1. 在本研究中,提出了一种多步骤收集和整理流程,以获得一套多样化的高质量参考数据集,这些数据集带有可靠的注释信息:
  2. (i)全面的文献回顾:在PubMed上进行了详尽的文献回顾,重点关注那些提供特定细胞类型特征基因表达模式的单细胞RNA测序(scRNA-seq)研究。
  3. 使用了诸如‘scRNA-seq + 细胞图谱’、‘单细胞RNA测序 + 参考数据’和‘单细胞转录组学 + 参考数据’等特定关键词组合,这产生了10426篇相关出版物。
  4. (ii)公共存储库挖掘:为了补充基于文献的搜索策略,在Gene Expression Omnibus (GEO) 和 Single Cell Expression Atlas (SCEA) 等信誉良好的存储库中,对具有基础注释的公开数据集进行了额外的数据挖掘。
  5. 通过在GEO使用上述关键词,检索到了25906条记录。
  6. 对于SCEA,根据实验因素使用关键词‘细胞类型’进行过滤,得到了135项相关实验。
  7. (iii)严格检查与验证:由于数据大小、复杂性、保护规定和组织障碍等因素,共享注释信息与表达谱可能会遇到挑战。
  8. 因此,对前几步中确定的出版物和实验进行了严格的检查和验证,以确保收集到可靠的数据。
  9. 我们仔细审查了选定出版物的全文,并交叉核实了相关的补充材料,确保仅包含与经过确信验证的注释相关联的公开可访问的表达谱(如来源于细胞分选、细胞混合、细胞分类和鉴定)。
  10. 随后,我们提取了全面的实验元数据,并将其分配给相应的记录。
  11. (iv)数据去重与记录:为了避免记录重复,将具有相同实验条件的实验记录合并。
  12. 为每项实验记录提供了详细的实验元数据和批次信息。
  13. 结果,CellSTAR提供了515个研究项目和1679个由14种技术测序的实验批次,包含了18个物种和139种组织中的889种不同细胞类型,这些细胞类型是通过107种注释方法识别的。
  14. 特别是,共包含了67项针对疾病样本(包括由WHO ICD-11定义的36种疾病类别)的实验和448项针对健康样本的实验。
Para_07
  1. 鉴于标志基因在推断细胞身份中的重要性,CellSTAR将标志基因数据作为补充资源纳入其中,建立了一个整合框架,该框架结合了这两种信息类型的优点。
  2. 标准化和数据对齐:我们参考数据集的细胞类型注释使用最新版本的细胞本体(Cell Ontology)进行了标准化,以确保不同数据来源之间术语的一致性,并进一步使参考数据和标志基因数据对齐。
  3. 获取经典标志基因:从诸如CellMarker、PanglaoDB、CancerSEA和CD Marker手册等已建立的资源中获得了专家验证的细胞标志基因。
  4. 在某些情况下,标志基因数据库可能并未涵盖先前搜索的参考数据集中存在的所有细胞类型。
  5. 因此,为了确保两种数据类型的全面相互验证,我们通过在Google Scholar上进行彻底的文献回顾,广泛补充了未被覆盖的细胞类型的缺失标志基因信息。
  6. 具体来说,我们使用了标志基因与特定细胞类型、物种和组织相关的关键词组合。
  7. 例如,(‘marker’ OR ‘signature’) AND (‘fat cell’ OR ‘adipocyte’ OR ‘adipose cell’) AND (‘Mus musculus’ OR ‘mouse’) AND (‘kidney’)。
  8. 专家审查和验证:此外,生物学研究人员和专家参与了候选标志基因的审查,以提取临床或实验验证的标志基因信息,确保它们的特异性、相关性和潜在的生物学见解。
  9. 综合信息的结合:来自数据库和出版物的所有标志基因记录被合并,结果得到超过80 000条记录,涵盖了76%参考数据中识别出的超过80%的细胞类型。
  10. 通过这些系统而严格的数据收集、整理和整合步骤,CellSTAR创新性地提供了一个全面且可靠的框架,该框架结合了特征明确的注释参考与已建立的经典标志基因,以改进细胞类型的注释。

Data accessibility of annotated references with comprehensive metadata

具有综合元数据的标注参考数据的可访问性

Para_08
  1. 基于参考数据的注释的成功在很大程度上取决于合适参考数据集的可用性和选择性,这些参考数据集与查询数据集具有足够的相似性。
  2. 为了应对这一挑战,CellSTAR 为用户提供了系统收集和整理过的参考数据集,这些数据集以前散见于各种出版物中,并附带了全面的注释相关元数据,以便用户能够自信地利用这些数据集。
Para_09
  1. 在在线数据库中,用户可以通过搜索相关关键词来检索感兴趣的实验。
  2. 每次查询都会生成一个相关的实验列表,用户可以根据提供的基本信息和词云图轻松选择合适的参考,该词云图展示了参考数据中的复杂细胞景观及不同细胞群体的丰度。
  3. 此外,每个实验的全面元数据、批次信息以及参考数据集均可获取。
  4. (a)实验元数据:这一部分提供了研究样本的全面描述,包括物种和组织名称/同义词,以及具体研究的疾病。
  5. 它还包含了测序技术的详细信息,数据预处理协议(质量控制、标准化、转换、数据校正与整合、特征选择和维度降低),以及实验处理,例如试剂处理、外科手术程序、基因修饰、喂养方案和疾病进展。
  6. 注释的来源(是手动获得、自动获得、通过细胞分选还是免疫吸附获得)及相关注释协议也被提供。
  7. 此外,与NCBI分类学、Uberon、GEO和SCEA等已建立的数据库的交叉链接也可用。
  8. (b)批次信息:这一部分明确地呈现了与每个批次相关的原始命名或标签,并附有各自样本的相关描述。
  9. 通过阐明不同批次的独特特性和组成,它提供了识别潜在批次效应、理解批次相关变化对细胞类型组成的影响,以及利用数据集时考虑适当的分析方法的宝贵见解。
  10. (c)类似实验:虽然数据集根据不同的元数据属性(如样本来源和实验条件)被归类为单独的实验,但整合和利用这些高度相关的参考数据集对于提高注释准确性和确保全面的注释覆盖至关重要。
  11. 因此,这一部分建立了与同一文献或共同研究项目相关的数据集之间的联系,便于浏览相关数据集,同时展示不同实验之间元数据的一致性和可比性。
  12. (d)文件下载:在线数据库提供了两种类型的‘参考数据’,包括注释参考文件和相应的表达谱文件。
  13. ‘注释参考文件’是一个csv文件,在表达谱文件中的所有批次内,为单个细胞与其对应的注释细胞身份之间建立清晰的映射关系。
  14. 在注释参考文件中,有两个关键列对于指示细胞身份至关重要:‘推断的细胞类型’和‘细胞本体类别’。
  15. 前者由原始数据作者提供,术语和命名惯例可能有所不同,而后者记录了我们使用已建立的细胞本体实施的标准命名,以确保一致性和可靠性。
  16. ‘表达谱文件’是一个计数矩阵,捕捉每个基因在每个单细胞中的原始表达计数,正如审稿人所推测的那样。
  17. CellSTAR中的所有计数矩阵都是未经任何标准化或转换的原始计数矩阵。
  18. 然而,一些数据已经过原始数据提供者的质量控制,以剔除低质量数据(例如,实验 CSTA_000001),并且我们没有进行任何进一步的数据操作。
  19. 总之,CellSTAR基于实验元数据促进用户查询与参考数据集之间的系统连接,同时有效地组织结果数据以便于访问和下载。
  • 图 2. 对每个精心整理的参考数据集(以 CSTA_000001 为例)的相关注释元数据和实验批次进行详细描述。(A) 全面的实验元数据包括研究样本的描述(物种和组织名称/同义词,以及特定的研究疾病),测序技术,数据预处理协议,实验处理,注释来源,相应的注释协议,以及其他分子生物学数据库的外部链接。(B) 批次信息明确阐述了研究中不同批次的独特特性和组成。(C) 本节建立了与同一文献或共同研究项目相关的数据集之间的联系,便于浏览相关数据集,并展示了不同实验之间元数据的一致性和可比性。(D) 组织良好的注释参考可供下载,为表达谱文件中的所有批次内单个细胞与其对应的注释细胞身份之间建立了清晰的映射关系。尽管由于篇幅限制,本图仅展示了一个批次及其关联的表达谱文件,但完整的资料可通过在线数据库获取。
  • ,
  • ,
  • ,
  • ,

Characterization of canonical markers and navigation to associated references

特征描述经典标志物并导航至相关参考文献

Para_10
  1. 通过纳入经典标记物,该在线数据库不仅提供了大量注释参考的访问途径,还为各种细胞类型的分子特征提供了有价值的见解。
  2. 用户友好的界面经过精心设计,旨在实现直观导航和高效查询特定细胞类型整合的注释数据,主要包括以下几个关键部分:(a) 细胞基本信息:这一部分呈现了每种细胞类型的概览,包括名称、同义词,对其独特形态、功能、位置及其他显著特征的全面描述。
  3. 此外,还提供了该特定细胞类型所属的直接上级或更高级别细胞类型。
  4. 为了加深对与多种细胞类型相关的层级关系的理解,提供了指向欧洲分子生物学实验室-欧洲生物信息学研究所(EMBL-EBI)的细胞本体查找服务的外部链接。
  5. (b) 与细胞相关的实验(s):在此部分,用户可以访问涉及感兴趣特定细胞类型的综合性参考数据。
  6. 除了一般的实验元数据外,还可以通过‘详情’列中提供的超链接深入了解相关信息。
  7. (c) 与细胞相关的经典标记物(s):此部分列出了不同物种和组织中精心筛选的经典细胞标记物。
  8. 对于每个标记物,详细记录了包括标记名、基因符号、基因类型以及由标记基因编码的蛋白质等必要信息。
  9. 此外,还提供了相关出版物的超链接,以便深入研究这些标记物
  • 图3. 典型细胞标志物及其相关参考数据的特征描述,以内皮细胞为例说明每种细胞类型的情况。 (A) 特定细胞类型的通用信息包括细胞名称及其同义词、显著特征(如形态、功能、位置)、与其他各种细胞类型的层级关系,以及链接至EMBL-EBI的细胞本体查询服务以便进行深入探索。 (B) 在这一部分,呈现了涉及特定感兴趣细胞类型的所有参考数据概览,通过‘详情’列中提供的超链接可以获取每项研究的深入信息。 (C) 对不同物种和组织的各种典型细胞标志物进行了分类汇总。 对于每个标志物,详细记录了包括标志物名称、基因符号、基因类型以及由该标志物基因编码的蛋白质等关键细节,并提供了直接链接到相关出版物的途径以便进一步研究。

Visualizations for exploring cell populations and molecular signatures

用于探索细胞群体和分子特征的可视化工具

Para_11
  1. CellSTAR 提供了各种交互式可视化工具,有助于深入探索错综分布的细胞及其潜在的分子驱动因素。
  2. 对每个表达谱进行了彻底分析,从而产生了以下可视化结果:(a) 注释细胞群体的可视化:饼状图呈现了每个参考数据集中不同细胞群体的相对丰度概览,为用户快速洞察细胞群体的分布和组成提供了依据。
  3. 同时,tSNE 地图直观地表示了基于基因表达谱的簇之间的复杂空间关系。
  4. (图 4A)。
  5. (b) 细胞群体丰度热图:此热图使用户能够直观比较不同实验批次中细胞群体的分布和变异性,从而发现与各批次内特定细胞类型相关的潜在功能意义。
  6. (图 4B)。
  7. (c) 顶级基因热图:该热图生动描绘了顶级差异表达基因(DEGs)在多种细胞群体中的表达模式,有助于识别复杂生物过程背后的潜在分子驱动因素。
  8. (图 4C)。
  9. 具体来说,参考数据集中每种注释细胞类型的 DEGs 是根据威尔科克森等级和检验确定的。
  10. 科学界普遍认为,高质量的参考数据集对于解读表达模式具有重要意义,并且是识别分子标志的基础资源。
  11. 此外,在多个数据集中交叉验证标记尤其重要,尤其是在数据源自不同的实验条件或技术的情况下。
  12. 这确保了相互验证,增强了注释结果的稳健性和可靠性。
  13. 因此,来自参考数据集的 DEGs 可供用户用来比较这些候选标记在不同数据集之间或与现有经典标记信息之间的差异。
  14. 以小鼠肝脏中使用 Microwell-seq 测序的参考数据集(CSTA_000192)为例,60% 的细胞类型与其 DEGs 与现有经典标记重叠超过 50%,表明其高质量和注释潜力。
  15. 总之,CellSTAR 强大的可视化工具不仅有助于识别细胞类型,而且在发现潜在的生物标志物以及阐明复杂的分子机制方面也展现出巨大前景。
  • 图 4. CellSTAR 提供的各种可视化功能,用于探索细胞群体和分子特征。(A)注释细胞群体的可视化:饼状图展示了每个参考数据集中不同细胞群体的相对丰度概览,为用户快速了解细胞群体的分布和组成提供了见解。同时,tSNE 地图根据基因表达谱直观地表示了各集群间的复杂空间关系。(B)细胞群体丰度热图:该热图使用户能够直观地比较不同实验批次中细胞群体的分布和变异性,从而发现每一批次中不同细胞类型可能具有的功能意义。(C)顶级基因热图:该热图生动地描绘了各种细胞群体中顶级差异表达基因的表达模式,有助于识别复杂生物过程背后的潜在分子驱动因素。

Applications of CellSTAR for comprehensive and robust annotation

CellSTAR在全面和稳健注释中的应用

Para_12
  1. 术语‘参考数据’通常指的是现有的由专家标注的单细胞图谱,这些图谱可能包含了多种生物学因素(例如年龄、性别和疾病状态)。
  2. 在标注查询数据集时,一种偏好的方法是参照与特定背景相关的已标注单细胞数据集(即参考数据,不仅限于健康或疾病实验)。
  3. 因此,CellSTAR整合了这两种类型的实验,以便为用户提供一个全面的资源。
  4. 健康实验作为了解健康生物体或组织内典型细胞类型及其基因表达谱的参考,这对于建立一个基础框架至关重要,该框架可用于比较和标注不同实验条件下的细胞类型。
  5. 同时,随着每项研究中的样本数量增加,人们越来越关注不同疾病或实验条件之间的比较分析。
  6. 这类比较分析对于理解疾病发病机制、识别生物标志物和潜在治疗靶点至关重要。
  7. 因此,在某些情况下,研究人员可能会使用来自具有特定疾病或状况个体的样本进行实验。
  8. 这些标注的数据集对于标注相似条件下获得的查询数据集中的细胞类型非常有价值,可以用来表征特定疾病的细胞类型、识别特定疾病的标记基因,并探究疾病对细胞景观的影响。
  9. 此外,这些数据还允许跨多个单细胞图谱进行元分析,以阐明与疾病严重程度和对各种治疗方法的反应相关的细胞类型差异。
Para_13
  1. 在这里,我们全面探索了CellSTAR参考数据集的各种注释应用及其在选择适合特定应用场景的策略方面的灵活性。
  2. CellSTAR允许通过相似性度量、数据整合或(半)监督分类,在参考数据集与查询数据集中未知细胞之间关联基因表达谱。
  3. 最直接的策略是相似性度量(图5A),这一策略已在诸如scmap、scMatch、CHETAH、CIPR和clustifyr等工具中得以实现。
  4. 这些工具专注于量化参考数据集与查询数据集中基因表达谱之间的相似性,从而能够将未知细胞映射到已知的细胞类型。
  5. 对于涉及将查询数据与参考数据整合的应用场景(图5B),批次效应是一个重要的问题,因为它们会对基于整合数据集的细胞类型注释产生显著影响。
  6. 为了处理这类干扰同时保持感兴趣的生物信号,已经提出了几种工具。
  7. 例如,Harmony将查询数据和参考数据都投影到一个较低维度的空间,并进行软聚类以生成多个簇。
  8. 然后根据簇中心计算校正因子,并迭代地应用于最小化整合数据集中的批次效应。
  9. 这种方法使得能够在两个数据集中识别出跨越的数据簇,并促进参考标签向这些簇内的查询细胞转移。
  10. 尽管这种方法支持识别不同的细胞类型和细胞状态梯度,但它可能会计算成本较高。
  11. 尽管现有的基于相似性度量或数据整合的工具都是基于‘单一’参考数据集,但它们允许合并‘多个’参考数据集以实现全面的注释。
  12. 最终,当有‘足够’的具有有意义特征和细胞身份的参考数据集可用时,(半)监督分类策略(图5C)提供了一个更为有效的替代方案。
  13. 这种方法有效地克服了多数据集中内在的实验噪声和变异性。
  14. 总体而言,CellSTAR中提供的多样化参考数据可以直接应用于这些注释工具,或者根据适当的参考数据集的可用性、正在进行的具体研究以及可用的计算和专业知识资源做出轻微调整。
  • 图 5. 基于 CellSTAR 参考数据可以采用的三种广泛应用的注释策略的示意描述。
  • (A)相似性测量:它涉及量化参考数据集和查询数据集中基因表达谱之间的相似性,这有助于将未知细胞或簇映射到已知的细胞类型。
  • (B)数据整合:通过将查询数据集与参考数据集整合,这一策略使得能够识别跨越两个数据集的簇,并允许将参考标签转移到这些簇内的查询细胞。
  • (C)(半)监督分类:它指的是根据标注数据集中定义的一组特征,在细胞类型标签分布上训练监督或半监督分类器。随后利用这些训练好的模型根据相对特征对未标注数据集中的细胞进行标记。
Para_14
  1. 除了利用参考数据的灵活性外,CellSTAR的标记数据还可用于专家手动注释以及诸如CellAssign、Garnett、ScType、scCATCH和CALLR等自动化注释工具。
  2. 此外,还可以探索基于整合考虑参考数据和标记数据的更多潜在应用。
  3. 许多基准研究已经证明了这些方法的互补性,每种方法都有各自独特的优势。
  4. 因此,在实际应用中强烈建议结合使用多种集成参考数据和标记数据的工具。
  5. 这种方法建立了交叉验证,并实现了多数投票,这显著提高了注释准确性。
  6. 通过利用参考数据和标记数据之间的协同作用,CellSTAR有可能提升其能力,并提供更准确和全面的注释。

Standardization, access and retrieval of CellSTAR data

细胞状态数据(CellSTAR)的标准制定、访问与检索

Para_15
  1. 由于在分配过程中引入了固有的偏见,这一过程涉及在不同数据集中应用未受控制的词汇来进行细胞类型标记,以及在各种数据库中观察到的经典标志基因的不一致性,使用此类资源可能会导致注释结果出现分歧。
  2. 换句话说,为了确保可靠且一致地利用CellSTAR数据,必须减轻来自不同来源的不同术语和命名法可能带来的变化。
  3. 因此,对收集到的原始数据进行了仔细的数据清理和系统的标准化处理。
  4. 标准化过程依赖于最新版本的分类法、Uberon、细胞本体论、Entrez Gene以及WHO ICD-11,分别用于精确对齐物种、组织、细胞类型、细胞标志物和疾病。
Para_16
  1. 此外,还精心设计了一个用户友好的界面,以便于直观导航、高效检索和方便下载数据。
  2. CellSTAR的浏览功能可以极大地帮助用户探索参考数据,并识别与特定物种或组织相关的实验。
  3. 为了进一步加快数据探索过程,CellSTAR整合了一个快速搜索工具,使用户能够高效地搜索整个注释数据集。
  4. 这可以通过主搜索界面或下拉菜单选项来实现。
  5. 在"下载"页面上,带有实验元数据和分析结果的注释参考数据集以及相应的经典细胞标志物均可直接获取。
  6. 具体而言,为了提高用户便利性和增强使用参考数据集时的互操作性,已将组织良好的表达谱转换为通用格式(CSV、TSV和MTX),这些格式与各种单细胞注释和分析工具兼容,包括但不限于SingleR、scDeepSort和harmony。
  7. 所有用户都可以在无需登录的情况下自由访问CellSTAR,网址为https://idrblab.org/cellstar,并且已经在包括Microsoft Edge、Google Chrome、Apple Safari和Mozilla Firefox在内的流行网络浏览器上进行了兼容性测试。

Conclusion and prospect

Para_17
  1. 在这项研究中,我们开发了CellSTAR,这是一个人工策划的资源,全面整合了跨多种物种的注释参考和典型标记。
  2. 它是第一个提供基于实验的参考数据以注释数百种细胞类型的数据库。
  3. 这些宝贵的数据在识别复杂的细胞组成和解析细胞状态转变方面表现出优于传统的标志基因信息,这些标志基因特异性地表达在已知的细胞类型中。
  4. 此外,数万个标记也被纳入CellSTAR中,以便综合考虑参考和标记数据。
  5. 值得注意的是,提供了各种可视化工具,以促进对复杂分布的细胞以及基于每个表达谱的彻底分析而得出的潜在分子驱动因素进行深入探索。
  6. 总之,CellSTAR将成为研究人员加速对不同细胞类型的研究、并在细胞生物学领域推动开创性发现的一个信息丰富且有价值的资源。
Para_18
  1. 随着单细胞转录组学领域的快速发展,参考图谱、新的实验技术、注释策略和工具不断被开发出来,以提高我们解释、注释和验证细胞景观的能力。
  2. 因此,将在以下几个方面进行进一步扩展。
  3. 首先,更多物种和组织的参考数据集以及更多样细胞类型(特别是罕见/过渡性细胞类型)的扩大的细胞标记库将在未来版本的CellSTAR中收集和更新,以提供更全面的信息供用户使用。
  4. 第二,分析算法和工具将被整合到CellSTAR中,以帮助从复杂的数据集中提取有意义的见解。
  5. 第三,将重点放在涉及多种实验条件的研究的情境分类上,因为单细胞图谱的解释焦点正逐渐转向跨疾病、年龄或其他条件的比较。
  6. 最后,重要的是要认识到仅依赖参考数据集和标记基因的内在局限性,这是当前版本的CellSTAR最初设计时为了应对使用scRNA-seq数据进行细胞类型注释的迫切需求。
  7. 当尝试注释同质或密切相关的细胞类型或状态时,这种挑战尤为突出,因为它们通常在表达模式上存在显著重叠。
  8. 换句话说,仅凭转录水平可能无法检测到细胞亚型之间的细微区别,可能还需要额外的互补基因组层,例如表观遗传信息。
  9. 此外,实验技术的持续进步使得能够在单细胞水平上测量多种模态成为可能,这有望实现更准确和全面的细胞类型注释,并增强我们对复杂多细胞系统的理解。
  10. 例如,空间转录组学结合了细胞成像和scRNA-seq,以在一个实验中捕获空间转录模式和细胞形态;通过测序进行的转录组和表位的细胞索引使细胞表面蛋白的免疫表型分析与scRNA-seq测量同时进行。
  11. 总体而言,考虑到这些不同类型数据提供的宝贵见解,我们预计这些数据将扩展到我们的数据库中,并且基于单细胞研究社区不断发展的需求,在未来的版本中探索它们的整合。

Data availability

Para_19
  1. 所有数据均可在 CellSTAR 查看、访问和下载,CellSTAR 对所有用户免费开放,无需登录,访问地址为:https://idrblab.org/cellstar。

Supplementary data

Para_20
  1. 补充数据可在 NAR 在线获取。