ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

数据库分享 | 一个专门收录液体活检多组学数据的数据库 #5519

Closed ixxmu closed 2 weeks ago

ixxmu commented 2 weeks ago

https://mp.weixin.qq.com/s/3b3j68dXLHZSHzCc1uVYJA

ixxmu commented 2 weeks ago

数据库分享 | 一个专门收录液体活检多组学数据的数据库 by BioJournal Link

Basic Information

  • 英文标题: cfOmics: a cell-free multi-Omics database for diseases
  • 中文标题:cfOmics:一个疾病相关的细胞外多组学数据库
  • 发表日期:27 September 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Mingyang Li | Zhi John Lu
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D607/7283892

Abstract

  1. 液体活检作为一种有前景的非侵入性方法,用于检测、监测疾病及预测复发。
  2. 然而,为了识别各种癌症及其他疾病的可靠生物标志物,有效利用液体活检数据还需进一步探索。
  3. 在此,我们介绍 cfOmics,一个网络可访问数据库(https://cfomics.ncRNAlab.org/),整合了全面的多组学液体活检数据,包括基于二代测序的游离DNA(cfDNA)、游离RNA(cfRNA),以及基于质谱的蛋白质组和代谢组数据。
  4. 作为该领域首个多组学数据库,cfOmics 总共涵盖了17种不同的数据类型和13种样本变异,跨越69种疾病状况,收集了11345个样本。
  5. 此外,cfOmics 还包含了已报道的潜在生物标志物供参考。
  6. 为了促进多组学数据的有效分析和可视化,cfOmics 向用户提供强大的功能。
  7. 这些功能包括浏览、配置文件可视化、综合基因组浏览器以及相关性分析,所有这些均围绕基因、微生物或末端基序展开。
  8. cfOmics 的主要目标是通过提供全面的多组学数据来帮助液体活检领域的研究者。
  9. 这使他们能够探索无细胞的数据,并从中提取深刻见解,从而对疾病诊断、治疗监控和管理产生重大影响

Introduction

Para_01
  1. 在过去几十年里,分子分析在癌症和其他疾病的诊断与监测中发挥了关键作用,为临床医生提供了不可或缺的信息,以指导个性化治疗策略。
  2. 传统上,这些分析方法依赖于涉及通过手术程序获取切除肿瘤样本的侵入性技术。
  3. 然而,这种方法耗时,并伴随着增加的风险,且对于连续取样以预测预后构成挑战。
  4. 相比之下,液体活检通过利用患者体液样本中的分子特征提供了一种替代范式,消除了传统活检方法的局限性。
  5. 包括外周血、血浆、尿液、唾液、血清和脑脊液在内的多种体液样本提供了更大的可及性,同时减少了时间和经济成本,从而促进了持续广泛的取样。
  6. 因此,液体活检已成为精准医学和临床肿瘤学中日益有前景的途径,使癌症的非侵入性诊断、监测和复发率预测成为可能。
  7. 因此,这种非侵入性的方法逐渐成为传统侵入性方法的重要补充,在精准肿瘤学中的重要地位日益凸显。
Para_02
  1. 然而,由于体液中存在的分子具有异质性和数量有限,选择用于液体活检的最佳分子生物标志物仍是一个艰巨的挑战。
  2. 大量研究已广泛调查了各种癌症的生物标志物检测,包括对体液中的无细胞DNA(cfDNA)、无细胞RNA(cfRNA)、蛋白质和代谢物生物标志物的检查。
  3. 此外,下一代测序技术和生物信息学工具的进步已经开启了对多种分子数据类型的研究潜力。
  4. 例如,在cfDNA的情况下,已探索的数据类型包括甲基化、羟甲基化、片段组学、末端序列特征、微生物群等。
  5. 同样,许多类型的cfRNA正在被探索,包括表达量、微生物群、嵌合RNA等。
  6. 最近,无细胞多组学数据的整合,涵盖了多种组学和数据类型,已成为液体活检的一个前景广阔的途径,超越了单一组学方法的有效性。
  7. 来自不同组学的数据整合可以更全面地阐明由癌症引起的体液分子变化,并能有效应对癌症异质性的挑战。
  8. 在多组学诊断模型领域,值得注意的例子包括CancerSEEK,它同时结合蛋白质和cfDNA标记物,能够实现多种常见癌症的早期检测;以及HIFI,这是一种涉及甲基化、末端序列特征、片段组学和二进制计数的多组学模型,成功实现了肺癌的早期诊断
Para_03
  1. 在液体活检领域内对生物标志物的研究需要大量的数据支持和资源,这突显了建立相关数据库的迫切需求。
  2. 目前,在这个领域出现了两种主要类型的数据库:数据驱动型数据库和知识型数据库,也称为知识库。
  3. 数据驱动型数据库主要侧重于存储原始或处理过的研究数据。
  4. 这类数据库包括一些著名的例子,如 exoRBase 2.0、CancerMIRNome、LiqDB 和 BBCancer,它们作为循环 RNA 数据的存储库。
  5. CFEA 和 FinaleDB 则专门用于探索循环 DNA 数据。
  6. 另一方面,知识型数据库的特点是收集文献报道的信息,涵盖各种方面,如生物标志物、实验等。
  7. 这些数据库包括 miRandola、Vesiclepedia、ExoBCD、ExoCarta、EV-ADD、血浆蛋白数据库以及尿液外泌体蛋白数据库等。
  8. 然而,尽管这些数据库已经存在,但现有的数据驱动型数据库没有一个全面涵盖了四种组学类型(循环 DNA、循环 RNA、蛋白质组和代谢组)。
  9. 此外,当前的液体活检数据库中还缺乏诸如微生物丰度、嵌合 RNA 和末端基序等关键数据类型。
  10. 因此,这个领域中存在一个明显的研究空白,需要得到解决。
Para_04
  1. 在这项研究中,我们开发了一个主要由数据驱动的新数据库,称为无细胞多组学(cfOmics)数据库。
  2. 我们的目标是汇编来自多种体液的分子数据综合集合,涵盖了所有四种组学类型,包括现有数据库中未曾记录的数据类型。
  3. cfOmics还提供了多项功能,包括多组学数据的整合、浏览、分析和可视化。
  4. 此外,cfOmics以其无与伦比的全面性和包容性而区别于其他数据库,它总共纳入了17种不同的数据类型、11345个样本和69种疾病状况,覆盖了13种样本变化。
  5. 重要的是,cfOmics对所有数据和信息提供不受限制的访问,允许用户自由下载。
  6. 因此,据我们所知,cfOmics是该领域第一个多组学数据库,其特点在于综合性地整合了多组学数据、多样化的处理特征类型、广泛的体液样本范围、用户友好的界面以及基于文献的生物标志物的集成。
  7. 这些独特的属性使液体活检领域的研究人员能够探索无细胞多组学数据,并从中提取深刻见解,从而对疾病的诊断、治疗监测和管理产生重大影响。

Materials and methods

Data collection and curation

数据收集与管理

Para_05
  1. cfOmics数据库涵盖了来自多个公共数据库的11345个样本,这些数据库包括GEO(https://www.ncbi.nlm.nih.gov/geo/)、iProX(https://www.iprox.cn/)、PRIDE(https://www.ebi.ac.uk/pride/)和GNPS(https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp),涉及13种样本类型和69种疾病状况(图1)。
  2. 这些样本包含多种组学类型,包括循环游离DNA(cfDNA)、循环游离RNA(cfRNA)、蛋白质组和代谢物。
  • 图 1. cfOmics 框架。cfOmics 中的数据集来源于 4 个公共数据库,包括 GEO、iProX、GNPS 和 PRIDE(左上角)。它涵盖了 69 种疾病状态(包括 28 种癌症和 41 种非癌症疾病状态),13 种样本类型,共计 17 种不同的数据类型以及 11,345 个样本集合(右上角),提供了直观清晰的浏览(中左)和内部数据分析功能(底部)。
Para_06
  1. 为了整合数据特征和基因信息,我们利用Ensembl关于人类基因组hg38的基因和启动子注释信息整合了数据。
  2. 这种整合涵盖了不在单一基因单元内记录的数据类型,例如SNP比率、编辑比率和替代启动子。
  3. 经过这种方法处理后,我们能够从以基因为中心的角度展示和分析上述特征数据构成的数据景观,以及存储在数据库中的这些特征之间的相互关系。
  4. 此外,与基因缺乏关联的数据特征,如微生物丰度和片段末端序列,经过单独处理后也在数据库中进行了展示。
  5. 微生物数据来源于kraken2计算结果,具体的分类学信息可以从NCBI分类数据库获取。
  6. 网址为https://www.ncbi.nlm.nih.gov/taxonomy

Data Processing

数据处理

Para_07
  1. cfOmics 包含多种生物学数据,包括 cfDNA、cfRNA、蛋白质和代谢物。
  2. 每种类型的数据都具有独特的意义,并以一种独特的方式呈现。
  3. 因此,我们实施了不同的处理技术来适应这些差异。
  4. 我们还总结了我们数据处理流程的全面解释(图 2)。
  • 图 2. 多组学数据分析流程图。cfDNA 和 cfRNA 的数据基于下一代测序技术,而蛋白质组和代谢组的数据则基于质谱技术。
Para_08
  1. 对于cfDNA数据集,我们计算了cfDNA甲基化的数据特征(包括非富集型甲基化数据和富集型甲基化数据),核小体占据,末端基序丰度,片段大小以及微生物的信息。
Para_09
  1. 为了分析非富集甲基化数据,我们的第一步是使用Bismark (版本0.15.0)将清洗后的数据与人类基因组hg38对齐,在此之前先清理了原始数据集。
  2. 随后,我们利用bismark_methylation_extractor提取了基因组内每个胞嘧啶位点的甲基化详情,并检查了CpG位点的存在情况。
  3. 此外,对于每个样本,我们根据以下流程仔细记录了人类基因组注释文件中的基因体、启动子和CGI的甲基化水平(β值):对于单个胞嘧啶位点,我们有
Para_10
  1. 这里,M 表示甲基化胞嘧啶的数量,而 U 代表非甲基化胞嘧啶的数量。
  2. 因此,计算特定区域内所有胞嘧啶的平均 beta 值,可以得到表示该区域的 beta 值。
Para_11
  1. 这些beta值记录作为这一特征的量化指标。
Para_12
  1. 为了通过富集方法分析甲基化数据,我们采用DIP-seq数据作为一个代表性例子。
  2. 起初,我们使用Bowtie2(版本2.5.1)将处理过的原始数据与基因组对齐。
  3. 随后,我们计算了基因体、启动子和CpG岛的读段计数。
  4. 最终,我们将这些计数标准化为每百万转录本(TPM)值,作为这一特征的定量指标。
Para_13
  1. 为了确定片段大小,首先使用samtools(版本1.6)和awk(版本4.0.2)从比对结果中提取长片段(151–220nt)和短片段(100–150nt)的比对文件。
  2. 接下来,利用bedtools(版本2.31.0)的coverage功能根据提供的基因体和基因组100 kb分段(指的是长度为100 kb的基因组DNA片段)位置数据计算长片段和短片段的读取计数。
  3. 然后,使用bedtools的map功能计算每个区域的平均覆盖水平。
  4. 通过将每个区域的数据除以所有区域的总数据来标准化该区域内的数据,并随后应用以2为底的对数变换(分别对长片段和短片段数据进行单独处理)。
  5. 最后,利用标准化且经过对数变换的数据,根据下面给出的特定比例计算公式计算每个区域的片段大小比例,作为这一特定特征的定量指标。
Para_14
  1. 为了确定末端基序,即位于cfDNA末端的短核苷酸序列(49),首先需要使用pysam包(v0.21.0)来评估每个4-聚体末端基序在比对输出中的数量和普遍性(13)。
  2. 随后,通过将频率转换为比例值来标准化数据。
  3. 此外,在数据库中,研究人员可以选择将这些基序转换为2-聚体和3-聚体,以便在浏览页面的图表中进行展示。
  4. 这一功能有助于实现定制化的可视化效果。
Para_15
  1. 通过关注数据库中每个基因相关的两个独特区域来计算核小体占据率:基因转录起始位点(TSS)上游150 bp和下游50 bp,标记为‘15t5’;以及第一个外显子上游300 bp和上游100 bp,标记为‘31e1’。
  2. 在计算这些特征的过程中,也使用了与特征区域对应的对照区域。
  3. 具体而言,对于15t5区域,对照区域包括TSS上游2000 bp至1000 bp的范围,以及TSS下游1000 bp至2000 bp的范围。
  4. 至于31e1区域,对照区域覆盖了Exon1上游2000至1000 bp的范围,以及下游1000至2000 bp的范围。
  5. 起初,使用bedtools coverage工具来确定这些区域内的比对输出覆盖度。
  6. 随后,利用下面的公式计算15t5和31e1的核小体占据率,为研究人员提供了这一特征的量化指标。
Para_16
  1. 通过将非人类基因组匹配的读段与kraken2(版本2.1.2)数据库比对,获得了cfDNA和cfRNA数据集中的微生物分类信息。
  2. 随后,消除了标准化基质中微生物可能带来的污染。
  3. 接着,计算了这些读段中残留的微生物分类丰度。
  4. 之后,构建了所有微生物分类及其相应丰度的丰度矩阵。
  5. 为了获得标准化数据(相对丰度),通过将每个样本中每种微生物分类的丰度除以该样本中所有微生物分类丰度之和来对矩阵进行归一化处理。
Para_17
  1. 对于cfRNA数据集,我们计算了多种数据特征,包括替代启动子、基因表达、RNA编辑、RNA单核苷酸多态性、选择性剪接、嵌合RNA、选择性多腺苷酸化以及微生物丰度,其中微生物数据的计算方法已在早前介绍。
Para_18
  1. 获取原始高通量测序数据后,初步预处理涉及使用 cutadapt(v3.4)进行清洗。
  2. 之后,执行了由模板转换引起的 GGG/CCC 的缓解工作。
  3. 随后,使用 STAR 对处理后的数据与尖峰序列进行比对,对于所有后续的比对过程均持续使用 STAR。
  4. 从这一比对过程中产生的未比对读段被进一步用于与 UniVec 数据库中的序列进行比对,以有效减轻潜在的载体 DNA 污染。
  5. 此后,未比对读段池进行了与人类基因组 rRNA 的比对。
  6. 未能与 rRNA 比对上的读段进一步与 hg38 人类基因组组装以及来自 MiTranscriptome 的非编码 RNA 进行比对。
  7. 在这些步骤之后,未比对读段被映射到源自 circBase 的全面的 circRNA 集合。
  8. 所有比对过程的结果被用来计算特定的 RNA 数据特征。
Para_19
  1. 为了确定基因表达(或RNA丰度),我们最初使用了对齐数据,并通过featureCounts(版本2.0.1)构建了一个表达矩阵。
  2. 随后,该表达矩阵利用每百万读数(TPM)方法进行了标准化。
  3. 标准化后的TPM数据作为定量指标,用于评估基因表达水平。
Para_20
  1. 为了确定替代启动子,我们使用了salmon工具(版本0.8.1)来量化转录本异构体的丰度,随后将其归一化为每百万转录本(TPM)。
  2. 通过合并那些转录起始位点在10碱基对范围内的异构体的TPM值(因此共享相同的启动子),我们得出了启动子活性的测量值。
Para_21
  1. 为了确定嵌合RNA,我们使用了STAR-fusion(版本1.10.0)将未对齐的读段重新对齐到嵌合接头,检测嵌合RNA,并量化其表达水平。
Para_22
  1. 在计算RNA编辑过程中,我们使用了GATK版本4.1.9.0的ASEReadCounter来识别来自REDIportal的编辑位点。
  2. 随后,计算了等位基因读取和参考基因读取的读取计数。
  3. 编辑比率定义为等位基因计数除以总计数的商。
Para_23
  1. 在计算RNA单核苷酸多态性(SNPs)的过程中,使用了GATK的SplitNCigarReads工具来分割跨越内含子的读段。这一分割确保了在RNA水平上可靠地识别SNPs。
  2. 随后,利用GATK的HaplotypeCaller检测遗传变异,并通过GATK的VariantFiltration进行过滤。
  3. 这一过滤过程包含了四个具体标准:(i) 通过费希尔精确检验得到的Phred尺度P值(FS)确定的链偏向性,阈值设定为<20;(ii) 变异置信度(QUAL)除以未经过滤的深度(QD),要求大于2;(iii) 变异位点上的最小读段计数(DP)超过10;(iv) SNP的质量(QUAL)超过20。
  4. 为了量化SNP的普遍程度,通过将等位基因计数除以总计数(包括参考计数和等位基因计数)来计算SNP比率。
Para_24
  1. 在进行RNA剪接分析的过程中,我们使用了rMATs软件(版本4.1.2)根据获得的测序读段来计算每个基因的IncLevel值。
  2. IncLevel,也被称为外显子包含水平,表示包含特定外显子的基因转录本的比例,这是该特征的定量指标。
Para_25
  1. I:映射到内含子包含异构体的读段数量;lI:内含子包含异构体的有效长度。
  2. S:映射到内含子跳过异构体的读段数量;lS:内含子跳过异构体的有效长度,其中在rMATs中的有效长度特指编码区域的长度加上任何被包含的UTR长度。
Para_26
  1. 在评估替代多腺苷酸化时,根据cfRNA比对数据计算了ΔPDUI(远端多腺苷酸化位点使用指数)值。
  2. ΔPDUI作为评价特定多腺苷酸化(polyA)位点相对利用率的指标,通过比较给定polyA位点与同一基因中最普遍的polyA位点(或远端polyA位点,指所有样本中最长3′ UTR的终止点)的使用情况来确定。
  3. ΔPDUI值为100%表示所考察的polyA位点(或远端位点)占据主导地位,而0%则表明该位点完全未被利用。
Para_27
  1. 以下是用于计算它的公式:
Para_28
  1. 其中 wLi∗ 和 wSi∗ 是样本 i 中具有远端和近端(或特定 polyA 位点) polyA 位点的转录本的估计表达水平。
Para_29
  1. 为了计算蛋白质的强度,使用了Mascot 2.8版本处理原始质谱(MS)数据,参数设置如下:错误发现率(FDR)为0.05,前体质量容差为20 ppm,碎片容差为0.05 Da,胰蛋白酶末端数(NTT)为2,最大错失切割数为2,以及半胱氨酸上的固定修饰为羰胺甲基。
  2. MS/MS光谱与UniProt人类蛋白质数据库(2022年11月3日版本)进行了比对搜索,该数据库包含20401条蛋白质条目。
  3. PANDA用于基于无标签或有标签定量计算蛋白质强度。

Label-free quantification

无标签定量

Para_30
  1. 标签自由定量方法包括四个步骤:(i) 从提取的离子色谱图(XICs)中获得三种类型的信息,质荷比(m/z)、保留时间(RT)和同位素强度;(ii) 保留时间(RT)对齐、交叉搜索、归一化和肽段鉴定;(iii) 使用XIC峰面积进行肽段定量;(iv) 我们假设来自同一蛋白质的肽段有不同的权重。因此,采用一步Tukey的双权重算法计算所有肽段加权平均强度的方式计算蛋白质丰度。每个肽段的权重定义为其强度与所有肽段强度中值之间的距离。

Labeled quantification

标记量化

Para_31
  1. 串联质谱标签(TMT)标记用于标记定量。
  2. 与无标签定量不同,TMT基定量利用报告离子强度来估算肽段的定量值,这已被证明比基于色谱强度的定量具有更高的精确度。
Para_32
  1. 基于TMT的定量蛋白质组学分析包括四个步骤:(i) 二级谱预处理,(ii) 报告离子提取与校正,(iii) 归一化,(iv) 肽段定量。
  2. 最后,采用一步法Tukey的双权重算法来计算蛋白质丰度,类似于无标签定量方法。
Para_33
  1. 关于代谢组,获取的原始数据使用MSConvert转换为mzML格式,然后使用MS-DIAL版本5.10进行处理,该过程包括数据收集、峰检测、化合物识别和峰对齐。
  2. 数据收集采用以下参数设置:MS1容差 = 0.01 Da,MS2容差 = 0.025 Da,保留时间 = 0-100分钟,MS1质量范围 = 0-2000 Da。
Para_34
  1. 在MS-DIAL中,每0.1 m/z的质量切片提取基峰色谱图,步长为0.05 m/z。
  2. MS-DIAL使用平滑方法(默认为线性加权平滑平均),微分计算和噪声估计来从基峰色谱图检测峰顶和两侧边缘。
  3. 然后通过峰高或峰面积测量峰强度。
  4. 检测到的峰顶在保留时间(分钟)和MS1数据(m/z)轴的点图中显示为"点"。
  5. 每个峰点的保留时间和基峰m/z用于代谢物鉴定,而峰强度则用于表示数据库中代谢物的强度。
Para_35
  1. 代谢物鉴定是通过搜索 MS-DIAL 代谢组学 MSP 谱库(所有公开的 MS/MS 库)来匹配获得的质量谱与化合物的参考谱。
  2. 根据保留时间、精确质量、同位素比和 MS/MS 谱信息,计算了四个得分,即保留时间相似度、MS1 相似度、同位素比相似度和 MS/MS 相似度。
  3. 每个得分都被标准化到 0 到 1 的范围内,分别表示没有相似性和完美匹配。
  4. 化合物鉴定使用这四个得分的加权平均值来进行
Para_36
  1. MS-DIAL中的峰对齐算法源自MZmine中实现的联合对齐器(64)。它主要包括四个步骤:(i) 创建参考表,(ii) 将每个样本的峰表与参考峰表进行匹配,(iii) 过滤对齐后的峰,以及(iv) 插补缺失值。

Correlation analysis

相关性分析

Para_37
  1. 基因主页提供了进行多组学相关性分析的独特功能。
  2. 用户有机会选择两种不同类型的资料,有时还会附带相应的实体,以及指定的样本环境。
  3. 在此选择过程之后,数据库服务器会根据所指定的数据类型和样本环境进行全面搜索,查找可用的疾病条件。
Para_38
  1. 对于数据库中识别出的每种疾病状态,都会提取出两个向量。
  2. 这些向量分别封装了与第一种和第二种数据类型相关的信息,这两种数据类型都与选定的样本、实体和基因密切相关。
  3. 这些向量中的每个元素代表给定样本的特征值。
  4. 重要的是,在向量长度不匹配的情况下,较长的向量会被谨慎地截断,以使其长度与较短的向量对齐。
  5. 因此,这一过程最终形成了双组学样本对,这些样本对随后作为散点图表示和相关系数计算的基础。

Website settings

网站设置

Para_39
  1. 所有处理过的数据都存储在 MySQL 8.0 数据库(Inno DB 引擎)中。
  2. cfOmics 网站是一个基于 React.js(v18.0)的单页应用(SPA),使用了 Bootstrap 5 框架的样式。
  3. 所有表格、图表和分析工具由我们的 Django(v4.1.7)后端生成,而基因组浏览器功能则由 igv.js 项目(v2.15.5)支持。
  4. 具体来说,图表是通过结合使用 matplotlib(v3.7.1)和 plotly(v5.9.0)这两个 Python 库来生成的。
  5. 对于更进一步的技术细节,请参阅我们的 GitHub 仓库(https://github.com/choutianxius/cfomics.git),其中提供了后端和前端源代码。

Results

Data summary

数据总结

Para_40
  1. cfOmics数据库目前共包含了来自四个不同的组学类别共计11345个样本,这四个组学类别分别是游离DNA(cfDNA)、游离RNA(cfRNA)、蛋白质组和代谢组。
  2. 这些样本覆盖了69种疾病状况,包括28种不同类型的癌症,例如肝癌(LIHC)、结直肠癌(CRC)、肺癌(LUCA)、乳腺癌(BRCA)、胃癌(GC)、急性髓性白血病(LAML)、黑色素瘤(MEL)、胆管癌(CCC)、慢性淋巴细胞性白血病(CLL)、弥漫性大B细胞淋巴瘤(DLBC)、头颈部癌(HNC)等。
  3. 此外,还包括41种非癌症性疾病或疾病状况,如动脉粥样硬化、克罗恩病、乙型肝炎病毒相关肝硬化、脑积水、非ST段抬高心肌梗死、癫痫、稳定型心绞痛、肝硬化等(图3A)。
  4. cfOmics中的样本来源于13种不同的样本类型,包括血浆、血清、全血、血小板、细胞外囊泡(EVs)、尿液、脑脊液、循环上皮细胞、循环肿瘤细胞、外周血单核细胞和红细胞(图3B)。
  5. 对所有数据进行了全面分析,总共涉及17种不同的数据类型或特征。
  6. 具体而言,分析包括了cfDNA的甲基化和羟甲基化谱、核小体占有率、末端序列、片段大小以及微生物丰度。
  7. 对于cfRNA,则考察了表达水平(RNA丰度)、替代启动子、替代多腺苷酸化、嵌合RNA、RNA单核苷酸多态性(SNPs)、RNA编辑、RNA剪接及微生物丰度。
  8. 还计算了对应样本中蛋白质和代谢物的强度(图3C)。
  9. 此外,汇总了文献报道的878个生物标志物,其中包括587个RNA生物标志物、149个DNA生物标志物、104个蛋白质生物标志物和38个代谢物生物标志物。
  10. 这些生物标志物可以在相应的基因位点找到。
  • 图 3. cfOmics 中的数据概览。样本数量:(A) 按疾病条件,(B) 按样本类型,(C) 按数据类型。

Browse cfOmics

浏览 cfOmics

Para_41
  1. 我们已经开发了四个浏览模块,分别对应四种组学。
  2. 在每个模块内,用户可以主动选择项目或选项,促使网站显示包含详细信息的综合数据表格。
  3. 这些表格配备了搜索和下载功能。
  4. 在网站顶部,用户可以在不同的组学之间切换(图4B,顶部)。
  5. ‘特征类型’选项允许用户将搜索范围缩小到特定类型的资料,提供的选项格式为‘数据类型 – 值类型’。
  6. 此外,用户可以通过‘遗传元件’选项选择特定实体进一步细化搜索,例如基因、区段或启动子,具体取决于可用的数据类型。
  7. 这里的术语‘实体’指的是表格的组织方式。
  8. 此外,用户还可以使用‘样本’选项选择感兴趣的特定样本(图4b)。
  9. 通过选择各种选项,数据库将展示相关的数据集,展示与之关联的疾病状况。
  10. 大多数疾病或癌症都以缩写形式表示。
  11. 为了获取完整的名称,用户可以点击‘疾病详情’按钮访问命名法。
  12. 同样地,提供了一个标有‘数据集详情’的按钮来获取关于数据集的更多信息。
  13. 数据表如下所示,数据点用绿色突出显示,基本实体信息用青色指示。
  14. 用户可以选择以.csv或.json格式下载表格,以便进行定制化分析。
  15. 此外,用户还可以使用其HGNC符号搜索一个基因(66)。
  16. 此外,以蓝色加下划线格式显示的基因名称可以被点击,以访问基因主页进行更深入的分析。
  17. 点击列名将触发网站按相应顺序对表格进行排序(图4C)。
  18. 当用户选择微生物或末端基序的数据类型时,数据表下方将显示一个堆叠条形图,该图展示了每种微生物分类或末端基序在所有疾病条件下的比例。
  19. 基于此图,用户还可以将4-聚体末端基序组合成2-聚体或3-聚体基序。
  20. 执行此操作的相关按钮已被提供(图4D)
  • 图 4. cfOmics 浏览模块。(A)通过顶部导航栏或主页面上的按钮进入浏览模块。
  • (B)选择特定的组学、特征类型、遗传元件和样本。然后选择一个数据集来浏览数据表格。
  • (C)表格结果,具备搜索、排序、下载功能以及链接到基因主页的超链接。
  • (D)对于微生物和末端基序等特征,浏览模块提供了对分类学和末端基序比例的可视化展示

Search cfOmics and analyze the data

搜索cfOmics并分析数据

Para_42
  1. cfOmics数据库便于分析所有基因,包括编码和非编码序列,以及4-聚体长度的末端基序和从域到种的微生物分类。
  2. 这些组成部分各自拥有主要站点,在那里用户可以围绕焦点进行多样化的综合分析。
  3. 访问一个基因的主要站点可以通过三种方法实现:首先,通过搜索主要站点(图5B),其次,通过使用搜索页面并点击顶部导航栏中的"搜索"按钮,用户可以输入与基因相关的HGNC符号(例如TP53)或Ensembl ID(例如ENSG00000141510)(图5A和C)。
  4. 后一种方法也适用于探索微生物分类和末端基序。
  5. 此外,浏览模块的数据表包含指向基因、微生物分类和末端基序主要页面的超链接(图5D)。
  • 图 5. cfOmics 搜索模块,搜索基因、微生物分类和末端基序的例子。(A)cfOmics 网站的顶部导航栏。(B)通过 HGNC 符号或 Ensembl 基因 ID 在主页面上搜索基因。(C)在搜索页面上搜索基因、微生物分类和末端基序。(D)在浏览模块上的搜索。
Para_43
  1. 许多有价值的分析和可视化可以在主网站上获取。
  2. 我们以专门针对基因的主网站为例来考虑。
  3. 在页面顶部,展示了关于该基因的基本信息,包括其HGNC符号、Ensembl基因ID、基因组位置和生物类型。
  4. 还提供了指向NCBI和Ensembl数据库中该基因的超链接(图6A)。
  5. 为了查看配置文件,用户可以选择一个组学类别,然后选择一种特征类型。
  6. 随后,用户可以选取相关的数据集(集合),并指定适当的样本。
  7. 对于某些与基因相关的特定特征类型,例如甲基化中的启动子,如果这些特征与不同的遗传元素相关,则会提供额外选项来选择这些特征对应的元素(图6B)。
  8. 一旦所有参数都已设定,用户便可以在网站上查看数据配置文件。
  9. 对于每种基因只有一个记录的特征(如甲基化、表达),数据库将生成一个包含所有疾病条件的箱形图(图6C)。
  10. 相反,对于每种基因有多个记录的特征(如替代启动子、RNA SNP、嵌合RNA),将提供表格、条形图和堆叠箱形图,以便全面概述配置文件(图6C、F)。
  11. 此外,还可以使用层级聚类热图来可视化配置文件(图6D)。
  12. 用户还可以使用Mann-Whitney检验对两种疾病条件进行比较分析,以确定是否存在显著差异(图6E)。
  13. 此外,此页面还展示了与该基因相关的、文献报道的生物标志物,提供的信息包括文献引用、期刊详情、PubMed上的PMID以及生物标志物的分子类型(图6G)。
  14. 对于多组学可视化和分析,用户可以使用整合基因组浏览器(IGV)探索读取计数、甲基化水平、片段大小比、核小体重占比、嵌合RNA、SNP、编辑位点和剪接事件(图6H)。
  15. 此外,还可以在特定样本类型中对两种类型的特征进行相关性分析。
  16. 这可以通过选择两种特征、它们相应的实体和样本完成。
  17. 根据所选选项,将对每种疾病状况执行普通最小二乘法(OLS)线性回归。
  18. 用户可以将鼠标悬停在图表上以查看线性方程和R平方值(图6i)。
  19. 在专门针对微生物的主页面上,用户可以通过提供的超链接访问来自NCBI分类数据库的详细分类信息。
  20. 端基序的主页面上也提供了差异的统计分析。
  • 图 6. cfOmics 分析功能示例。 (A) 主网站提供的基本信息。 (B) 分析模块中的选项。 (C) 数据作为箱线图的分布可视化。 (D) 数据作为聚类热图的分布可视化。 (E) 比较分析功能。 (F) 数据作为表格和条形图的分布可视化。 (G) 记录基因作为生物标志物的相关文献。 (H) 集成基因组浏览器 (IGV) 功能,用于多组学可视化。 (I) 相关性分析功能。

Download data from cfOmics

从cfOmics下载数据

Para_44
  1. 我们开发了一个网站,旨在全面介绍 cfOmics 数据集的相关信息,包括样本和标本数量、文库类型、疾病分类以及相关的出版物和期刊数据。
  2. 此外,我们的数据库通过结构化的问卷提供了所有处理过的数据的访问途径。
  3. 用户提交问卷后,将会收到一封包含下载所需数据网站链接的电子邮件。

An example application of cfOmics

cfOmics的一个应用示例

Para_45
  1. cfOmics数据库构成了一座宝贵的资源库,用于深入探究生物标志物特征、确定它们的潜力,并探索在区分癌症与相关疾病或健康个体方面最有效的数据特征。
  2. 为了开始浏览过程,用户可以访问浏览页面,并在‘特征类型’、‘遗传元件’和‘样本’类别中做出选择,以研究血浆样本中基因的甲基化特征。
  3. 如果用户的关注点特别集中在基因VIM(编码波形蛋白)在血浆样本中的结直肠癌(CRC)表现上,他们可以选择包含CRC血浆样本的相关数据集,例如GSE124600,在该数据集中,基因vim被识别为CRC的生物标志物。
  4. 随后,将呈现一个包含编码和非编码基因的数据表。
  5. 通过仔细检查所提供的数据,用户可以迅速发现基因VIM在CRC样本中的平均甲基化水平(β值)(57.24)高于对照样本中的水平(45.17)。
  6. 点击基因名称会将用户重定向到该基因的主页,其中包含了指向NCBI和Ensembl等数据库的链接,提供了关于VIM的全面信息。
  7. 此外,这一部分还提供了甲基化特征和比较功能。
  8. 通过可视化这些特征,可以看出VIM基因在CRC样本中的总体β值高于对照样本。
  9. 这种差异也是统计学上显著的,如比较功能的结果所示,这证实了先前文献的研究成果。
  • 图7. 使用cfOmics研究VIM基因的应用实例。(A) 显示结直肠癌(CRC)中VIM基因β值的数据表。(B) 显示CRC和对照样本中VIM基因β值的配置文件可视化。(C) CRC与对照组在VIM基因β值方面的比较。(D) CRC与对照组在VIM基因片段大小方面的比较。(E) CRC与对照组在VIM基因核小体占有率方面的比较。(F) 热图显示在七种疾病条件下使用不同启动子表达的VIM基因。(G) CRC与对照组在VIM基因替代启动子方面的比较。(H) 在三种疾病条件下VIM基因表达与替代多腺苷酸化之间的相关性分析。
Para_46
  1. 除了甲基化之外,用户还可以探索其他数据类型在区分结直肠癌(CRC)与对照组方面的潜力。
  2. 例如,通过在分析模块中调整适当的选项,用户可以确定VIM的cfDNA片段大小在CRC和健康样本之间没有显著差异(图7D),核小体占据情况也没有显著差异(图7E)。
  3. 对于cfRNA等数据类型,如替代启动子,用户可以识别出在体液中贡献最高丰度水平的启动子。
  4. 在这种情况下,启动子‘ensg000026025.15|vim|protein_coding|1868|17229278.+’在对照组样本和癌症样本中显示出最大的丰度(图7F),且其在CRC样本中的丰度显著低于肿瘤教育血小板(TEP)中的健康样本(图7G)。
  5. 此外,还可以探索该基因在多种样本中的潜在应用,而不仅仅局限于血浆。
  6. 在多组学分析的背景下,用户可以使用‘相关性分析’模块定量研究多种数据类型之间的关系,并展示回归结果。
  7. 例如,在健康细胞外囊泡样本中,VIM基因的RNA丰度与VIM RNA的总polyA位点使用量呈负相关,而在疾病样本中则呈正相关。
  8. 这种正相关在胰腺导管腺癌(PDAC)样本中比慢性胰腺炎样本更为明显(图7H)

Discussion

Para_47
  1. 随着NGS文库构建技术和生物信息学工具的发展,与组织活检相比,液体活检正成为越来越受欢迎且强大的癌症诊断、监测和复发预测方法。
  2. 专注于不同类型组学数据和多组学方法的研究都是发现生物标志物的前景看好的途径。
  3. cfOmics是首个也是唯一的液体活检数据库,全面覆盖所有四种组学类型以及一些其他数据库没有的数据类型。
  4. 用户可以在cfOmics数据库中浏览,并对13种样本上的17种组学数据类型进行相对分析和可视化。
  5. 该数据库还涉及69种疾病状况供用户探索。
  6. cfOmics提供的工具可以整合多组学数据。
  7. 因此,研究人员可以通过cfOmics获得关于特定疾病分子改变的更全面理解。
Para_48
  1. 与Vesiclepedia和ExoCarta等主要关注记录的生物标志物的数据库不同,cfOmics专注于多组学和全面的高通量数据,以及通过我们标准化的生物信息学管道处理得到的数据特征。
  2. 同时,记录的生物标志物作为一种辅助功能,可以用来增强用户根据我们提供的数据对基因的理解。
Para_49
  1. 由于并非所有数据类型组合都具有相同的样本和疾病条件,因此在进行相关性分析时出现‘没有适用的数据’警告并不奇怪。
  2. 我们正在努力增加数据量,以便在下一版本中解决此问题。
Para_50
  1. 我们将持续更新cfOmics,包括上传更多的液体活检数据,纳入更多疾病条件和样本,并增加更多实用且强大的分析与可视化功能。
  2. 我们相信cfOmics将提供更加全面的液体活检数据概览,并将继续在这个领域保持卓越的表现。

Data availability

Para_51
  1. 所有描述的数据和可视化内容均可在 https://cfomics.ncRNAlab.org/ 免费获取。


ixxmu commented 2 weeks ago

数据库分享 | 一个专门收录液体活检多组学数据的数据库 by BioJournal Link

Basic Information

  • 英文标题: cfOmics: a cell-free multi-Omics database for diseases
  • 中文标题:cfOmics:一个疾病相关的细胞外多组学数据库
  • 发表日期:27 September 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Mingyang Li | Zhi John Lu
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D607/7283892

Abstract

  1. 液体活检作为一种有前景的非侵入性方法,用于检测、监测疾病及预测复发。
  2. 然而,为了识别各种癌症及其他疾病的可靠生物标志物,有效利用液体活检数据还需进一步探索。
  3. 在此,我们介绍 cfOmics,一个网络可访问数据库(https://cfomics.ncRNAlab.org/),整合了全面的多组学液体活检数据,包括基于二代测序的游离DNA(cfDNA)、游离RNA(cfRNA),以及基于质谱的蛋白质组和代谢组数据。
  4. 作为该领域首个多组学数据库,cfOmics 总共涵盖了17种不同的数据类型和13种样本变异,跨越69种疾病状况,收集了11345个样本。
  5. 此外,cfOmics 还包含了已报道的潜在生物标志物供参考。
  6. 为了促进多组学数据的有效分析和可视化,cfOmics 向用户提供强大的功能。
  7. 这些功能包括浏览、配置文件可视化、综合基因组浏览器以及相关性分析,所有这些均围绕基因、微生物或末端基序展开。
  8. cfOmics 的主要目标是通过提供全面的多组学数据来帮助液体活检领域的研究者。
  9. 这使他们能够探索无细胞的数据,并从中提取深刻见解,从而对疾病诊断、治疗监控和管理产生重大影响

Introduction

Para_01
  1. 在过去几十年里,分子分析在癌症和其他疾病的诊断与监测中发挥了关键作用,为临床医生提供了不可或缺的信息,以指导个性化治疗策略。
  2. 传统上,这些分析方法依赖于涉及通过手术程序获取切除肿瘤样本的侵入性技术。
  3. 然而,这种方法耗时,并伴随着增加的风险,且对于连续取样以预测预后构成挑战。
  4. 相比之下,液体活检通过利用患者体液样本中的分子特征提供了一种替代范式,消除了传统活检方法的局限性。
  5. 包括外周血、血浆、尿液、唾液、血清和脑脊液在内的多种体液样本提供了更大的可及性,同时减少了时间和经济成本,从而促进了持续广泛的取样。
  6. 因此,液体活检已成为精准医学和临床肿瘤学中日益有前景的途径,使癌症的非侵入性诊断、监测和复发率预测成为可能。
  7. 因此,这种非侵入性的方法逐渐成为传统侵入性方法的重要补充,在精准肿瘤学中的重要地位日益凸显。
Para_02
  1. 然而,由于体液中存在的分子具有异质性和数量有限,选择用于液体活检的最佳分子生物标志物仍是一个艰巨的挑战。
  2. 大量研究已广泛调查了各种癌症的生物标志物检测,包括对体液中的无细胞DNA(cfDNA)、无细胞RNA(cfRNA)、蛋白质和代谢物生物标志物的检查。
  3. 此外,下一代测序技术和生物信息学工具的进步已经开启了对多种分子数据类型的研究潜力。
  4. 例如,在cfDNA的情况下,已探索的数据类型包括甲基化、羟甲基化、片段组学、末端序列特征、微生物群等。
  5. 同样,许多类型的cfRNA正在被探索,包括表达量、微生物群、嵌合RNA等。
  6. 最近,无细胞多组学数据的整合,涵盖了多种组学和数据类型,已成为液体活检的一个前景广阔的途径,超越了单一组学方法的有效性。
  7. 来自不同组学的数据整合可以更全面地阐明由癌症引起的体液分子变化,并能有效应对癌症异质性的挑战。
  8. 在多组学诊断模型领域,值得注意的例子包括CancerSEEK,它同时结合蛋白质和cfDNA标记物,能够实现多种常见癌症的早期检测;以及HIFI,这是一种涉及甲基化、末端序列特征、片段组学和二进制计数的多组学模型,成功实现了肺癌的早期诊断
Para_03
  1. 在液体活检领域内对生物标志物的研究需要大量的数据支持和资源,这突显了建立相关数据库的迫切需求。
  2. 目前,在这个领域出现了两种主要类型的数据库:数据驱动型数据库和知识型数据库,也称为知识库。
  3. 数据驱动型数据库主要侧重于存储原始或处理过的研究数据。
  4. 这类数据库包括一些著名的例子,如 exoRBase 2.0、CancerMIRNome、LiqDB 和 BBCancer,它们作为循环 RNA 数据的存储库。
  5. CFEA 和 FinaleDB 则专门用于探索循环 DNA 数据。
  6. 另一方面,知识型数据库的特点是收集文献报道的信息,涵盖各种方面,如生物标志物、实验等。
  7. 这些数据库包括 miRandola、Vesiclepedia、ExoBCD、ExoCarta、EV-ADD、血浆蛋白数据库以及尿液外泌体蛋白数据库等。
  8. 然而,尽管这些数据库已经存在,但现有的数据驱动型数据库没有一个全面涵盖了四种组学类型(循环 DNA、循环 RNA、蛋白质组和代谢组)。
  9. 此外,当前的液体活检数据库中还缺乏诸如微生物丰度、嵌合 RNA 和末端基序等关键数据类型。
  10. 因此,这个领域中存在一个明显的研究空白,需要得到解决。
Para_04
  1. 在这项研究中,我们开发了一个主要由数据驱动的新数据库,称为无细胞多组学(cfOmics)数据库。
  2. 我们的目标是汇编来自多种体液的分子数据综合集合,涵盖了所有四种组学类型,包括现有数据库中未曾记录的数据类型。
  3. cfOmics还提供了多项功能,包括多组学数据的整合、浏览、分析和可视化。
  4. 此外,cfOmics以其无与伦比的全面性和包容性而区别于其他数据库,它总共纳入了17种不同的数据类型、11345个样本和69种疾病状况,覆盖了13种样本变化。
  5. 重要的是,cfOmics对所有数据和信息提供不受限制的访问,允许用户自由下载。
  6. 因此,据我们所知,cfOmics是该领域第一个多组学数据库,其特点在于综合性地整合了多组学数据、多样化的处理特征类型、广泛的体液样本范围、用户友好的界面以及基于文献的生物标志物的集成。
  7. 这些独特的属性使液体活检领域的研究人员能够探索无细胞多组学数据,并从中提取深刻见解,从而对疾病的诊断、治疗监测和管理产生重大影响。

Materials and methods

Data collection and curation

数据收集与管理

Para_05
  1. cfOmics数据库涵盖了来自多个公共数据库的11345个样本,这些数据库包括GEO(https://www.ncbi.nlm.nih.gov/geo/)、iProX(https://www.iprox.cn/)、PRIDE(https://www.ebi.ac.uk/pride/)和GNPS(https://gnps.ucsd.edu/ProteoSAFe/static/gnps-splash.jsp),涉及13种样本类型和69种疾病状况(图1)。
  2. 这些样本包含多种组学类型,包括循环游离DNA(cfDNA)、循环游离RNA(cfRNA)、蛋白质组和代谢物。
  • 图 1. cfOmics 框架。cfOmics 中的数据集来源于 4 个公共数据库,包括 GEO、iProX、GNPS 和 PRIDE(左上角)。它涵盖了 69 种疾病状态(包括 28 种癌症和 41 种非癌症疾病状态),13 种样本类型,共计 17 种不同的数据类型以及 11,345 个样本集合(右上角),提供了直观清晰的浏览(中左)和内部数据分析功能(底部)。
Para_06
  1. 为了整合数据特征和基因信息,我们利用Ensembl关于人类基因组hg38的基因和启动子注释信息整合了数据。
  2. 这种整合涵盖了不在单一基因单元内记录的数据类型,例如SNP比率、编辑比率和替代启动子。
  3. 经过这种方法处理后,我们能够从以基因为中心的角度展示和分析上述特征数据构成的数据景观,以及存储在数据库中的这些特征之间的相互关系。
  4. 此外,与基因缺乏关联的数据特征,如微生物丰度和片段末端序列,经过单独处理后也在数据库中进行了展示。
  5. 微生物数据来源于kraken2计算结果,具体的分类学信息可以从NCBI分类数据库获取。
  6. 网址为https://www.ncbi.nlm.nih.gov/taxonomy

Data Processing

数据处理

Para_07
  1. cfOmics 包含多种生物学数据,包括 cfDNA、cfRNA、蛋白质和代谢物。
  2. 每种类型的数据都具有独特的意义,并以一种独特的方式呈现。
  3. 因此,我们实施了不同的处理技术来适应这些差异。
  4. 我们还总结了我们数据处理流程的全面解释(图 2)。
  • 图 2. 多组学数据分析流程图。cfDNA 和 cfRNA 的数据基于下一代测序技术,而蛋白质组和代谢组的数据则基于质谱技术。
Para_08
  1. 对于cfDNA数据集,我们计算了cfDNA甲基化的数据特征(包括非富集型甲基化数据和富集型甲基化数据),核小体占据,末端基序丰度,片段大小以及微生物的信息。
Para_09
  1. 为了分析非富集甲基化数据,我们的第一步是使用Bismark (版本0.15.0)将清洗后的数据与人类基因组hg38对齐,在此之前先清理了原始数据集。
  2. 随后,我们利用bismark_methylation_extractor提取了基因组内每个胞嘧啶位点的甲基化详情,并检查了CpG位点的存在情况。
  3. 此外,对于每个样本,我们根据以下流程仔细记录了人类基因组注释文件中的基因体、启动子和CGI的甲基化水平(β值):对于单个胞嘧啶位点,我们有
Para_10
  1. 这里,M 表示甲基化胞嘧啶的数量,而 U 代表非甲基化胞嘧啶的数量。
  2. 因此,计算特定区域内所有胞嘧啶的平均 beta 值,可以得到表示该区域的 beta 值。
Para_11
  1. 这些beta值记录作为这一特征的量化指标。
Para_12
  1. 为了通过富集方法分析甲基化数据,我们采用DIP-seq数据作为一个代表性例子。
  2. 起初,我们使用Bowtie2(版本2.5.1)将处理过的原始数据与基因组对齐。
  3. 随后,我们计算了基因体、启动子和CpG岛的读段计数。
  4. 最终,我们将这些计数标准化为每百万转录本(TPM)值,作为这一特征的定量指标。
Para_13
  1. 为了确定片段大小,首先使用samtools(版本1.6)和awk(版本4.0.2)从比对结果中提取长片段(151–220nt)和短片段(100–150nt)的比对文件。
  2. 接下来,利用bedtools(版本2.31.0)的coverage功能根据提供的基因体和基因组100 kb分段(指的是长度为100 kb的基因组DNA片段)位置数据计算长片段和短片段的读取计数。
  3. 然后,使用bedtools的map功能计算每个区域的平均覆盖水平。
  4. 通过将每个区域的数据除以所有区域的总数据来标准化该区域内的数据,并随后应用以2为底的对数变换(分别对长片段和短片段数据进行单独处理)。
  5. 最后,利用标准化且经过对数变换的数据,根据下面给出的特定比例计算公式计算每个区域的片段大小比例,作为这一特定特征的定量指标。
Para_14
  1. 为了确定末端基序,即位于cfDNA末端的短核苷酸序列(49),首先需要使用pysam包(v0.21.0)来评估每个4-聚体末端基序在比对输出中的数量和普遍性(13)。
  2. 随后,通过将频率转换为比例值来标准化数据。
  3. 此外,在数据库中,研究人员可以选择将这些基序转换为2-聚体和3-聚体,以便在浏览页面的图表中进行展示。
  4. 这一功能有助于实现定制化的可视化效果。
Para_15
  1. 通过关注数据库中每个基因相关的两个独特区域来计算核小体占据率:基因转录起始位点(TSS)上游150 bp和下游50 bp,标记为‘15t5’;以及第一个外显子上游300 bp和上游100 bp,标记为‘31e1’。
  2. 在计算这些特征的过程中,也使用了与特征区域对应的对照区域。
  3. 具体而言,对于15t5区域,对照区域包括TSS上游2000 bp至1000 bp的范围,以及TSS下游1000 bp至2000 bp的范围。
  4. 至于31e1区域,对照区域覆盖了Exon1上游2000至1000 bp的范围,以及下游1000至2000 bp的范围。
  5. 起初,使用bedtools coverage工具来确定这些区域内的比对输出覆盖度。
  6. 随后,利用下面的公式计算15t5和31e1的核小体占据率,为研究人员提供了这一特征的量化指标。
Para_16
  1. 通过将非人类基因组匹配的读段与kraken2(版本2.1.2)数据库比对,获得了cfDNA和cfRNA数据集中的微生物分类信息。
  2. 随后,消除了标准化基质中微生物可能带来的污染。
  3. 接着,计算了这些读段中残留的微生物分类丰度。
  4. 之后,构建了所有微生物分类及其相应丰度的丰度矩阵。
  5. 为了获得标准化数据(相对丰度),通过将每个样本中每种微生物分类的丰度除以该样本中所有微生物分类丰度之和来对矩阵进行归一化处理。
Para_17
  1. 对于cfRNA数据集,我们计算了多种数据特征,包括替代启动子、基因表达、RNA编辑、RNA单核苷酸多态性、选择性剪接、嵌合RNA、选择性多腺苷酸化以及微生物丰度,其中微生物数据的计算方法已在早前介绍。
Para_18
  1. 获取原始高通量测序数据后,初步预处理涉及使用 cutadapt(v3.4)进行清洗。
  2. 之后,执行了由模板转换引起的 GGG/CCC 的缓解工作。
  3. 随后,使用 STAR 对处理后的数据与尖峰序列进行比对,对于所有后续的比对过程均持续使用 STAR。
  4. 从这一比对过程中产生的未比对读段被进一步用于与 UniVec 数据库中的序列进行比对,以有效减轻潜在的载体 DNA 污染。
  5. 此后,未比对读段池进行了与人类基因组 rRNA 的比对。
  6. 未能与 rRNA 比对上的读段进一步与 hg38 人类基因组组装以及来自 MiTranscriptome 的非编码 RNA 进行比对。
  7. 在这些步骤之后,未比对读段被映射到源自 circBase 的全面的 circRNA 集合。
  8. 所有比对过程的结果被用来计算特定的 RNA 数据特征。
Para_19
  1. 为了确定基因表达(或RNA丰度),我们最初使用了对齐数据,并通过featureCounts(版本2.0.1)构建了一个表达矩阵。
  2. 随后,该表达矩阵利用每百万读数(TPM)方法进行了标准化。
  3. 标准化后的TPM数据作为定量指标,用于评估基因表达水平。
Para_20
  1. 为了确定替代启动子,我们使用了salmon工具(版本0.8.1)来量化转录本异构体的丰度,随后将其归一化为每百万转录本(TPM)。
  2. 通过合并那些转录起始位点在10碱基对范围内的异构体的TPM值(因此共享相同的启动子),我们得出了启动子活性的测量值。
Para_21
  1. 为了确定嵌合RNA,我们使用了STAR-fusion(版本1.10.0)将未对齐的读段重新对齐到嵌合接头,检测嵌合RNA,并量化其表达水平。
Para_22
  1. 在计算RNA编辑过程中,我们使用了GATK版本4.1.9.0的ASEReadCounter来识别来自REDIportal的编辑位点。
  2. 随后,计算了等位基因读取和参考基因读取的读取计数。
  3. 编辑比率定义为等位基因计数除以总计数的商。
Para_23
  1. 在计算RNA单核苷酸多态性(SNPs)的过程中,使用了GATK的SplitNCigarReads工具来分割跨越内含子的读段。这一分割确保了在RNA水平上可靠地识别SNPs。
  2. 随后,利用GATK的HaplotypeCaller检测遗传变异,并通过GATK的VariantFiltration进行过滤。
  3. 这一过滤过程包含了四个具体标准:(i) 通过费希尔精确检验得到的Phred尺度P值(FS)确定的链偏向性,阈值设定为<20;(ii) 变异置信度(QUAL)除以未经过滤的深度(QD),要求大于2;(iii) 变异位点上的最小读段计数(DP)超过10;(iv) SNP的质量(QUAL)超过20。
  4. 为了量化SNP的普遍程度,通过将等位基因计数除以总计数(包括参考计数和等位基因计数)来计算SNP比率。
Para_24
  1. 在进行RNA剪接分析的过程中,我们使用了rMATs软件(版本4.1.2)根据获得的测序读段来计算每个基因的IncLevel值。
  2. IncLevel,也被称为外显子包含水平,表示包含特定外显子的基因转录本的比例,这是该特征的定量指标。
Para_25
  1. I:映射到内含子包含异构体的读段数量;lI:内含子包含异构体的有效长度。
  2. S:映射到内含子跳过异构体的读段数量;lS:内含子跳过异构体的有效长度,其中在rMATs中的有效长度特指编码区域的长度加上任何被包含的UTR长度。
Para_26
  1. 在评估替代多腺苷酸化时,根据cfRNA比对数据计算了ΔPDUI(远端多腺苷酸化位点使用指数)值。
  2. ΔPDUI作为评价特定多腺苷酸化(polyA)位点相对利用率的指标,通过比较给定polyA位点与同一基因中最普遍的polyA位点(或远端polyA位点,指所有样本中最长3′ UTR的终止点)的使用情况来确定。
  3. ΔPDUI值为100%表示所考察的polyA位点(或远端位点)占据主导地位,而0%则表明该位点完全未被利用。
Para_27
  1. 以下是用于计算它的公式:
Para_28
  1. 其中 wLi∗ 和 wSi∗ 是样本 i 中具有远端和近端(或特定 polyA 位点) polyA 位点的转录本的估计表达水平。
Para_29
  1. 为了计算蛋白质的强度,使用了Mascot 2.8版本处理原始质谱(MS)数据,参数设置如下:错误发现率(FDR)为0.05,前体质量容差为20 ppm,碎片容差为0.05 Da,胰蛋白酶末端数(NTT)为2,最大错失切割数为2,以及半胱氨酸上的固定修饰为羰胺甲基。
  2. MS/MS光谱与UniProt人类蛋白质数据库(2022年11月3日版本)进行了比对搜索,该数据库包含20401条蛋白质条目。
  3. PANDA用于基于无标签或有标签定量计算蛋白质强度。

Label-free quantification

无标签定量

Para_30
  1. 标签自由定量方法包括四个步骤:(i) 从提取的离子色谱图(XICs)中获得三种类型的信息,质荷比(m/z)、保留时间(RT)和同位素强度;(ii) 保留时间(RT)对齐、交叉搜索、归一化和肽段鉴定;(iii) 使用XIC峰面积进行肽段定量;(iv) 我们假设来自同一蛋白质的肽段有不同的权重。因此,采用一步Tukey的双权重算法计算所有肽段加权平均强度的方式计算蛋白质丰度。每个肽段的权重定义为其强度与所有肽段强度中值之间的距离。

Labeled quantification

标记量化

Para_31
  1. 串联质谱标签(TMT)标记用于标记定量。
  2. 与无标签定量不同,TMT基定量利用报告离子强度来估算肽段的定量值,这已被证明比基于色谱强度的定量具有更高的精确度。
Para_32
  1. 基于TMT的定量蛋白质组学分析包括四个步骤:(i) 二级谱预处理,(ii) 报告离子提取与校正,(iii) 归一化,(iv) 肽段定量。
  2. 最后,采用一步法Tukey的双权重算法来计算蛋白质丰度,类似于无标签定量方法。
Para_33
  1. 关于代谢组,获取的原始数据使用MSConvert转换为mzML格式,然后使用MS-DIAL版本5.10进行处理,该过程包括数据收集、峰检测、化合物识别和峰对齐。
  2. 数据收集采用以下参数设置:MS1容差 = 0.01 Da,MS2容差 = 0.025 Da,保留时间 = 0-100分钟,MS1质量范围 = 0-2000 Da。
Para_34
  1. 在MS-DIAL中,每0.1 m/z的质量切片提取基峰色谱图,步长为0.05 m/z。
  2. MS-DIAL使用平滑方法(默认为线性加权平滑平均),微分计算和噪声估计来从基峰色谱图检测峰顶和两侧边缘。
  3. 然后通过峰高或峰面积测量峰强度。
  4. 检测到的峰顶在保留时间(分钟)和MS1数据(m/z)轴的点图中显示为"点"。
  5. 每个峰点的保留时间和基峰m/z用于代谢物鉴定,而峰强度则用于表示数据库中代谢物的强度。
Para_35
  1. 代谢物鉴定是通过搜索 MS-DIAL 代谢组学 MSP 谱库(所有公开的 MS/MS 库)来匹配获得的质量谱与化合物的参考谱。
  2. 根据保留时间、精确质量、同位素比和 MS/MS 谱信息,计算了四个得分,即保留时间相似度、MS1 相似度、同位素比相似度和 MS/MS 相似度。
  3. 每个得分都被标准化到 0 到 1 的范围内,分别表示没有相似性和完美匹配。
  4. 化合物鉴定使用这四个得分的加权平均值来进行
Para_36
  1. MS-DIAL中的峰对齐算法源自MZmine中实现的联合对齐器(64)。它主要包括四个步骤:(i) 创建参考表,(ii) 将每个样本的峰表与参考峰表进行匹配,(iii) 过滤对齐后的峰,以及(iv) 插补缺失值。

Correlation analysis

相关性分析

Para_37
  1. 基因主页提供了进行多组学相关性分析的独特功能。
  2. 用户有机会选择两种不同类型的资料,有时还会附带相应的实体,以及指定的样本环境。
  3. 在此选择过程之后,数据库服务器会根据所指定的数据类型和样本环境进行全面搜索,查找可用的疾病条件。
Para_38
  1. 对于数据库中识别出的每种疾病状态,都会提取出两个向量。
  2. 这些向量分别封装了与第一种和第二种数据类型相关的信息,这两种数据类型都与选定的样本、实体和基因密切相关。
  3. 这些向量中的每个元素代表给定样本的特征值。
  4. 重要的是,在向量长度不匹配的情况下,较长的向量会被谨慎地截断,以使其长度与较短的向量对齐。
  5. 因此,这一过程最终形成了双组学样本对,这些样本对随后作为散点图表示和相关系数计算的基础。

Website settings

网站设置

Para_39
  1. 所有处理过的数据都存储在 MySQL 8.0 数据库(Inno DB 引擎)中。
  2. cfOmics 网站是一个基于 React.js(v18.0)的单页应用(SPA),使用了 Bootstrap 5 框架的样式。
  3. 所有表格、图表和分析工具由我们的 Django(v4.1.7)后端生成,而基因组浏览器功能则由 igv.js 项目(v2.15.5)支持。
  4. 具体来说,图表是通过结合使用 matplotlib(v3.7.1)和 plotly(v5.9.0)这两个 Python 库来生成的。
  5. 对于更进一步的技术细节,请参阅我们的 GitHub 仓库(https://github.com/choutianxius/cfomics.git),其中提供了后端和前端源代码。

Results

Data summary

数据总结

Para_40
  1. cfOmics数据库目前共包含了来自四个不同的组学类别共计11345个样本,这四个组学类别分别是游离DNA(cfDNA)、游离RNA(cfRNA)、蛋白质组和代谢组。
  2. 这些样本覆盖了69种疾病状况,包括28种不同类型的癌症,例如肝癌(LIHC)、结直肠癌(CRC)、肺癌(LUCA)、乳腺癌(BRCA)、胃癌(GC)、急性髓性白血病(LAML)、黑色素瘤(MEL)、胆管癌(CCC)、慢性淋巴细胞性白血病(CLL)、弥漫性大B细胞淋巴瘤(DLBC)、头颈部癌(HNC)等。
  3. 此外,还包括41种非癌症性疾病或疾病状况,如动脉粥样硬化、克罗恩病、乙型肝炎病毒相关肝硬化、脑积水、非ST段抬高心肌梗死、癫痫、稳定型心绞痛、肝硬化等(图3A)。
  4. cfOmics中的样本来源于13种不同的样本类型,包括血浆、血清、全血、血小板、细胞外囊泡(EVs)、尿液、脑脊液、循环上皮细胞、循环肿瘤细胞、外周血单核细胞和红细胞(图3B)。
  5. 对所有数据进行了全面分析,总共涉及17种不同的数据类型或特征。
  6. 具体而言,分析包括了cfDNA的甲基化和羟甲基化谱、核小体占有率、末端序列、片段大小以及微生物丰度。
  7. 对于cfRNA,则考察了表达水平(RNA丰度)、替代启动子、替代多腺苷酸化、嵌合RNA、RNA单核苷酸多态性(SNPs)、RNA编辑、RNA剪接及微生物丰度。
  8. 还计算了对应样本中蛋白质和代谢物的强度(图3C)。
  9. 此外,汇总了文献报道的878个生物标志物,其中包括587个RNA生物标志物、149个DNA生物标志物、104个蛋白质生物标志物和38个代谢物生物标志物。
  10. 这些生物标志物可以在相应的基因位点找到。
  • 图 3. cfOmics 中的数据概览。样本数量:(A) 按疾病条件,(B) 按样本类型,(C) 按数据类型。

Browse cfOmics

浏览 cfOmics

Para_41
  1. 我们已经开发了四个浏览模块,分别对应四种组学。
  2. 在每个模块内,用户可以主动选择项目或选项,促使网站显示包含详细信息的综合数据表格。
  3. 这些表格配备了搜索和下载功能。
  4. 在网站顶部,用户可以在不同的组学之间切换(图4B,顶部)。
  5. ‘特征类型’选项允许用户将搜索范围缩小到特定类型的资料,提供的选项格式为‘数据类型 – 值类型’。
  6. 此外,用户可以通过‘遗传元件’选项选择特定实体进一步细化搜索,例如基因、区段或启动子,具体取决于可用的数据类型。
  7. 这里的术语‘实体’指的是表格的组织方式。
  8. 此外,用户还可以使用‘样本’选项选择感兴趣的特定样本(图4b)。
  9. 通过选择各种选项,数据库将展示相关的数据集,展示与之关联的疾病状况。
  10. 大多数疾病或癌症都以缩写形式表示。
  11. 为了获取完整的名称,用户可以点击‘疾病详情’按钮访问命名法。
  12. 同样地,提供了一个标有‘数据集详情’的按钮来获取关于数据集的更多信息。
  13. 数据表如下所示,数据点用绿色突出显示,基本实体信息用青色指示。
  14. 用户可以选择以.csv或.json格式下载表格,以便进行定制化分析。
  15. 此外,用户还可以使用其HGNC符号搜索一个基因(66)。
  16. 此外,以蓝色加下划线格式显示的基因名称可以被点击,以访问基因主页进行更深入的分析。
  17. 点击列名将触发网站按相应顺序对表格进行排序(图4C)。
  18. 当用户选择微生物或末端基序的数据类型时,数据表下方将显示一个堆叠条形图,该图展示了每种微生物分类或末端基序在所有疾病条件下的比例。
  19. 基于此图,用户还可以将4-聚体末端基序组合成2-聚体或3-聚体基序。
  20. 执行此操作的相关按钮已被提供(图4D)
  • 图 4. cfOmics 浏览模块。(A)通过顶部导航栏或主页面上的按钮进入浏览模块。
  • (B)选择特定的组学、特征类型、遗传元件和样本。然后选择一个数据集来浏览数据表格。
  • (C)表格结果,具备搜索、排序、下载功能以及链接到基因主页的超链接。
  • (D)对于微生物和末端基序等特征,浏览模块提供了对分类学和末端基序比例的可视化展示

Search cfOmics and analyze the data

搜索cfOmics并分析数据

Para_42
  1. cfOmics数据库便于分析所有基因,包括编码和非编码序列,以及4-聚体长度的末端基序和从域到种的微生物分类。
  2. 这些组成部分各自拥有主要站点,在那里用户可以围绕焦点进行多样化的综合分析。
  3. 访问一个基因的主要站点可以通过三种方法实现:首先,通过搜索主要站点(图5B),其次,通过使用搜索页面并点击顶部导航栏中的"搜索"按钮,用户可以输入与基因相关的HGNC符号(例如TP53)或Ensembl ID(例如ENSG00000141510)(图5A和C)。
  4. 后一种方法也适用于探索微生物分类和末端基序。
  5. 此外,浏览模块的数据表包含指向基因、微生物分类和末端基序主要页面的超链接(图5D)。
  • 图 5. cfOmics 搜索模块,搜索基因、微生物分类和末端基序的例子。(A)cfOmics 网站的顶部导航栏。(B)通过 HGNC 符号或 Ensembl 基因 ID 在主页面上搜索基因。(C)在搜索页面上搜索基因、微生物分类和末端基序。(D)在浏览模块上的搜索。
Para_43
  1. 许多有价值的分析和可视化可以在主网站上获取。
  2. 我们以专门针对基因的主网站为例来考虑。
  3. 在页面顶部,展示了关于该基因的基本信息,包括其HGNC符号、Ensembl基因ID、基因组位置和生物类型。
  4. 还提供了指向NCBI和Ensembl数据库中该基因的超链接(图6A)。
  5. 为了查看配置文件,用户可以选择一个组学类别,然后选择一种特征类型。
  6. 随后,用户可以选取相关的数据集(集合),并指定适当的样本。
  7. 对于某些与基因相关的特定特征类型,例如甲基化中的启动子,如果这些特征与不同的遗传元素相关,则会提供额外选项来选择这些特征对应的元素(图6B)。
  8. 一旦所有参数都已设定,用户便可以在网站上查看数据配置文件。
  9. 对于每种基因只有一个记录的特征(如甲基化、表达),数据库将生成一个包含所有疾病条件的箱形图(图6C)。
  10. 相反,对于每种基因有多个记录的特征(如替代启动子、RNA SNP、嵌合RNA),将提供表格、条形图和堆叠箱形图,以便全面概述配置文件(图6C、F)。
  11. 此外,还可以使用层级聚类热图来可视化配置文件(图6D)。
  12. 用户还可以使用Mann-Whitney检验对两种疾病条件进行比较分析,以确定是否存在显著差异(图6E)。
  13. 此外,此页面还展示了与该基因相关的、文献报道的生物标志物,提供的信息包括文献引用、期刊详情、PubMed上的PMID以及生物标志物的分子类型(图6G)。
  14. 对于多组学可视化和分析,用户可以使用整合基因组浏览器(IGV)探索读取计数、甲基化水平、片段大小比、核小体重占比、嵌合RNA、SNP、编辑位点和剪接事件(图6H)。
  15. 此外,还可以在特定样本类型中对两种类型的特征进行相关性分析。
  16. 这可以通过选择两种特征、它们相应的实体和样本完成。
  17. 根据所选选项,将对每种疾病状况执行普通最小二乘法(OLS)线性回归。
  18. 用户可以将鼠标悬停在图表上以查看线性方程和R平方值(图6i)。
  19. 在专门针对微生物的主页面上,用户可以通过提供的超链接访问来自NCBI分类数据库的详细分类信息。
  20. 端基序的主页面上也提供了差异的统计分析。
  • 图 6. cfOmics 分析功能示例。 (A) 主网站提供的基本信息。 (B) 分析模块中的选项。 (C) 数据作为箱线图的分布可视化。 (D) 数据作为聚类热图的分布可视化。 (E) 比较分析功能。 (F) 数据作为表格和条形图的分布可视化。 (G) 记录基因作为生物标志物的相关文献。 (H) 集成基因组浏览器 (IGV) 功能,用于多组学可视化。 (I) 相关性分析功能。

Download data from cfOmics

从cfOmics下载数据

Para_44
  1. 我们开发了一个网站,旨在全面介绍 cfOmics 数据集的相关信息,包括样本和标本数量、文库类型、疾病分类以及相关的出版物和期刊数据。
  2. 此外,我们的数据库通过结构化的问卷提供了所有处理过的数据的访问途径。
  3. 用户提交问卷后,将会收到一封包含下载所需数据网站链接的电子邮件。

An example application of cfOmics

cfOmics的一个应用示例

Para_45
  1. cfOmics数据库构成了一座宝贵的资源库,用于深入探究生物标志物特征、确定它们的潜力,并探索在区分癌症与相关疾病或健康个体方面最有效的数据特征。
  2. 为了开始浏览过程,用户可以访问浏览页面,并在‘特征类型’、‘遗传元件’和‘样本’类别中做出选择,以研究血浆样本中基因的甲基化特征。
  3. 如果用户的关注点特别集中在基因VIM(编码波形蛋白)在血浆样本中的结直肠癌(CRC)表现上,他们可以选择包含CRC血浆样本的相关数据集,例如GSE124600,在该数据集中,基因vim被识别为CRC的生物标志物。
  4. 随后,将呈现一个包含编码和非编码基因的数据表。
  5. 通过仔细检查所提供的数据,用户可以迅速发现基因VIM在CRC样本中的平均甲基化水平(β值)(57.24)高于对照样本中的水平(45.17)。
  6. 点击基因名称会将用户重定向到该基因的主页,其中包含了指向NCBI和Ensembl等数据库的链接,提供了关于VIM的全面信息。
  7. 此外,这一部分还提供了甲基化特征和比较功能。
  8. 通过可视化这些特征,可以看出VIM基因在CRC样本中的总体β值高于对照样本。
  9. 这种差异也是统计学上显著的,如比较功能的结果所示,这证实了先前文献的研究成果。
  • 图7. 使用cfOmics研究VIM基因的应用实例。(A) 显示结直肠癌(CRC)中VIM基因β值的数据表。(B) 显示CRC和对照样本中VIM基因β值的配置文件可视化。(C) CRC与对照组在VIM基因β值方面的比较。(D) CRC与对照组在VIM基因片段大小方面的比较。(E) CRC与对照组在VIM基因核小体占有率方面的比较。(F) 热图显示在七种疾病条件下使用不同启动子表达的VIM基因。(G) CRC与对照组在VIM基因替代启动子方面的比较。(H) 在三种疾病条件下VIM基因表达与替代多腺苷酸化之间的相关性分析。
Para_46
  1. 除了甲基化之外,用户还可以探索其他数据类型在区分结直肠癌(CRC)与对照组方面的潜力。
  2. 例如,通过在分析模块中调整适当的选项,用户可以确定VIM的cfDNA片段大小在CRC和健康样本之间没有显著差异(图7D),核小体占据情况也没有显著差异(图7E)。
  3. 对于cfRNA等数据类型,如替代启动子,用户可以识别出在体液中贡献最高丰度水平的启动子。
  4. 在这种情况下,启动子‘ensg000026025.15|vim|protein_coding|1868|17229278.+’在对照组样本和癌症样本中显示出最大的丰度(图7F),且其在CRC样本中的丰度显著低于肿瘤教育血小板(TEP)中的健康样本(图7G)。
  5. 此外,还可以探索该基因在多种样本中的潜在应用,而不仅仅局限于血浆。
  6. 在多组学分析的背景下,用户可以使用‘相关性分析’模块定量研究多种数据类型之间的关系,并展示回归结果。
  7. 例如,在健康细胞外囊泡样本中,VIM基因的RNA丰度与VIM RNA的总polyA位点使用量呈负相关,而在疾病样本中则呈正相关。
  8. 这种正相关在胰腺导管腺癌(PDAC)样本中比慢性胰腺炎样本更为明显(图7H)

Discussion

Para_47
  1. 随着NGS文库构建技术和生物信息学工具的发展,与组织活检相比,液体活检正成为越来越受欢迎且强大的癌症诊断、监测和复发预测方法。
  2. 专注于不同类型组学数据和多组学方法的研究都是发现生物标志物的前景看好的途径。
  3. cfOmics是首个也是唯一的液体活检数据库,全面覆盖所有四种组学类型以及一些其他数据库没有的数据类型。
  4. 用户可以在cfOmics数据库中浏览,并对13种样本上的17种组学数据类型进行相对分析和可视化。
  5. 该数据库还涉及69种疾病状况供用户探索。
  6. cfOmics提供的工具可以整合多组学数据。
  7. 因此,研究人员可以通过cfOmics获得关于特定疾病分子改变的更全面理解。
Para_48
  1. 与Vesiclepedia和ExoCarta等主要关注记录的生物标志物的数据库不同,cfOmics专注于多组学和全面的高通量数据,以及通过我们标准化的生物信息学管道处理得到的数据特征。
  2. 同时,记录的生物标志物作为一种辅助功能,可以用来增强用户根据我们提供的数据对基因的理解。
Para_49
  1. 由于并非所有数据类型组合都具有相同的样本和疾病条件,因此在进行相关性分析时出现‘没有适用的数据’警告并不奇怪。
  2. 我们正在努力增加数据量,以便在下一版本中解决此问题。
Para_50
  1. 我们将持续更新cfOmics,包括上传更多的液体活检数据,纳入更多疾病条件和样本,并增加更多实用且强大的分析与可视化功能。
  2. 我们相信cfOmics将提供更加全面的液体活检数据概览,并将继续在这个领域保持卓越的表现。

Data availability

Para_51
  1. 所有描述的数据和可视化内容均可在 https://cfomics.ncRNAlab.org/ 免费获取。