miRNA分析流程学习(一)/TCGAmiRNA数据下载

miRNA分析流程学习(一)/TCGAmiRNA数据下载 by 生信方舟

miRNA（microRNA）是一种小的非编码 RNA 分子，通常由 20 到 24 个核苷酸组成。miRNA 主要存在于动植物中，并在基因表达调控中起到关键作用。它们通过与特定的信使 RNA（mRNA）分子结合来抑制基因表达，通常通过抑制翻译或促进 mRNA 的降解。

miRNA 的特征和功能

基因表达调控：miRNA 不直接编码蛋白质，而是通过调节蛋白质编码基因的表达来发挥作用。典型的调控方式是通过与靶 mRNA 配对，然后抑制其翻译或促使其降解。
产生与加工：miRNA 通常由较长的初始转录本（称为 pri-miRNA）加工而来。pri-miRNA 在细胞核中由 Drosha 酶加工成较短的 pre-miRNA，然后被运送到细胞质中。在细胞质中，Dicer 酶进一步加工 pre-miRNA，将其切割成成熟的双链 miRNA。其中一条链（称为“引导链”）会与 RNA 诱导沉默复合体（RISC）结合，另一条链（称为“乘客链”）通常会被降解。
靶标结合与功能：miRNA 通过其引导链的种子序列（位于 miRNA 的 5' 端，通常为第 2 到第 8 位核苷酸）与靶 mRNA 的 3' 非翻译区（3' UTR）结合。这种结合可以导致 mRNA 的翻译抑制或直接降解，从而减少特定蛋白质的产生。

miRNA 的生物学意义

发育调控：miRNA 在胚胎发育、细胞分化和器官形成中扮演重要角色。
细胞周期与凋亡：miRNA 参与调控细胞的增殖、分化和凋亡，维持细胞稳态。
癌症：miRNA 在肿瘤发生和发展中起到关键作用。某些 miRNA 可以作为癌基因（促进癌症的 miRNA）或抑癌基因（抑制癌症的 miRNA）。
免疫反应：miRNA 调节免疫系统的功能，影响炎症反应和免疫调节。

miRNA 的应用

生物标志物：由于 miRNA 在不同疾病状态下的表达差异，它们可以作为疾病诊断和预后的生物标志物。例如，在一些癌症中，特定 miRNA 的表达上调或下调与疾病进展相关。
治疗靶标：miRNA 的调节功能使它们成为潜在的药物靶标。通过抑制有害的 miRNA 或补充缺失的 miRNA，可以开发新的治疗方法。一些 miRNA 模拟物和反义 oligonucleotide（anti-miRNA）已经在临床试验中。
基因功能研究：miRNA 是研究基因功能和信号通路的重要工具，帮助揭示复杂的基因调控网络。

笔者能力有限，详细的miRNA知识就不再赘述了，感兴趣的小伙伴可以去读一读参考资料中的综述~

miRNA数据库

关于miRNA的数据库有很多，以下是几个比较重要的：

1、miRBase：这个数据库是所有想做miRNA分析的研究者一定绕不开的工具

2、MicroRNAdb

3、miRTarBase

4、除此之外还有很多，比如：psRNATARGET，MicroRNAdb，miRWalk，TarBase，miRGator，CoGemiR，PolymiRTS，PicTar等。

TCGA-miRNA数据下载

正式分析之前还需要获取miRNA的数据，其中最常用的数据库一定是TCGA了, 因此我们先从这个数据库开始。

对于来自TCGA数据库的数据，有一个好用的下载工具就是TCGAbiolinks，它可以帮助我们方便的获取到TCGA中的数据。

1.导入

rm(list = ls())
library(TCGAbiolinks)
library(qs)
library(BiocParallel)
register(MulticoreParam(workers = 8, progressbar = TRUE)) 

# 查看TCGA中33种癌症的简称
library(TCGAbiolinks)

projects <- TCGAbiolinks::getGDCprojects()$project_id ##获取癌症名字
projects <- projects[grepl('^TCGA', projects, perl=TRUE)]
projects
#  [1] "TCGA-PCPG" "TCGA-THYM" "TCGA-PAAD" "TCGA-STAD" "TCGA-TGCT" "TCGA-SARC" "TCGA-PRAD" "TCGA-READ" "TCGA-UCS"  "TCGA-UVM" 
# [11] "TCGA-KICH" "TCGA-HNSC" "TCGA-LUAD" "TCGA-LIHC" "TCGA-LUSC" "TCGA-MESO" "TCGA-LAML" "TCGA-LGG"  "TCGA-KIRP" "TCGA-KIRC"
# [21] "TCGA-ACC"  "TCGA-BLCA" "TCGA-DLBC" "TCGA-CHOL" "TCGA-CESC" "TCGA-COAD" "TCGA-BRCA" "TCGA-ESCA" "TCGA-GBM"  "TCGA-OV"  
# [31] "TCGA-THCA" "TCGA-SKCM" "TCGA-UCEC"

TCGAbiolinks:::getProjectSummary("TCGA-HNSC")
# $file_count
# [1] 29489
# 
# $data_categories
#    file_count case_count                data_category
# 1        8330        528  Simple Nucleotide Variation
# 2        4595        528             Sequencing Reads
# 3        2858        528                  Biospecimen
# 4        1103        528                     Clinical
# 5        5925        526        Copy Number Variation
# 6        2270        528      Transcriptome Profiling
# 7        1740        528              DNA Methylation
# 8         354        354           Proteome Profiling
# 9          50         24 Somatic Structural Variation
# 10       2264        521         Structural Variation
# 
# $case_count
# [1] 528
# 
# $file_size
# [1] 3.019863e+14

2.TCGA-miRNA数据下载

proj <- "TCGA-HNSC"
# 单独下载
query <- GDCquery(project = proj,
                  data.category = "Transcriptome Profiling",
                  data.type = "miRNA Expression Quantification",
                  workflow.type = "BCGSC miRNA Profiling" 
)
GDCdownload(query)
GDCprepare(query,save = T,save.filename = paste0(project,"_miRNA.Rdata"))

# 批量下载数据
sapply(projects, function(project){
  
  query <- GDCquery(project = project,
                    data.category = "Transcriptome Profiling",
                    data.type = "miRNA Expression Quantification"
                    )
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_miRNA.Rdata"))
  
})

3.数据处理及保存

load(paste0(proj,"_miRNA.Rdata"))
head(data)[1:4,1:4]
#       miRNA_ID read_count_TCGA-BA-6871-01A-11R-1872-13 reads_per_million_miRNA_mapped_TCGA-BA-6871-01A-11R-1872-13
# 1 hsa-let-7a-1                                   39430                                                    8590.708
# 2 hsa-let-7a-2                                   39178                                                    8535.804
# 3 hsa-let-7a-3                                   39394                                                    8582.864
# 4   hsa-let-7b                                   65142                                                   14192.642
#   cross-mapped_TCGA-BA-6871-01A-11R-1872-13
# 1                                         N
# 2                                         Y
# 3                                         N
# 4                                         N

# 把列名中含有count的数据提取出来
rownames(data) <- data$miRNA_ID
col <- grepl("count", colnames(data))
miRNA_count <- data[,col]
colnames(miRNA_count) <- sub("read_count_","",colnames(miRNA_count))  # gsub是去除所有匹配的字符
head(miRNA_count)[1:4,1:4]
#              TCGA-BA-6871-01A-11R-1872-13 TCGA-CN-6024-01A-11R-1685-13 TCGA-IQ-7631-01A-11R-2080-13
# hsa-let-7a-1                        39430                        37356                        78370
# hsa-let-7a-2                        39178                        37111                        78621
# hsa-let-7a-3                        39394                        37080                        79843
# hsa-let-7b                          65142                        65155                       193506
#              TCGA-CV-7406-01A-11R-2080-13
# hsa-let-7a-1                        43002
# hsa-let-7a-2                        42954
# hsa-let-7a-3                        43141
# hsa-let-7b                          78858
save(miRNA_count,file = paste0(proj,"_miRNA_count.Rdata"))

参考资料：

MicroRNA profiling: approaches and considerations. Nat Rev Genet. 2012 Apr 18;13(5):358-69.
microRNA functions. Annu Rev Cell Dev Biol. 2007:23:175-205.
miRBase数据库：https://www.mirbase.org/
TCGAbiolinks:https://bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/index.html https://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
GDCquery: https://rdrr.io/bioc/TCGAbiolinks/man/GDCquery.html
生信技能树时间线：https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=24&album_id=2201138830328528899&count=3&uin=&key=&devicetype=iMac+Mac14%2C7+OSX+OSX+14.6.1+build(23G93)&version=13080810&lang=zh_CN&nettype=WIFI&ascene=0&fontScale=100
生信技能树B站视频：https://www.bilibili.com/video/BV1zK411n7qr/?vd_source=3a13860df939bc922ad1fd6099e42c1d
生信技能树：https://mp.weixin.qq.com/s/847Zc6QbU44LSL3l_STSpg https://mp.weixin.qq.com/s/USc_aUA_loFLLljXzbmpFg
生信星球：https://www.jianshu.com/p/59e179212bdc
佳奥：https://www.jianshu.com/p/b7cbf0cb78ae
医学和生信笔记：https://zhuanlan.zhihu.com/p/556196846
叶子的数据科技专栏：https://cloud.tencent.com/developer/article/2245363

致谢：感谢曾老师以及生信技能树团队全体成员。

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

ixxmu / mp_duty