ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
119 stars 30 forks source link

miRNA分析流程学习(一)/TCGAmiRNA数据下载 #5818

Closed ixxmu closed 4 hours ago

ixxmu commented 4 hours ago

https://mp.weixin.qq.com/s/l2eOdrqgM64ZVPX77XWmdw

ixxmu commented 4 hours ago

miRNA分析流程学习(一)/TCGAmiRNA数据下载 by 生信方舟

miRNA(microRNA) 是一种小的非编码 RNA 分子,通常由 20 到 24 个核苷酸组成。miRNA 主要存在于动植物中,并在基因表达调控中起到关键作用。它们通过与特定的信使 RNA(mRNA)分子结合来抑制基因表达,通常通过抑制翻译或促进 mRNA 的降解。

miRNA 的特征和功能

  1. 基因表达调控:miRNA 不直接编码蛋白质,而是通过调节蛋白质编码基因的表达来发挥作用。典型的调控方式是通过与靶 mRNA 配对,然后抑制其翻译或促使其降解。
  2. 产生与加工:miRNA 通常由较长的初始转录本(称为 pri-miRNA)加工而来。pri-miRNA 在细胞核中由 Drosha 酶加工成较短的 pre-miRNA,然后被运送到细胞质中。在细胞质中,Dicer 酶进一步加工 pre-miRNA,将其切割成成熟的双链 miRNA。其中一条链(称为“引导链”)会与 RNA 诱导沉默复合体(RISC) 结合,另一条链(称为“乘客链”)通常会被降解。
  3. 靶标结合与功能:miRNA 通过其引导链的 种子序列(位于 miRNA 的 5' 端,通常为第 2 到第 8 位核苷酸)与靶 mRNA 的 3' 非翻译区(3' UTR) 结合。这种结合可以导致 mRNA 的翻译抑制或直接降解,从而减少特定蛋白质的产生。

miRNA 的生物学意义

  1. 发育调控:miRNA 在胚胎发育、细胞分化和器官形成中扮演重要角色。
  2. 细胞周期与凋亡:miRNA 参与调控细胞的增殖、分化和凋亡,维持细胞稳态。
  3. 癌症:miRNA 在肿瘤发生和发展中起到关键作用。某些 miRNA 可以作为癌基因(促进癌症的 miRNA)或抑癌基因(抑制癌症的 miRNA)。
  4. 免疫反应:miRNA 调节免疫系统的功能,影响炎症反应和免疫调节。

miRNA 的应用

  1. 生物标志物:由于 miRNA 在不同疾病状态下的表达差异,它们可以作为疾病诊断和预后的生物标志物。例如,在一些癌症中,特定 miRNA 的表达上调或下调与疾病进展相关。
  2. 治疗靶标:miRNA 的调节功能使它们成为潜在的药物靶标。通过抑制有害的 miRNA 或补充缺失的 miRNA,可以开发新的治疗方法。一些 miRNA 模拟物和反义 oligonucleotide(anti-miRNA) 已经在临床试验中。
  3. 基因功能研究:miRNA 是研究基因功能和信号通路的重要工具,帮助揭示复杂的基因调控网络。

笔者能力有限,详细的miRNA知识就不再赘述了,感兴趣的小伙伴可以去读一读参考资料中的综述~

miRNA数据库

关于miRNA的数据库有很多,以下是几个比较重要的:

1、miRBase:这个数据库是所有想做miRNA分析的研究者一定绕不开的工具

2、MicroRNAdb

3、miRTarBase

4、除此之外还有很多,比如:psRNATARGET,MicroRNAdb,miRWalk,TarBase,miRGator,CoGemiR,PolymiRTS,PicTar等。

TCGA-miRNA数据下载

正式分析之前还需要获取miRNA的数据,其中最常用的数据库一定是TCGA了, 因此我们先从这个数据库开始。

对于来自TCGA数据库的数据,有一个好用的下载工具就是TCGAbiolinks,它可以帮助我们方便的获取到TCGA中的数据。

1.导入
rm(list = ls())
library(TCGAbiolinks)
library(qs)
library(BiocParallel)
register(MulticoreParam(workers = 8, progressbar = TRUE)) 

# 查看TCGA中33种癌症的简称
library(TCGAbiolinks)

projects <- TCGAbiolinks::getGDCprojects()$project_id ##获取癌症名字
projects <- projects[grepl('^TCGA', projects, perl=TRUE)]
projects
#  [1] "TCGA-PCPG" "TCGA-THYM" "TCGA-PAAD" "TCGA-STAD" "TCGA-TGCT" "TCGA-SARC" "TCGA-PRAD" "TCGA-READ" "TCGA-UCS"  "TCGA-UVM" 
# [11] "TCGA-KICH" "TCGA-HNSC" "TCGA-LUAD" "TCGA-LIHC" "TCGA-LUSC" "TCGA-MESO" "TCGA-LAML" "TCGA-LGG"  "TCGA-KIRP" "TCGA-KIRC"
# [21] "TCGA-ACC"  "TCGA-BLCA" "TCGA-DLBC" "TCGA-CHOL" "TCGA-CESC" "TCGA-COAD" "TCGA-BRCA" "TCGA-ESCA" "TCGA-GBM"  "TCGA-OV"  
# [31] "TCGA-THCA" "TCGA-SKCM" "TCGA-UCEC"

TCGAbiolinks:::getProjectSummary("TCGA-HNSC")
# $file_count
# [1] 29489

# $data_categories
#    file_count case_count                data_category
# 1        8330        528  Simple Nucleotide Variation
# 2        4595        528             Sequencing Reads
# 3        2858        528                  Biospecimen
# 4        1103        528                     Clinical
# 5        5925        526        Copy Number Variation
# 6        2270        528      Transcriptome Profiling
# 7        1740        528              DNA Methylation
# 8         354        354           Proteome Profiling
# 9          50         24 Somatic Structural Variation
# 10       2264        521         Structural Variation

# $case_count
# [1] 528

# $file_size
# [1] 3.019863e+14
2.TCGA-miRNA数据下载
proj <- "TCGA-HNSC"
# 单独下载
query <- GDCquery(project = proj,
                  data.category = "Transcriptome Profiling",
                  data.type = "miRNA Expression Quantification",
                  workflow.type = "BCGSC miRNA Profiling" 
)
GDCdownload(query)
GDCprepare(query,save = T,save.filename = paste0(project,"_miRNA.Rdata"))

# 批量下载数据
sapply(projects, function(project){
  
  query <- GDCquery(project = project,
                    data.category = "Transcriptome Profiling",
                    data.type = "miRNA Expression Quantification"
                    )
  
  GDCdownload(query)
  
  GDCprepare(query, save = T,save.filename = paste0(project,"_miRNA.Rdata"))
  
})
3.数据处理及保存
load(paste0(proj,"_miRNA.Rdata"))
head(data)[1:4,1:4]
#       miRNA_ID read_count_TCGA-BA-6871-01A-11R-1872-13 reads_per_million_miRNA_mapped_TCGA-BA-6871-01A-11R-1872-13
# 1 hsa-let-7a-1                                   39430                                                    8590.708
# 2 hsa-let-7a-2                                   39178                                                    8535.804
# 3 hsa-let-7a-3                                   39394                                                    8582.864
# 4   hsa-let-7b                                   65142                                                   14192.642
#   cross-mapped_TCGA-BA-6871-01A-11R-1872-13
# 1                                         N
# 2                                         Y
# 3                                         N
# 4                                         N

# 把列名中含有count的数据提取出来
rownames(data) <- data$miRNA_ID
col <- grepl("count", colnames(data))
miRNA_count <- data[,col]
colnames(miRNA_count) <- sub("read_count_","",colnames(miRNA_count))  # gsub是去除所有匹配的字符
head(miRNA_count)[1:4,1:4]
#              TCGA-BA-6871-01A-11R-1872-13 TCGA-CN-6024-01A-11R-1685-13 TCGA-IQ-7631-01A-11R-2080-13
# hsa-let-7a-1                        39430                        37356                        78370
# hsa-let-7a-2                        39178                        37111                        78621
# hsa-let-7a-3                        39394                        37080                        79843
# hsa-let-7b                          65142                        65155                       193506
#              TCGA-CV-7406-01A-11R-2080-13
# hsa-let-7a-1                        43002
# hsa-let-7a-2                        42954
# hsa-let-7a-3                        43141
# hsa-let-7b                          78858
save(miRNA_count,file = paste0(proj,"_miRNA_count.Rdata"))

参考资料:

  1. MicroRNA profiling: approaches and considerations. Nat Rev Genet. 2012 Apr 18;13(5):358-69.
  2. microRNA functions. Annu Rev Cell Dev Biol. 2007:23:175-205.
  3. miRBase数据库:https://www.mirbase.org/
  4. TCGAbiolinks:https://bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/index.html  https://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
  5. GDCquery: https://rdrr.io/bioc/TCGAbiolinks/man/GDCquery.html
  6. 生信技能树时间线:https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=24&album_id=2201138830328528899&count=3&uin=&key=&devicetype=iMac+Mac14%2C7+OSX+OSX+14.6.1+build(23G93)&version=13080810&lang=zh_CN&nettype=WIFI&ascene=0&fontScale=100
  7. 生信技能树B站视频:https://www.bilibili.com/video/BV1zK411n7qr/?vd_source=3a13860df939bc922ad1fd6099e42c1d
  8. 生信技能树:https://mp.weixin.qq.com/s/847Zc6QbU44LSL3l_STSpg  https://mp.weixin.qq.com/s/USc_aUA_loFLLljXzbmpFg
  9. 生信星球:https://www.jianshu.com/p/59e179212bdc
  10. 佳奥:https://www.jianshu.com/p/b7cbf0cb78ae
  11. 医学和生信笔记:https://zhuanlan.zhihu.com/p/556196846
  12. 叶子的数据科技专栏:https://cloud.tencent.com/developer/article/2245363

致谢:感谢曾老师以及生信技能树团队全体成员。

:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟

- END -