ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
122 stars 30 forks source link

2021第5期_数据挖掘班_微信群答疑笔 #1460

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/0iN0OOxOgcp-33_g_SVqLw

github-actions[bot] commented 2 years ago

2021第5期_数据挖掘班_微信群答疑笔 by 生信技能树


做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的300个问答!

与十万人一起学生信,你值得拥有下面的学习班: 

下面是2021第5期_数据挖掘班微信群答疑精选200题


2021第5期_数据挖掘班_微信群答疑笔记


  1. 我安装完R包之后,检索框里只有Keggrest 没有kegg,对么?

    1. 对,因为包更新了,它现在就是 https://bioconductor.org/packages/release/bioc/html/KEGGREST.html 

  2. 老师,请问我的mac电脑曾经安装了RStudio,但是我不记得有没有安装Git了,怎么查看有没有安装这个,如果没有的安装的话,我该怎么下载它并安装呢?

    1. 不用看了,mac不需要git,高级点自带Git 

  3. 老师在课前准备的生信环境视频里说的那些R包在哪里呢?

    1. http://www.bio-info-trainee.com/3727.html

  4. 老师,我Mac之前安装过Rstudio重安后汉字变成了奇怪字符,我忘记上次怎么处理的了

    1.               

      1. 设置为UTF-8

  5. 老师我也有个问题,为什么安装的时候显示下载到了C盘,用.libPaths()查看,又是在另一个盘

    1. 安装的时候显示下载到了C盘,应该是缓存目录

  6. 请问下这里的run怎么调出来呢                       

    1. untitled1才是脚本

  7. 这个线能去除吗?                                                                                                      

    1. https://community.rstudio.com/t/rstudio-ide-appearance-problem-white-line-in-code-source-editor/82987/2

  8. 修改安装package的路径到d盘怎么操作呢?

    1. https://mp.weixin.qq.com/s/D8OXDePOCyytDVcxmDTkTA

  9. 还想问一个很low的问题[捂脸] 看b站linux的讲课 老师的思维导图可以展开,感觉很帅,是怎么做出来的?

    1. 幕布做出来的

  10. 请问run第一步出来这个,应该怎么办                       

    1. 安装一个新版本的 Rstudio  https://www.rstudio.com/products/rstudio/download/#download

    2. 下载第一个                                                                 


  1. Rtools又是什么

    1.               

    2. 没有 error 就不用管,继续运行代码

  2. 运行最后 library 的代码,没有关键词 error 就OK

  3. 说是运行了以后有200多个包,我这里怎么只有30个文件夹

    1. R包的安装路径不止一个,这是基础R包的安装路径

  4. 电脑上之前安装有r和studio了,请问老师下面怎么做呀?多久之前的,什么版本,装了之后经常用吗?

    1. 最近一直在用,但是有的包安不上,r是4.1.0版本,rstudio是1.4.1717吧

    2. 都是最新版,不用动

  5. 老师~为什么包安不上?[捂脸]

    1.               

    2.               

    3. 这个是网络问题哈,换个网络试一试。如果还不行,去钉钉群,加我私聊

  6. 老师讲课是MAC吗

    1. win10,不影响听课,mac和win不一样的地方会指出来的,放心吧。

  7. 老师,我第一次安装R语言的时候默认成中文了,后来删掉重新安了几次选的英文但是打开以后还是中文,该怎么办

    1. 没关系

  8. 如何更新R版本呢,

    1. 云盘有最新版本的R和Rstudio,都重新下载安装一下吧,双击安装即可,R语言是4.0以上的版本,不需要再去更新

  9. 如何正确确认R版本?

    1. 打开Rstudio会提示

  10. 请问 我安装好了 再次打开运行的时候出现了这个情况

    1.               

    2. 不是error就无需理会,不需要解决. 如果你看他不爽非要解决的话可以去官网下载最新的Rstudio.

  11. 老师好 我学完三周课 能做出推文的三种图么?https://mp.weixin.qq.com/s/2toJFMPTzMbkq1-fb9njlg

    1. 这就是一句话,为什么做不了,关键是,你需要去认识maf文件,oncoplot( read.maf(vep_maf)  ),第三周会讲解这个

  12. 老师请问下生存分析中用多因素cox分析筛选出p<0.05的几个基因,再用这几个基因建立风险预测模型时,是需要把这几个基因再用多因素cox分析来计算预测公式中每个基因前面的系数吗?之前发现用二十几个基因多因素cox分析筛出来七八个基因,再用这七八个基因做多因素cox分析时,有的基因p值可能就大于0.05了。

    1. 逐步回归法

  13. 试着merge2个表格,结果报错了。。。

    1.               

    2. 是数据量比较大,电脑内存不够了,你把环境中一些没有的变量删除掉,把电脑一些无关的程序关掉应该就可以了

  14. 默认的工作路径在c盘,然后内存还剩2g,可以把之后的工作路径都改为d盘吗

    1. 你的 C 盘空间不够,很可能是你把qq微信等软件都安装在C 盘了,这类聊天软件会缓存非常多的记录在你的安装目录,微信你可以在设置里面迁移缓存数据。

  15. 请问我后面写了byrow=TRUE 怎么显示报错呢

    1.               

    2. 中文逗号

  16. x=("ACTR3B","ANLN","BAG1","BCL2","BIRC5","RAB","ABCT","ANLN","BAD","BCF","BARC7","BALV")   错误: 意外的',' in "x <- ("ACTR3B","

    1. x <- c(  )

  17. 好的,小洁老师,rownames()与row.names()这俩的区别是?

    1. 没区别,不过row.names即是函数,也是参数

  18. 我没有打出view(x)这个代码 这个是怎么出现的呢

    1.               

    2. 你浏览了数据,点击浏览数据的操作相当于这一句代码。

  19. 是我文件有问题么,这个genename怎么还有个日期

    1.               

    2. 你发现了新大陆呀,Excel就是这样,它会把你的基因名字改掉,所以我们不推荐使用Excel。

    3. https://mp.weixin.qq.com/s/lX-ApbjSbrTI79oPj92ZXw

  20. 这是要安装个0.23版本的xfun?

    1.               

    2. 更新一下xfun

  21. 老师 昨天说把Rstudio重启画板就不会自己跳出来 我试了试 还是跳出来呀

    1. 你到 https://www.rstudio.com/products/rstudio/download/#download 这里下载新版本的 Rstudio 吧,然后更新一下。

  22. 老师,我想问只是少了collapse="",为什么会只是转变了位置呢

    1.               

    2. 加不加collapse,它都会转变位置的。

  23. 老师,我想问一下,我在替换X1列的缺失值NA的时候,将它用C或者其他字母替换,都有显示error

    1.               

    2. 加个引号,不巧C是个函数,你换成其他字母,就都是找不到对象[旺柴]

  24. do.call(cbind,result),不懂?

    1. 我现在就可以跟你讲啊,他做的事情就你就结合这句代码,然后看看他的输入数据和输出数据,理解不了这是在干什么吗?好的,理解不了,我给我现在告诉你啊,就是把result里面的每一个元素,按列给它拼接到一起,从它把它从一个列表变成了一个矩阵。

  25. 感觉好像是不是还转置了下                                               

    1. 没有哦,再认真看看~

  26. 重启跑了还是不行,这是完整代码

rm(list = ls());options(stringsAsFactors = F)

library(tidyverse)

test = matrix(rnorm(60),nrow = 10)

colnames(test)=paste0("sample",1:6);rownames(test)=paste0("gene",1:10)

test[,1:3]=test[,1:3]+1

dat=t(test) %>% as.data.frame() %>% rownames_to_column() %>% mutate(group=rep(c("A","B"),each=3))

colnames(dat)[1]="sample"

pdat=dat %>% pivot_longer(cols = starts_with("gene"),

                         names_to = "gene",

                         values_to = "count")

##分面画图

library(ggplot2)

p= ggplot(pdat,aes(gene,count))+

 geom_boxplot(aes(fill=group))+

 geom_jitter(aes(color=group)+scale_color_manual(values = c("blue","grey")))+

 theme_bw()

p+facet_wrap(~gene,scales = "free")

  1. 你把括号儿的位置写错了,这就是问题所在,说明你写代码的顺序不对。

  2. 规范换行可以解决眼神不好的问题 这下应该记住了

  1. 老师 我加载了之后 为什么会变成1 5 9这样的形式呢,老师视频里面的 1 3 5 7 9是怎么拍出来的呢?

    1. 显示的问题 不影响代码

  2. 老师GEO pd信息中 disease state列不一定都有,但是“source_name_ch1”是见于所有GEO pd信息中的么?

    1. 只要能够提取出分组信息即可,不局限于某一列

  3. 老师请问下这里plot_grid(cor_plot,heatmap_plot$gtable),为啥有个$gtable                       

    1. 因为这两个图是不同的包画出来的,不同的作者他创造这个包的时候有不同的安排

  4. 老师 环境窗口能显示哪些data或者values来自哪个脚本文件么?

    1. 任何东西都可以str,以及class,你要多去看他的对象和结构,这几个函数要打1000遍以上,不要听任何人的解释,自己肉眼去看他的 class和str。或者,就把变量名搞长,之前是 df 就改名为 come_from_step1_number18_df_for_heatmap,这样就肉眼看得到,它这个变量来自于什么,是干什么的

  5. 请问老师,这种报错怎么处理?                       

    1. 试一试搜一搜重启一下

  6. 老师 annoGen 染色体位置注释 根据不同基因组版本应该是不同的吧?,这个函数的输出结果是按照GRCh37还是38?曾老师 那个命名step1_number18,18指脚本的行数么?

    1. 不是哦,随意命名~

  7. 老师请问下limma::normalizeBetweenArrays()这个是在log2处理之前进行,还是取了log2之后进行?

    1. 后,认真听课哦~

  8. 小洁老师,为什么这个design,有时候里面有~0,有时候又没有。多组比较,是不是有0的时候,下面coef从1,开始,没有0的时候是2开始?这个0不知道是啥

    1.               

    2.               

    3. 某个函数或者某个参数的意思,?函数名查看帮助文档

  9. 小洁老师,想问个问题,我有一个数据,想找拥有相同geneID,但是不同change的行

    1. y=table(x);names(y[y>1])

  10. 老师 我这个是处理有问题么?                       

    1. 检查一下 colnames 和 Group是否一致

  11. 小洁老师  我有几个问题:1.一探针对应多基因的情况,BiocManager默认删除,那多探针对应同一个基因的情况应怎么解决的?2.有的lncrna芯片的一些原始数据就只给出了探针序列,没有genesymbol这一列,有的话也是只有一部分有基因名 ,很多都是类似“ENST00000529841.1”这种,我之前按照曾老师的那个“价值一千元”文章自己建索引,可能就是电脑内存不够,最多建到90%多就不动了,那这种情况有办法解决么?3.我看视频里您讲的分组那部分,都是两组的这种,有没有三组或者多组的情况?那我们课上讲的操作还适用不?

    1. 你说的这些我们在课堂上都讲了,你还没有听完,继续往下听就行

  12.    k3 = apply(exp, 1, function(x) sum(x>0) >3) 这里的function为啥不需要{},k3 = apply(exp, 1, function(x) {sum(x>0) >3})

    1. 这里的function为啥不需要{},因为程序员比较懒,可以省略,尤其是这个function里面仅仅是一句话的时候,如果里面东西比较多,则不能省

  13. 老师,我用的COAD的数据就报错,一样的代码

    1.               

    2. 对,这个报错算是常见。看你目的是啥吧。如果是拿来练习,可以用这个报错练练解决问题的能力。如果是实战,用xena的数据代替。

    3. https://mp.weixin.qq.com/s/VyRiNkoa2ChKNf4xd3fHTA

  14. 请问 为什么运行了去除“.”代码,后面检查rownames时 怎么又变成了原来的样子呢

    1. 没有赋值等于没有发生

  15. 老师 发现下不下来啊,XENA的生存数据也下不了,为什么counts 和phenotype可以下,生存的就打不开[捂脸]                       

    1. 网址错了吧。那你就去网页上点下载呗。

  16. 小洁老师请问一下,为啥转录组测序的结果,没有像前面GEO一样画箱线图看看?

    1. 试试看

  17. 为啥三大包进行差异分析时,不需要类似normalizeBetweenArrays()这样校正下?还是说三大包差异分析里面函数有包含这个操作。

    1. 你推理成功

  18. 老师,我把这个改了,为啥中间有报错

    1.               

    2. gene指的本来就是一行,因为你改了,所以报错了,解决办法是改回去。

  19. 这个代码里面为啥那个high,low判断里面用的是exprSet[g,]这种形式                       

    1. 一个apply,一个lapply,循环的对象,一个是基因名,一个是一整行

  20. logrank批量生存分析运行后,为什么meta里面并没有group这一列呢,循环里面有这个产生

    1. 因为循环里的赋值默认是局部变量,不是全局变量,如果你感兴趣的话,可以去查一下局部变量和全局变量。

  21. 里面的function还是没能理解,只能无脑运行,是不是说对exprSet按照行执行,meta中每个样本对应的基因表达>那一行的median,就标记成high?

              

  1. 你先学一下apply吧,然后把这个函数取个名字,以表达矩阵的一行作为输入数据,看这个函数的输出结果,即可理解它的意思,这个属于apply加自定义函数的高阶用法。搞明白输入数据和输出结果,把多行代码当做一个整体即可,毕竟一个简单的函数,里面可以有上千行代码,你拆解过seq rnorm rep这些函数看过吗。需要知道作者是怎么写出来这些函数的吗。对于使用者,就是只需要会使用就够了。

  1. 这个是安装成功了嘛                       

  2. 我run getgeo这个代码的时候,没有出现几点几M的信息,我如何判断这个包安装完全了呢?                       

    1. 想起来了没                       

  3. 老师 我上面胰腺癌那个差异基因分析 正常样本很少,但是heatmap感觉tumo组根据筛选的差异基因似乎有分类趋势,所以我们后面的课程会讲如何根据表达基因谱的信息,对肿瘤进行再分类么?                             

    1. 你可以自己学一下                       

    2. https://mp.weixin.qq.com/s/S_xCUBZiAIKQrSMBHjwrtw

    3. https://mp.weixin.qq.com/s/YvXNTO8lUVfOs2Sqg9a_pA

    4. https://mp.weixin.qq.com/s/DUmqGrTm51J62r3w7Demag

    5. https://mp.weixin.qq.com/s/oZUd8XY0BAqfkcC0_EhqtA

    6. https://mp.weixin.qq.com/s/bK50ja4p0JUb8NtyO9JSug

  4. 老师 下标出界是什么意思[疑问]

    1.               

    2. 下标出界的意思是,比如说你的表达矩阵有ABC这三列,然后你取子集的时候说你给我取D,这一不是给我取这一列,或者取D取了一个它不存在的行名或者列名,那它就会报下标出界。根据你没头没尾的这段截图,盲猜是因为你少运行了一句,如果你是全选运行的,应该就不会出这样的错

  5. 换了电脑,重新安装了R语言和Rstudio,然后按照开课前的要求装R包,把这些代码复制到Rstudio里面运行,出现了几个报错,是不是这几个报错的包没有装成功?                       

    1. 安装提示不存在的R包

  6. 老师您好,想请教一下,就是我自己选了COAD的数据进行分析(用的XENA下载的数据),然后我在差异分析之前就将表达矩阵的行名从ensembl id 转换为symbol,然后画出来得到的PCA图为什么和我不转换行名的不一样呢[捂脸],下面这张图是不转换的,而且转换了行名之后,就会出现下标出界的报错,如果不转换就没有                                                                     老师,之后我做生存分析数据整理的时候,我MATCH之后,这个META他全都是NA[捂脸]是咋回事(然后我发现那个表达矩阵里的列名在那个clinical里找不到对应的ID,不知道是不是XENA下载的生存分析整理数据的方式会和传统方法不一样?因为我记得XENA单独下载了一个生存分析的文件)。                                              

    1. 你要不停的去检查名有没有搞错,每一个步骤都head变量看看,多match

  7. 老师 这个error 之前不记得讲过                       

    1. 这个问题搜一搜能解决,需要更新一下xcode,你试试

  8. 多数据集,尽量同一GLP平台,那可以不同平台取并集,相同平台取交集吗?                       

    1. 不同平台取并集,那你的意思是就分析的时候带着na去分析吗?你根本就没有自己测试过这种行为的可行性,它根本就分析不了。然后相同平台不用取交集,它测的探针都是一样的。

  9. 老师,我说的是差异基因

    1. 在一个数据集里是差异基因,但是在另一个数据集里不是,你认为这样的基因可以被认为是真正的差异基因吗?有文献这么做吗?可以参考下

  10. 老师,用您之前给代码匹配探针和基因跟这个genes_expr <- filterEM(nons_expr,nons )的出的结果不一样,可以问是为什么吗

    1. 你说的这个函数已经删了,无法得知                       三种主流去重方法的代码都给了。

  11. 意思是这个函数用不了了对吗?

    1. 嗯嗯,你也可以写成这样的函数,函数都可以查看源代码

  12. 如何理解配对样本的分组表示?

    1. 表达矩阵里面总共六个样本123456,分别对应着121323,然后第一个样本和第四个样本编号一样,所以它就是配对样本。

  13. 装完ggtheme后还是无法画图?                       

    1. 都重新回顾一下视频,这个函数是自定义的,前面有一句source("kegg_plot_function.R"),你们没有运行,或者没有把 kegg_plot_function.R 这个脚本放在工作目录

  14. 老师我遇到一个问题:我在用bowtie2跑完比对之后,要用cufflink,但是软件总是报错,我已经对比对后的文件sort了

    1. 不建议使用这样的旧软件。转录组的上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi 。下游主要是基于counts矩阵的标准分析的代码,https://share.weiyun.com/50hfuLi。

    2. 加油,学完了这些后完成一个作业https://mp.weixin.qq.com/s/ZcOPNzcj1EZhrHPfUZfwyQ

  15. 老师,怎么构建不同转录本的表达呢,除了cufflink以外,还能用什么软件?

    1. hisat2套装,stringtie

  16. 请问一下老师,用课程里面XENA的方式下载TCGA数据以后,是不是不能按照视频里面的代码进行差异分析?

    1. 为什么认为不能,具体说一下,我看看你的盲点在哪?

  17. 用xena下载下来 没有gdc.Rdata这个文件啊?

    1. 没有一个.Rdata文件是从网站上下载下来的,它里面装了四个,分别是:表达矩阵、分组信息、临床信息和proj。是整理得出来的。从xena下载下来的三个文件就分别对应着表达矩阵,还有它把临床信息拆成了两部分,分组信息还是可以从表达矩阵上面去分出来,proj仍然是可以自己写。

    2. 另外xena数据读取和整理我讲过了,有现成的代码可以参考哈。保存rdata的操作就一个函数,因为前面基础已经讲的非常详细,我默认大家是会的了。

  18. 类似这种单基因的分组信息如何 提取?视频里好像也没讲?

    1. 可以手动啊,有一个包,tableone也可以如果你吸收了基础课的话,就应该知道,有一个ifelse的函数,可以帮你实现一个基因根据表达量进行分组。

  19. 老师 咱们的课程是从公共数据库下载数据。如果有自己的靶向多基因测序数据,前期的数据处理  是不是也有相应课程?

    1. 靶向测序,需要从fastq开始处理,隔壁班有讲,需要Linux服务器处理。你可以在b站搜索生信技能树肿瘤外显子视频教程,和你靶向测序数据的处理思路类似

  20. 老师请问下,我分析的这个GSE文件,PCA分析对照组有个跑到实验组了。另外三个包差异分析时,limma和其他两个差别太大了。这种情况一般是放弃这种数据集,还是取DESeq2和edgeR两个的交集比较靠谱?

    1. 这个问题,去掉一个样本,就剩下两个了,可能还会画篇幅去解释为什么只有两个样本,所以,归根结底是因为数据量太少了,最好换一个数据集。

  21. 这三个图都是一个函数draw_heatmap画的,为啥第三个没有边框,前两个都有。                       

    1. 基因多了就没有边框了,因为图的大小有限,加边框就只剩下边框的黑色。

  22. 老师、大佬们求问:我选取不同GSE里的一部分内容,我应该先拼接再注释,还是先注释再分组呀?

    1. 你得看看是不是同一个平台,如果是不同平台的话,那你只能先注释,然后再拼接,再去除批次效应。如果是同一个平台的话,那就无所谓,先合并到一起还是先注释,都没有任何关系。所以,不是只看GSE的,你要看GPL它到底是不是一样的。

  23. 如何查看向量里的空格?

    1. 有一个函数trim,试一下

  24. 老师,GSEA的结果图中:横坐标的数值是指第几个基因的意思对吗 然后色带的话是logfc值从大到小排列对吗

  25. 老师,我想问一下,走课程给的单细胞的标准流程这里报了个错,不知道该怎么解决?

    1. 如果什么都没改,因为运行顺序动了,就报错,那你就把数据都删了重新运行就得了,改了什么报错了,那你就改回去,小事

  26. 老师请问下,我在用%in%时,明明有一样的,不知道为什么出来全部都是false

    1. 空格,trims函数

  27. 各位老师,网络问题有什么好办法吗?我也修改了不同的镜像站,还是下不了,以后如果没有本地文件怎么办?

    1. 直接网页浏览器下载看看,搞不定的话,我给你我的网盘备份。

  28. 各位老师,运行limma包的时候报错,DESeq2包运行没有问题

    1. 盲猜是你运行顺序错了,漏掉了一些代码记住我说的话 你只负责检查输入数据就够了。

  29. 请问老师,为什么批量化读取XML文件的时候会报错?单独读取一个文件夹里面的XML正常?

    1. 因为有些文件包里面的列数不一致,所以不能合并,解决方法如下:https://mp.weixin.qq.com/s/VyRiNkoa2ChKNf4xd3fHTA

  30. 小洁老师,我想问一下在用pheatmap画heatmap的时候,我想让-0.58到0.58这个范围的数值颜色为灰色,我找不到你在哪个视频里了

    1. 查看帮助文档,每个图的颜色修改都有参数 研究一下

  31. 老师,我搞懂了怎么设置了,用break 参数

  32. 老师 如果有VCF文件,是不是需要转换成MAF格式才能用R语言进行后续可视化分析?

    1. maf 格式比较友好一点,一般是需要的。除非你的R语言非常厉害,就可以试试用 vcf

  33. 转换需要使用linux么?

    1. https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzUzMTEwODk0Ng==&scene=1&album_id=1355546013611900930#wechat_redirect 把这个系列看完,对你会很有帮助,看完不懂再提问

  34. 小洁老师, TCGA1后面的练习题GSE162550的代码有上传吗?我找了好久没找到呢,谢谢

    1. 搜聊天记录就好

  35. 小洁老师,你的这个视频里面这个部分内容我没大听懂,这个KM-PLOT到底是关于那个基因做的生存分析呢?                       

    1. 仔细看代码,age_group

  36. 还有就是这个地方,单个基因这里,怎么挑选具体的一个基因来作图呢?                       

    1. g = "你关心的基因"即可,要注意运行代码,并且理解代码健的逻辑哦

  37. 老师 想问一下 多张芯片各自的处理组和各自的模型组比 再取交集 是不是错误的呀[捂脸]因为芯片不是同一个平台  就没有先整合 昨晚才想起来漏了一步

    1. 取差异基因的交集没关系啊,跟芯片平台无关

  38. 在看b站卖萌哥的Linux基础和曾老师的这样学Linux。我是不是应该找一个服务器边练习 边学习?

    1. 是的,不知道这个活动还有没有 https://cloud.tencent.com/act/new?from=618go2021

  39. 已经看到创建文件内容,但是没想通为什么要下载terminus 直接使用terminal不行吗?[捂脸]

    1. 可以的

  40. 老师 我后期想处理自己靶向测序的fq文件,有50对样本,买99元这款,VCF转MAF够用么

    1. VCF转MAF你自己笔记本就足够了哦,或者你直接找公司给你maf然后,你只需要学一个包,maftools即可https://www.yuque.com/docs/share/601bc7c5-c6d5-4836-a762-53158e3a4107 你看看我另外一个学徒的笔记

    2. 前列腺癌的maf文件,可视化maf文件下载地址http://www.cpgea.com/datas/MAF/maftools 官方学习网址:https://www.bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.htmlmaftools 最近更新于2021-05-19,这里是根据更新版后调整的~

  41. 老师,我在下载geo芯片数据食遇到了这个问题,我在网上找不到相关答案,请问怎么解决呢                       

    1. 你的这个数据集有问题,试试重新下载这个文件,用代码下载不了,就去GEO数据库下载保存到工作目录

  42. 老师您好 我在复现这篇文章的代码的时候https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew  报错circle_dat不存在 我又反复去看文章代码确实没有circle_dat 卡在最后两步上了[裂开] 能麻烦您看一下是啥问题吗?

    1. 这是一个函数,你查一下来自于哪个包,如果是自定义的函数,就没办法了

  43. 老师 这个更改命令行配色代码 能分享一下么?我想复制黏贴[捂脸]

    1. echo 'export PS1="\[\033]2;\h:\u \w\007\033[33;1m\]\u \033[35;1m\t\033[0m \[\033[36;1m\]\w\[\033[0m]\n\[\e[32;1m\]$ \[\e[0m\]"' >> ~/.bashrc

    2. source ~/.bashrc

  44. 老师 我有个问题想请教一下  我做差异分析的时候发现:先用表达矩阵做差异分析 然后在进行探针去重复和先用探针去重复 然后做差异分析,发现P value LogFC等数值都是不同的。请教一下这两种方法都可以吗?还是我算错了[捂脸]

    1. 两种方法都可用,可以是先id转换,换成基因名再做差异分析,也可以是先做差异分析,再id转换。光是探针去重方式就有三种

    2. dat['ACTB',]   dat['GAPDH',]务必看看 管家 基因的表达量是否是高表达如果不是,说明你们的基因探针转换有问题

  45. 老师您好!我想请问一下我这个match_exp_cl他为啥说我的exp和cl不匹配啊,这个函数具体有什么作用呢,怎么样的数据才能匹配啊?

    1. 比较你的数据和示例数据的差别

    2. 这个函数是我写的,你看到的报错也是我提示的,但是我怕你在不知道任何这个函数是做什么的情况下就在使用,然后导致我给他设置的功能和你的想法并不一致,所以你可以看看你的数据和我提供的示例数据之间有什么区别。函数中,有一个if语句在,你把那个条件单独拎出来,看看它到底是哪里不符合条件。

    3. 关于如何看函数内部的代码,就是光写函数的名字而不写它的括号,就可以看到内部的构造了

    4. 找找这个报错是什么条件触发的,你就知道了。

  46. 老师请问我这个低表达组的生存曲线中间有断点是怎么回事啊,不是连续的曲线

    1. 放大就好了

  47. 老师 出现这个报错是什么意思呢                       

    1. 网络问题

  48. 小洁老师,我现在手上有KEGG的metabolic pathway中的基因1600个,我是不是把这1600个基因和我从TCGA上下载来的数据(已经过差异计算,获得logFC,加了ENTREZID列)取个交集,再放入GESA的代码中分析,是不是就可以得出我的TCGA的数据主要富集在哪个metabolic pathway上了?

    1. GSEA输入数据是全部的基因,不可以筛选,你只能拿全部基因做GSEA,然后找找p<0.05的通路有没有你要的

  49. 老师我想问个问题 就是我从GEO数据库下载芯片全转录组数据 我怎么区分这里面那些是mRNA miRNA LncRNA 就像视网膜那篇文献 里面包括LncRNA 是怎么看出来选出来的呢[捂脸]

    1. 借助AnnoProbe包里面的gtf文件信息来区分 mRNA和lncRNA,需要把区分 mRNA和lncRNA拆分成为两个表达量矩阵,方便后续进行相关性计算。

    2. library(AnnoProbe) gs=annoGene(rownames(ensembl_matrix),'ENSEMBL','human')                     head(gs)

tail(sort(table(gs$biotypes)))

  1. https://mp.weixin.qq.com/s/OFntKN8J9RAj6o5Rk6Iv8w

  1. 老师我是想做完差异分析在把LncRNA mRNA分开,但是lncRNA有413个 但是我从deg里提取后却只有410个 ,mRNA有17088个 提取后却只有17058个想请教一下老师是我的代码有问题吗?                                              

    1. 少了的那些基因是因为去重被去掉了吧?去检查以下哦

  2. 老师,我想问如果我想用annoprobe自主注释的话,会出现symbol不同实际是同个基因的情况吗

    1. 不会

  3. 这个代码是将ensembl_matrix的编辑蛋白基因和非蛋白编辑基因区分并提取,但是我用inner_join以symbol为中介分别将两个矩阵连接起来,结果是不一样的,后者要比前者多                       

    1. %in%以前面的数据为主,前面的数据有多少个元素返回,结果就多少个元素。而inner join两个表都考虑,不分主次,所以结果有差异很正常。

  4. 老师,如果是用不同方法注释基因(比如r包、平台等),会出现同个基因在这种注释是一个名字,在另一种注释又是另一个名字的情况吗?因为像lncRNA这种是没有统一命名的

    1. 嗯嗯,没有统一的名字,比较混乱,没办法。还有就是,自己的细分领域需要利用自己研究清楚,没有统一的答案。

  5. 老师们 想问一下我在做ceRNA的时候出现这个报错 想请教一下如何解决啊                                                                     

    1. 可能是数据类型的问题,用str class查看一下data

  6.               

    1. 没有基因名字,就删除吧

  7. 老师 我想问一下 之前上课的时候有讲 想在火山图上加标签是可以用这句代码的 但我现在加了这句代码火山图上还是没有标签呀 是不是因为上课是用二分组但是我这组数据是三分组的原因呀?                       

    1. 嗯,有可能,最好是先去理解这个代码,在理解的基础上面,修改它。

  8. 各位老师,我这个symbol到ENTERZID的匹配,说是有41.62%没有匹配上,是不是太多了啊?

    1. Id转换会有损失是正常的,可以继续分析。或者有可能是因为数据库版本不对如果你能成功对应10%就说明已经很正确。因为ID一直在更新进化gtf版本也有影响。

  9. 各位老师,用小洁老师给的代码读phenotype文件的时候,只有两百多行,但是实际上有五百多行,是哪里需要修改下嘛?

    1. 试一试data.table包的 fread函数

  10. 老师,我这个WGCNA聚类后module colors显示的颜色好少,但是算出来的modle有21个,这是什么问题啊?

    1. 不要是用全部的基因来算wgcna,挑选top5000

  11. 老师好,我这进行TCGA差异分析这一步,提示了这个错误。刚刚library了RCPP也没显示报错,请问老师这个该怎么解决

    1. 可能是R包版本升级了,你搜索一下前面这个报错函数

  12. 求助有无用smart-seq2分析单细胞的友友呀,为什么有的人用smart-seq2能够捕获到线粒体基因的表达,有的人捕获不到呢

  13. 老师们好,我在进行GEO数据挖掘到ID注释这里的时候,没有找到gene symbol,那这个GB-LIST是我们需要的东西吗,可以把他直接当成gene symbol来对待吗?

    1. GB-LIST 可以转变啊,我们写过教程。搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查询,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg。

  14. 老师好!我按照这里的源代码改了GPL号之后出现了这网络的报错https://mp.weixin.qq.com/s/vmna5DrqGDs4yXeUZgbZfg

    1. 打开上面那个链接就是这个文件的内容,你把网页复制粘贴到一个文件里面

  15. 我用limma做差异表达分析的时候,设置比对分组,报了一个错,提示命名不符合语法,请问这个地方怎么改?我需要调整分组信息文件吗?

    1. 命名里面不要有-

  16. 还有一个问题,老师上课讲例子是一个处理组,一个对照组,而我的数据是三个不同的处理组,一个对照组,做差异表达分析的话,要把这个比对的流程走3遍吗?还是可以一次就完成?

    1. 两两比较做差异分析,用咱们上课的代码

  17. 老师好,为啥我按照小结老师给的代码,最后得到的只有这个稳定的基因,没有见到上调和下调的基因

    1. 阈值需要自己调整的

  18. 新的问题是,进行ID转化的时候,老师上课示例数据是人的基因,我的样本是小鼠的基因,这里的数据库参数怎么设置呢?到哪里可以查到不同物种的名称的参数信息呢?

    1. bioconductor官网就有

  19. 请问tinyarray 包 是不能用了吗

    1. install.packages("https://cran.rproject.org/src/contrib/Archive/rvcheck/rvcheck_0.1.8.tar.gz",type = 'source',repos = NULL)

  20. 还是不行                       

    1. 重启Rstudio

  21. 老师们,为什么下载的gse rowname没了,我改成Null读出来只有两列的乱码

    1. 按上课讲的方法读取 getGEO

  22. 我想把差异比较大的基因在火山图上标注出来,现在这个字太大了,背景也不透明,对主体火山图遮挡太多,参数该怎么改呢?

  23. 请问各位大神,富集分析时,p值阈值,q值阈值,设定一般都是0.05,还有没有其他合适的设定?能更多的富集到结果?常用阈值设置有哪些?

  24. 老师好,我做富集分析的时候出现了这个报错,我查了下大概是因为系统给分配的内存不够,于是搜了一下公众号好像还没找到解决的方法,请问老师们这个应该怎么解决

    1. memory.limit()                       

  25. 之前就看到过这篇文章里总结单细胞RNA工具的网站(https://www.scrna-tools.org/),总结的特别全,像一个应用商店,特别宝藏

  26. 单细胞天地文献速递

    1. https://mp.weixin.qq.com/s/qCwVZ2JtrtTx6EPwiosvGA

    2. https://mp.weixin.qq.com/s/WbKIpjATi4jV_asi2hJPug

  27. 单细胞Seurat4.0 官方文档翻译稿

    1. https://mp.weixin.qq.com/s/zCHvs4NoTmsxiREHoaEH1w

  28. OSCA单细胞数据分析笔记

    1. https://mp.weixin.qq.com/s/Vw9C9Rd_cMRHZfaqBJpk9w

  29. Harvard Chan Bioinformatics Core系列

    1. https://mp.weixin.qq.com/s/gB6wlzqpQv3_S2D-hxpqIg

  30. 老师们好,小洁老师这底部代码的kegg_plot这个函数请问出自哪个包啊?

    1. 这是自己写的函数,搜索我们生信技能树公众号历史教程

  31. 这个问题哪个大神遇到过啊,调整画板什么的没有,我把窗口拉大了还是出不来                       

    1. 把窗口最大化,再拉大,实在不行,pdf保存

  32. 请问跑time-roc的时候出来这个报错要咋修改呀                       

    1. 向量的长度不一样

  33. 想请教一下,tinyarray::draw_boxplot,对三组数据的,两两显示差异分析 应该怎么做呀?

    1. 自己写函数

  34. 老师们好,这种情况是因为NA这个值导致的吗,该怎么解决呢                       

    1. 一般来说,删掉na,用 na.omit

  35. 老师们好,我想请问下这个gene set 以下类似二维码的表现形式,这里的基因是已经排好降序的,还是这些基因本来就在这个位置上

    1. 最底部灰色的条带是排好降序的,但是中间的就是在底部排序后,出现的

  36. 请问老师,重新安装了rjava还是出现这个报错该怎么处理

    1. 需要设置环境变量,提示信息 JAVA_HOME,比较麻烦,建议放弃,同样功能的R包还有很多

  37. 就是想把数据框导出为excel表格或者csv格式,请问老师我应该用哪个包呢

    1. 忘了?write.csv

  38. 老师们好,如果我想看下GSEA指定的某条通路的话只能用GSEA的软件吗?

    1. clusterprofiler也能做gsea,你选一个基因集或者把GSEA官方的基因集一次性全跑了

    2. 可以输出一个结果文件,然后用gseaplot2函数可视化一下你想看的通路就可以了

    3. 可以查看GSEA()的结果 @result$ID ,然后gseaplot2作图的时候制定对应ID序号就可以

  39. 打扰各位老师了,咨询个小问题,困扰我好久了[苦涩] 在TCGA上下载的数据我要做和m6a基因相关的基因的差异分析,方案一:对整个数据做差异分析,再从差异的结果中找出和m6a基因相关的基因。方案二:先找到和m6a基因相关的基因再对这些基因做差异分析。哪种方案是对的呢。谢谢

    1. 都可以,但是方案二常规一点


更多答疑精选问题,都在腾讯文档哦,请移步!