Closed ixxmu closed 2 years ago
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的300个问答!
与十万人一起学生信,你值得拥有下面的学习班:
我安装完R包之后,检索框里只有Keggrest 没有kegg,对么?
对,因为包更新了,它现在就是 https://bioconductor.org/packages/release/bioc/html/KEGGREST.html
老师,请问我的mac电脑曾经安装了RStudio,但是我不记得有没有安装Git了,怎么查看有没有安装这个,如果没有的安装的话,我该怎么下载它并安装呢?
不用看了,mac不需要git,高级点自带Git
老师在课前准备的生信环境视频里说的那些R包在哪里呢?
http://www.bio-info-trainee.com/3727.html
老师,我Mac之前安装过Rstudio重安后汉字变成了奇怪字符,我忘记上次怎么处理的了
设置为UTF-8
老师我也有个问题,为什么安装的时候显示下载到了C盘,用.libPaths()查看,又是在另一个盘
安装的时候显示下载到了C盘,应该是缓存目录
请问下这里的run怎么调出来呢
untitled1才是脚本
这个线能去除吗?
https://community.rstudio.com/t/rstudio-ide-appearance-problem-white-line-in-code-source-editor/82987/2
修改安装package的路径到d盘怎么操作呢?
还想问一个很low的问题[捂脸] 看b站linux的讲课 老师的思维导图可以展开,感觉很帅,是怎么做出来的?
幕布做出来的
请问run第一步出来这个,应该怎么办
安装一个新版本的 Rstudio https://www.rstudio.com/products/rstudio/download/#download
下载第一个
Rtools又是什么
没有 error 就不用管,继续运行代码
运行最后 library 的代码,没有关键词 error 就OK
说是运行了以后有200多个包,我这里怎么只有30个文件夹
R包的安装路径不止一个,这是基础R包的安装路径
电脑上之前安装有r和studio了,请问老师下面怎么做呀?多久之前的,什么版本,装了之后经常用吗?
最近一直在用,但是有的包安不上,r是4.1.0版本,rstudio是1.4.1717吧
都是最新版,不用动
老师~为什么包安不上?[捂脸]
这个是网络问题哈,换个网络试一试。如果还不行,去钉钉群,加我私聊
老师讲课是MAC吗
win10,不影响听课,mac和win不一样的地方会指出来的,放心吧。
老师,我第一次安装R语言的时候默认成中文了,后来删掉重新安了几次选的英文但是打开以后还是中文,该怎么办
没关系
如何更新R版本呢,
云盘有最新版本的R和Rstudio,都重新下载安装一下吧,双击安装即可,R语言是4.0以上的版本,不需要再去更新
如何正确确认R版本?
打开Rstudio会提示
请问 我安装好了 再次打开运行的时候出现了这个情况
不是error就无需理会,不需要解决. 如果你看他不爽非要解决的话可以去官网下载最新的Rstudio.
老师好 我学完三周课 能做出推文的三种图么?https://mp.weixin.qq.com/s/2toJFMPTzMbkq1-fb9njlg
这就是一句话,为什么做不了,关键是,你需要去认识maf文件,oncoplot( read.maf(vep_maf) ),第三周会讲解这个
老师请问下生存分析中用多因素cox分析筛选出p<0.05的几个基因,再用这几个基因建立风险预测模型时,是需要把这几个基因再用多因素cox分析来计算预测公式中每个基因前面的系数吗?之前发现用二十几个基因多因素cox分析筛出来七八个基因,再用这七八个基因做多因素cox分析时,有的基因p值可能就大于0.05了。
逐步回归法
试着merge2个表格,结果报错了。。。
是数据量比较大,电脑内存不够了,你把环境中一些没有的变量删除掉,把电脑一些无关的程序关掉应该就可以了
默认的工作路径在c盘,然后内存还剩2g,可以把之后的工作路径都改为d盘吗
你的 C 盘空间不够,很可能是你把qq微信等软件都安装在C 盘了,这类聊天软件会缓存非常多的记录在你的安装目录,微信你可以在设置里面迁移缓存数据。
请问我后面写了byrow=TRUE 怎么显示报错呢
中文逗号
x=("ACTR3B","ANLN","BAG1","BCL2","BIRC5","RAB","ABCT","ANLN","BAD","BCF","BARC7","BALV") 错误: 意外的',' in "x <- ("ACTR3B","
x <- c( )
好的,小洁老师,rownames()与row.names()这俩的区别是?
没区别,不过row.names即是函数,也是参数
我没有打出view(x)这个代码 这个是怎么出现的呢
你浏览了数据,点击浏览数据的操作相当于这一句代码。
是我文件有问题么,这个genename怎么还有个日期
你发现了新大陆呀,Excel就是这样,它会把你的基因名字改掉,所以我们不推荐使用Excel。
https://mp.weixin.qq.com/s/lX-ApbjSbrTI79oPj92ZXw
这是要安装个0.23版本的xfun?
更新一下xfun
老师 昨天说把Rstudio重启画板就不会自己跳出来 我试了试 还是跳出来呀
你到 https://www.rstudio.com/products/rstudio/download/#download 这里下载新版本的 Rstudio 吧,然后更新一下。
老师,我想问只是少了collapse="",为什么会只是转变了位置呢
加不加collapse,它都会转变位置的。
老师,我想问一下,我在替换X1列的缺失值NA的时候,将它用C或者其他字母替换,都有显示error
加个引号,不巧C是个函数,你换成其他字母,就都是找不到对象[旺柴]
do.call(cbind,result),不懂?
我现在就可以跟你讲啊,他做的事情就你就结合这句代码,然后看看他的输入数据和输出数据,理解不了这是在干什么吗?好的,理解不了,我给我现在告诉你啊,就是把result里面的每一个元素,按列给它拼接到一起,从它把它从一个列表变成了一个矩阵。
感觉好像是不是还转置了下
没有哦,再认真看看~
重启跑了还是不行,这是完整代码
rm(list = ls());options(stringsAsFactors = F)
library(tidyverse)
test = matrix(rnorm(60),nrow = 10)
colnames(test)=paste0("sample",1:6);rownames(test)=paste0("gene",1:10)
test[,1:3]=test[,1:3]+1
dat=t(test) %>% as.data.frame() %>% rownames_to_column() %>% mutate(group=rep(c("A","B"),each=3))
colnames(dat)[1]="sample"
pdat=dat %>% pivot_longer(cols = starts_with("gene"),
names_to = "gene",
values_to = "count")
##分面画图
library(ggplot2)
p= ggplot(pdat,aes(gene,count))+
geom_boxplot(aes(fill=group))+
geom_jitter(aes(color=group)+scale_color_manual(values = c("blue","grey")))+
theme_bw()
p+facet_wrap(~gene,scales = "free")
你把括号儿的位置写错了,这就是问题所在,说明你写代码的顺序不对。
规范换行可以解决眼神不好的问题 这下应该记住了
老师 我加载了之后 为什么会变成1 5 9这样的形式呢,老师视频里面的 1 3 5 7 9是怎么拍出来的呢?
显示的问题 不影响代码
老师GEO pd信息中 disease state列不一定都有,但是“source_name_ch1”是见于所有GEO pd信息中的么?
只要能够提取出分组信息即可,不局限于某一列
老师请问下这里plot_grid(cor_plot,heatmap_plot$gtable),为啥有个$gtable
因为这两个图是不同的包画出来的,不同的作者他创造这个包的时候有不同的安排
老师 环境窗口能显示哪些data或者values来自哪个脚本文件么?
任何东西都可以str,以及class,你要多去看他的对象和结构,这几个函数要打1000遍以上,不要听任何人的解释,自己肉眼去看他的 class和str。或者,就把变量名搞长,之前是 df 就改名为 come_from_step1_number18_df_for_heatmap,这样就肉眼看得到,它这个变量来自于什么,是干什么的
请问老师,这种报错怎么处理?
试一试搜一搜重启一下
老师 annoGen 染色体位置注释 根据不同基因组版本应该是不同的吧?,这个函数的输出结果是按照GRCh37还是38?曾老师 那个命名step1_number18,18指脚本的行数么?
不是哦,随意命名~
老师请问下limma::normalizeBetweenArrays()这个是在log2处理之前进行,还是取了log2之后进行?
后,认真听课哦~
小洁老师,为什么这个design,有时候里面有~0,有时候又没有。多组比较,是不是有0的时候,下面coef从1,开始,没有0的时候是2开始?这个0不知道是啥
某个函数或者某个参数的意思,?函数名查看帮助文档
小洁老师,想问个问题,我有一个数据,想找拥有相同geneID,但是不同change的行
y=table(x);names(y[y>1])
老师 我这个是处理有问题么?
检查一下 colnames 和 Group是否一致
小洁老师 我有几个问题:1.一探针对应多基因的情况,BiocManager默认删除,那多探针对应同一个基因的情况应怎么解决的?2.有的lncrna芯片的一些原始数据就只给出了探针序列,没有genesymbol这一列,有的话也是只有一部分有基因名 ,很多都是类似“ENST00000529841.1”这种,我之前按照曾老师的那个“价值一千元”文章自己建索引,可能就是电脑内存不够,最多建到90%多就不动了,那这种情况有办法解决么?3.我看视频里您讲的分组那部分,都是两组的这种,有没有三组或者多组的情况?那我们课上讲的操作还适用不?
你说的这些我们在课堂上都讲了,你还没有听完,继续往下听就行
k3 = apply(exp, 1, function(x) sum(x>0) >3) 这里的function为啥不需要{},k3 = apply(exp, 1, function(x) {sum(x>0) >3})
这里的function为啥不需要{},因为程序员比较懒,可以省略,尤其是这个function里面仅仅是一句话的时候,如果里面东西比较多,则不能省
老师,我用的COAD的数据就报错,一样的代码
对,这个报错算是常见。看你目的是啥吧。如果是拿来练习,可以用这个报错练练解决问题的能力。如果是实战,用xena的数据代替。
请问 为什么运行了去除“.”代码,后面检查rownames时 怎么又变成了原来的样子呢
没有赋值等于没有发生
老师 发现下不下来啊,XENA的生存数据也下不了,为什么counts 和phenotype可以下,生存的就打不开[捂脸]
网址错了吧。那你就去网页上点下载呗。
小洁老师请问一下,为啥转录组测序的结果,没有像前面GEO一样画箱线图看看?
试试看
为啥三大包进行差异分析时,不需要类似normalizeBetweenArrays()这样校正下?还是说三大包差异分析里面函数有包含这个操作。
你推理成功
老师,我把这个改了,为啥中间有报错
gene指的本来就是一行,因为你改了,所以报错了,解决办法是改回去。
这个代码里面为啥那个high,low判断里面用的是exprSet[g,]这种形式
一个apply,一个lapply,循环的对象,一个是基因名,一个是一整行
logrank批量生存分析运行后,为什么meta里面并没有group这一列呢,循环里面有这个产生
因为循环里的赋值默认是局部变量,不是全局变量,如果你感兴趣的话,可以去查一下局部变量和全局变量。
里面的function还是没能理解,只能无脑运行,是不是说对exprSet按照行执行,meta中每个样本对应的基因表达>那一行的median,就标记成high?
你先学一下apply吧,然后把这个函数取个名字,以表达矩阵的一行作为输入数据,看这个函数的输出结果,即可理解它的意思,这个属于apply加自定义函数的高阶用法。搞明白输入数据和输出结果,把多行代码当做一个整体即可,毕竟一个简单的函数,里面可以有上千行代码,你拆解过seq rnorm rep这些函数看过吗。需要知道作者是怎么写出来这些函数的吗。对于使用者,就是只需要会使用就够了。
这个是安装成功了嘛
是
我run getgeo这个代码的时候,没有出现几点几M的信息,我如何判断这个包安装完全了呢?
想起来了没
老师 我上面胰腺癌那个差异基因分析 正常样本很少,但是heatmap感觉tumo组根据筛选的差异基因似乎有分类趋势,所以我们后面的课程会讲如何根据表达基因谱的信息,对肿瘤进行再分类么?
你可以自己学一下
https://mp.weixin.qq.com/s/bK50ja4p0JUb8NtyO9JSug
老师 下标出界是什么意思[疑问]
下标出界的意思是,比如说你的表达矩阵有ABC这三列,然后你取子集的时候说你给我取D,这一不是给我取这一列,或者取D取了一个它不存在的行名或者列名,那它就会报下标出界。根据你没头没尾的这段截图,盲猜是因为你少运行了一句,如果你是全选运行的,应该就不会出这样的错
换了电脑,重新安装了R语言和Rstudio,然后按照开课前的要求装R包,把这些代码复制到Rstudio里面运行,出现了几个报错,是不是这几个报错的包没有装成功?
安装提示不存在的R包
老师您好,想请教一下,就是我自己选了COAD的数据进行分析(用的XENA下载的数据),然后我在差异分析之前就将表达矩阵的行名从ensembl id 转换为symbol,然后画出来得到的PCA图为什么和我不转换行名的不一样呢[捂脸],下面这张图是不转换的,而且转换了行名之后,就会出现下标出界的报错,如果不转换就没有 老师,之后我做生存分析数据整理的时候,我MATCH之后,这个META他全都是NA[捂脸]是咋回事(然后我发现那个表达矩阵里的列名在那个clinical里找不到对应的ID,不知道是不是XENA下载的生存分析整理数据的方式会和传统方法不一样?因为我记得XENA单独下载了一个生存分析的文件)。
你要不停的去检查名有没有搞错,每一个步骤都head变量看看,多match
老师 这个error 之前不记得讲过
这个问题搜一搜能解决,需要更新一下xcode,你试试
多数据集,尽量同一GLP平台,那可以不同平台取并集,相同平台取交集吗?
不同平台取并集,那你的意思是就分析的时候带着na去分析吗?你根本就没有自己测试过这种行为的可行性,它根本就分析不了。然后相同平台不用取交集,它测的探针都是一样的。
老师,我说的是差异基因
在一个数据集里是差异基因,但是在另一个数据集里不是,你认为这样的基因可以被认为是真正的差异基因吗?有文献这么做吗?可以参考下
老师,用您之前给代码匹配探针和基因跟这个genes_expr <- filterEM(nons_expr,nons )的出的结果不一样,可以问是为什么吗
你说的这个函数已经删了,无法得知。 三种主流去重方法的代码都给了。
意思是这个函数用不了了对吗?
嗯嗯,你也可以写成这样的函数,函数都可以查看源代码。
如何理解配对样本的分组表示?
表达矩阵里面总共六个样本123456,分别对应着121323,然后第一个样本和第四个样本编号一样,所以它就是配对样本。
装完ggtheme后还是无法画图?
都重新回顾一下视频,这个函数是自定义的,前面有一句source("kegg_plot_function.R"),你们没有运行,或者没有把 kegg_plot_function.R 这个脚本放在工作目录
老师我遇到一个问题:我在用bowtie2跑完比对之后,要用cufflink,但是软件总是报错,我已经对比对后的文件sort了
不建议使用这样的旧软件。转录组的上游分析视频以及代码资料在:https://share.weiyun.com/5QwKGxi 。下游主要是基于counts矩阵的标准分析的代码,https://share.weiyun.com/50hfuLi。
加油,学完了这些后完成一个作业https://mp.weixin.qq.com/s/ZcOPNzcj1EZhrHPfUZfwyQ
老师,怎么构建不同转录本的表达呢,除了cufflink以外,还能用什么软件?
hisat2套装,stringtie。
请问一下老师,用课程里面XENA的方式下载TCGA数据以后,是不是不能按照视频里面的代码进行差异分析?
为什么认为不能,具体说一下,我看看你的盲点在哪?
用xena下载下来 没有gdc.Rdata这个文件啊?
没有一个.Rdata文件是从网站上下载下来的,它里面装了四个,分别是:表达矩阵、分组信息、临床信息和proj。是整理得出来的。从xena下载下来的三个文件就分别对应着表达矩阵,还有它把临床信息拆成了两部分,分组信息还是可以从表达矩阵上面去分出来,proj仍然是可以自己写。
另外xena数据读取和整理我讲过了,有现成的代码可以参考哈。保存rdata的操作就一个函数,因为前面基础已经讲的非常详细,我默认大家是会的了。
类似这种单基因的分组信息如何 提取?视频里好像也没讲?
可以手动啊,有一个包,tableone也可以。如果你吸收了基础课的话,就应该知道,有一个ifelse的函数,可以帮你实现一个基因根据表达量进行分组。
老师 咱们的课程是从公共数据库下载数据。如果有自己的靶向多基因测序数据,前期的数据处理 是不是也有相应课程?
靶向测序,需要从fastq开始处理,隔壁班有讲,需要Linux服务器处理。你可以在b站搜索生信技能树肿瘤外显子视频教程,和你靶向测序数据的处理思路类似
老师请问下,我分析的这个GSE文件,PCA分析对照组有个跑到实验组了。另外三个包差异分析时,limma和其他两个差别太大了。这种情况一般是放弃这种数据集,还是取DESeq2和edgeR两个的交集比较靠谱?
这个问题,去掉一个样本,就剩下两个了,可能还会画篇幅去解释为什么只有两个样本,所以,归根结底是因为数据量太少了,最好换一个数据集。
这三个图都是一个函数draw_heatmap画的,为啥第三个没有边框,前两个都有。
基因多了就没有边框了,因为图的大小有限,加边框就只剩下边框的黑色。
老师、大佬们求问:我选取不同GSE里的一部分内容,我应该先拼接再注释,还是先注释再分组呀?
你得看看是不是同一个平台,如果是不同平台的话,那你只能先注释,然后再拼接,再去除批次效应。如果是同一个平台的话,那就无所谓,先合并到一起还是先注释,都没有任何关系。所以,不是只看GSE的,你要看GPL它到底是不是一样的。
如何查看向量里的空格?
有一个函数trim,试一下
老师,GSEA的结果图中:横坐标的数值是指第几个基因的意思对吗 然后色带的话是logfc值从大到小排列对吗?
对
老师,我想问一下,走课程给的单细胞的标准流程这里报了个错,不知道该怎么解决?
如果什么都没改,因为运行顺序动了,就报错,那你就把数据都删了重新运行就得了,改了什么报错了,那你就改回去,小事。
老师请问下,我在用%in%时,明明有一样的,不知道为什么出来全部都是false
空格,trims函数
各位老师,网络问题有什么好办法吗?我也修改了不同的镜像站,还是下不了,以后如果没有本地文件怎么办?
直接网页浏览器下载看看,搞不定的话,我给你我的网盘备份。
各位老师,运行limma包的时候报错,DESeq2包运行没有问题
盲猜是你运行顺序错了,漏掉了一些代码,记住我说的话 你只负责检查输入数据就够了。
请问老师,为什么批量化读取XML文件的时候会报错?单独读取一个文件夹里面的XML正常?
因为有些文件包里面的列数不一致,所以不能合并,解决方法如下:https://mp.weixin.qq.com/s/VyRiNkoa2ChKNf4xd3fHTA
小洁老师,我想问一下在用pheatmap画heatmap的时候,我想让-0.58到0.58这个范围的数值颜色为灰色,我找不到你在哪个视频里了
查看帮助文档,每个图的颜色修改都有参数 研究一下
老师,我搞懂了怎么设置了,用break 参数
老师 如果有VCF文件,是不是需要转换成MAF格式才能用R语言进行后续可视化分析?
maf 格式比较友好一点,一般是需要的。除非你的R语言非常厉害,就可以试试用 vcf
转换需要使用linux么?
https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzUzMTEwODk0Ng==&scene=1&album_id=1355546013611900930#wechat_redirect 把这个系列看完,对你会很有帮助,看完不懂再提问
小洁老师, TCGA1后面的练习题GSE162550的代码有上传吗?我找了好久没找到呢,谢谢
搜聊天记录就好
小洁老师,你的这个视频里面这个部分内容我没大听懂,这个KM-PLOT到底是关于那个基因做的生存分析呢?
仔细看代码,age_group
还有就是这个地方,单个基因这里,怎么挑选具体的一个基因来作图呢?
g = "你关心的基因"即可,要注意运行代码,并且理解代码健的逻辑哦
老师 想问一下 多张芯片各自的处理组和各自的模型组比 再取交集 是不是错误的呀[捂脸]因为芯片不是同一个平台 就没有先整合 昨晚才想起来漏了一步
取差异基因的交集没关系啊,跟芯片平台无关
在看b站卖萌哥的Linux基础和曾老师的这样学Linux。我是不是应该找一个服务器边练习 边学习?
是的,不知道这个活动还有没有 https://cloud.tencent.com/act/new?from=618go2021
已经看到创建文件内容,但是没想通为什么要下载terminus 直接使用terminal不行吗?[捂脸]
可以的
老师 我后期想处理自己靶向测序的fq文件,有50对样本,买99元这款,VCF转MAF够用么?
VCF转MAF你自己笔记本就足够了哦,或者你直接找公司给你maf,然后,你只需要学一个包,maftools即可。https://www.yuque.com/docs/share/601bc7c5-c6d5-4836-a762-53158e3a4107 你看看我另外一个学徒的笔记
前列腺癌的maf文件,可视化maf文件下载地址http://www.cpgea.com/datas/MAF/maftools 官方学习网址:https://www.bioconductor.org/packages/release/bioc/vignettes/maftools/inst/doc/maftools.htmlmaftools 最近更新于2021-05-19,这里是根据更新版后调整的~
老师,我在下载geo芯片数据食遇到了这个问题,我在网上找不到相关答案,请问怎么解决呢
你的这个数据集有问题,试试重新下载这个文件,用代码下载不了,就去GEO数据库下载保存到工作目录。
老师您好 我在复现这篇文章的代码的时候https://mp.weixin.qq.com/s/LonwdDhDn8iFUfxqSJ2Wew 报错circle_dat不存在 我又反复去看文章代码确实没有circle_dat 卡在最后两步上了[裂开] 能麻烦您看一下是啥问题吗?
这是一个函数,你查一下来自于哪个包,如果是自定义的函数,就没办法了
老师 这个更改命令行配色代码 能分享一下么?我想复制黏贴[捂脸]
echo 'export PS1="\[\033]2;\h:\u \w\007\033[33;1m\]\u \033[35;1m\t\033[0m \[\033[36;1m\]\w\[\033[0m]\n\[\e[32;1m\]$ \[\e[0m\]"' >> ~/.bashrc
source ~/.bashrc
老师 我有个问题想请教一下 我做差异分析的时候发现:先用表达矩阵做差异分析 然后在进行探针去重复和先用探针去重复 然后做差异分析,发现P value LogFC等数值都是不同的。请教一下这两种方法都可以吗?还是我算错了[捂脸]
两种方法都可用,可以是先id转换,换成基因名再做差异分析,也可以是先做差异分析,再id转换。光是探针去重方式就有三种
dat['ACTB',] dat['GAPDH',]务必看看 管家 基因的表达量是否是高表达,如果不是,说明你们的基因探针转换有问题
老师您好!我想请问一下我这个match_exp_cl他为啥说我的exp和cl不匹配啊,这个函数具体有什么作用呢,怎么样的数据才能匹配啊?
比较你的数据和示例数据的差别
这个函数是我写的,你看到的报错也是我提示的,但是我怕你在不知道任何这个函数是做什么的情况下就在使用,然后导致我给他设置的功能和你的想法并不一致,所以你可以看看你的数据和我提供的示例数据之间有什么区别。函数中,有一个if语句在,你把那个条件单独拎出来,看看它到底是哪里不符合条件。
关于如何看函数内部的代码,就是光写函数的名字而不写它的括号,就可以看到内部的构造了
找找这个报错是什么条件触发的,你就知道了。
老师请问我这个低表达组的生存曲线中间有断点是怎么回事啊,不是连续的曲线
放大就好了
老师 出现这个报错是什么意思呢
网络问题
小洁老师,我现在手上有KEGG的metabolic pathway中的基因1600个,我是不是把这1600个基因和我从TCGA上下载来的数据(已经过差异计算,获得logFC,加了ENTREZID列)取个交集,再放入GESA的代码中分析,是不是就可以得出我的TCGA的数据主要富集在哪个metabolic pathway上了?
GSEA输入数据是全部的基因,不可以筛选,你只能拿全部基因做GSEA,然后找找p<0.05的通路有没有你要的。
老师我想问个问题 就是我从GEO数据库下载芯片全转录组数据 我怎么区分这里面那些是mRNA miRNA LncRNA 就像视网膜那篇文献 里面包括LncRNA 是怎么看出来选出来的呢[捂脸]
借助AnnoProbe包里面的gtf文件信息来区分 mRNA和lncRNA,需要把区分 mRNA和lncRNA拆分成为两个表达量矩阵,方便后续进行相关性计算。
library(AnnoProbe) gs=annoGene(rownames(ensembl_matrix),'ENSEMBL','human') head(gs)
tail(sort(table(gs$biotypes)))
老师我是想做完差异分析在把LncRNA mRNA分开,但是lncRNA有413个 但是我从deg里提取后却只有410个 ,mRNA有17088个 提取后却只有17058个想请教一下老师是我的代码有问题吗?
少了的那些基因是因为去重被去掉了吧?去检查以下哦
老师,我想问如果我想用annoprobe自主注释的话,会出现symbol不同实际是同个基因的情况吗
不会
这个代码是将ensembl_matrix的编辑蛋白基因和非蛋白编辑基因区分并提取,但是我用inner_join以symbol为中介分别将两个矩阵连接起来,结果是不一样的,后者要比前者多
%in%以前面的数据为主,前面的数据有多少个元素返回,结果就多少个元素。而inner join两个表都考虑,不分主次,所以结果有差异很正常。
老师,如果是用不同方法注释基因(比如r包、平台等),会出现同个基因在这种注释是一个名字,在另一种注释又是另一个名字的情况吗?因为像lncRNA这种是没有统一命名的
嗯嗯,没有统一的名字,比较混乱,没办法。还有就是,自己的细分领域需要利用自己研究清楚,没有统一的答案。
老师们 想问一下我在做ceRNA的时候出现这个报错 想请教一下如何解决啊?
可能是数据类型的问题,用str class查看一下data
没有基因名字,就删除吧
老师 我想问一下 之前上课的时候有讲 想在火山图上加标签是可以用这句代码的 但我现在加了这句代码火山图上还是没有标签呀 是不是因为上课是用二分组但是我这组数据是三分组的原因呀?
嗯,有可能,最好是先去理解这个代码,在理解的基础上面,修改它。
各位老师,我这个symbol到ENTERZID的匹配,说是有41.62%没有匹配上,是不是太多了啊?
Id转换会有损失是正常的,可以继续分析。或者有可能是因为数据库版本不对,如果你能成功对应10%就说明已经很正确。因为ID一直在更新进化,gtf版本也有影响。
各位老师,用小洁老师给的代码读phenotype文件的时候,只有两百多行,但是实际上有五百多行,是哪里需要修改下嘛?
试一试data.table包的 fread函数
老师,我这个WGCNA聚类后module colors显示的颜色好少,但是算出来的modle有21个,这是什么问题啊?
不要是用全部的基因来算wgcna,挑选top5000。
老师好,我这进行TCGA差异分析这一步,提示了这个错误。刚刚library了RCPP也没显示报错,请问老师这个该怎么解决?
可能是R包版本升级了,你搜索一下前面这个报错函数
求助有无用smart-seq2分析单细胞的友友呀,为什么有的人用smart-seq2能够捕获到线粒体基因的表达,有的人捕获不到呢
老师们好,我在进行GEO数据挖掘到ID注释这里的时候,没有找到gene symbol,那这个GB-LIST是我们需要的东西吗,可以把他直接当成gene symbol来对待吗?
GB-LIST 可以转变啊,我们写过教程。搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查询,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg。
老师好!我按照这里的源代码改了GPL号之后出现了这网络的报错https://mp.weixin.qq.com/s/vmna5DrqGDs4yXeUZgbZfg
打开上面那个链接就是这个文件的内容,你把网页复制粘贴到一个文件里面
我用limma做差异表达分析的时候,设置比对分组,报了一个错,提示命名不符合语法,请问这个地方怎么改?我需要调整分组信息文件吗?
命名里面不要有-
还有一个问题,老师上课讲例子是一个处理组,一个对照组,而我的数据是三个不同的处理组,一个对照组,做差异表达分析的话,要把这个比对的流程走3遍吗?还是可以一次就完成?
两两比较做差异分析,用咱们上课的代码
老师好,为啥我按照小结老师给的代码,最后得到的只有这个稳定的基因,没有见到上调和下调的基因
阈值需要自己调整的
新的问题是,进行ID转化的时候,老师上课示例数据是人的基因,我的样本是小鼠的基因,这里的数据库参数怎么设置呢?到哪里可以查到不同物种的名称的参数信息呢?
bioconductor官网就有
请问tinyarray 包 是不能用了吗
install.packages("https://cran.rproject.org/src/contrib/Archive/rvcheck/rvcheck_0.1.8.tar.gz",type = 'source',repos = NULL)
还是不行
重启Rstudio
老师们,为什么下载的gse rowname没了,我改成Null读出来只有两列的乱码
按上课讲的方法读取 getGEO
我想把差异比较大的基因在火山图上标注出来,现在这个字太大了,背景也不透明,对主体火山图遮挡太多,参数该怎么改呢?
请问各位大神,富集分析时,p值阈值,q值阈值,设定一般都是0.05,还有没有其他合适的设定?能更多的富集到结果?常用阈值设置有哪些?
老师好,我做富集分析的时候出现了这个报错,我查了下大概是因为系统给分配的内存不够,于是搜了一下公众号好像还没找到解决的方法,请问老师们这个应该怎么解决
memory.limit()
之前就看到过这篇文章里总结单细胞RNA工具的网站(https://www.scrna-tools.org/),总结的特别全,像一个应用商店,特别宝藏
单细胞天地文献速递
单细胞Seurat4.0 官方文档翻译稿
OSCA单细胞数据分析笔记
Harvard Chan Bioinformatics Core系列
老师们好,小洁老师这底部代码的kegg_plot这个函数请问出自哪个包啊?
这是自己写的函数,搜索我们生信技能树公众号历史教程
这个问题哪个大神遇到过啊,调整画板什么的没有,我把窗口拉大了还是出不来
把窗口最大化,再拉大,实在不行,pdf保存
请问跑time-roc的时候出来这个报错要咋修改呀
向量的长度不一样
想请教一下,tinyarray::draw_boxplot,对三组数据的,两两显示差异分析 应该怎么做呀?
自己写函数
老师们好,这种情况是因为NA这个值导致的吗,该怎么解决呢
一般来说,删掉na,用 na.omit
老师们好,我想请问下这个gene set 以下类似二维码的表现形式,这里的基因是已经排好降序的,还是这些基因本来就在这个位置上
最底部灰色的条带是排好降序的,但是中间的就是在底部排序后,出现的
请问老师,重新安装了rjava还是出现这个报错该怎么处理
需要设置环境变量,提示信息 JAVA_HOME,比较麻烦,建议放弃,同样功能的R包还有很多
就是想把数据框导出为excel表格或者csv格式,请问老师我应该用哪个包呢?
忘了?write.csv
老师们好,如果我想看下GSEA指定的某条通路的话只能用GSEA的软件吗?
clusterprofiler也能做gsea,你选一个基因集或者把GSEA官方的基因集一次性全跑了
可以输出一个结果文件,然后用gseaplot2函数可视化一下你想看的通路就可以了
可以查看GSEA()的结果 @result$ID ,然后gseaplot2作图的时候制定对应ID序号就可以
打扰各位老师了,咨询个小问题,困扰我好久了[苦涩] 在TCGA上下载的数据我要做和m6a基因相关的基因的差异分析,方案一:对整个数据做差异分析,再从差异的结果中找出和m6a基因相关的基因。方案二:先找到和m6a基因相关的基因再对这些基因做差异分析。哪种方案是对的呢。谢谢
都可以,但是方案二常规一点
更多答疑精选问题,都在腾讯文档哦,请移步!
https://mp.weixin.qq.com/s/0iN0OOxOgcp-33_g_SVqLw