Open DawnEve opened 7 years ago
N50/N90,拼接到一半时scafold的长度。 把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是1G基因组的500k的时候 ,那一条contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50.很明显这个数值越大说明组装的质量越好.
BACs, Fosmids。保持很好的共线性,说明拼接的很好。
Assembly Validation by cDNA dataset.
使用经典软件的优势是不用过多解释方法: broadinstitute
都用新软件则风险很大。方法review可能需要花很多时间。
最近institute发布了新分析流程。??//todo
end14:07
1.数据库repeatMasker(reference)只能识别已知重复; 2.repeatModeler(de novo)能识别未知重复。
end14:12
怎么挖掘 genome SSR marker ?
大片段扩增和基因重复:Lastz、Nucmer软件,进化分析分析。
trinity不好,但是无参拼接没有更好的了。所以尽量使用长reads。公司拼接可能去掉200bp以下的短reads,这样碎片少一点。
half de novo 就是使用近缘物种genome作为refer,拼接新物种。
protein map to genome: Spaln
PASA 真核生物基因组注释工具,用于refine。
end14:30
(部分基于预测的?因为有些不表达)
没有近缘株,只用blast nr注释肯定不行。
需要做domain、motif分析。[P11,3]
基因组比较:
基因组也必须做KEGG分析:
软件:多是一代测序时代的产物。
end14:44
1.https://github.com/trinityrnaseq/RNASeq_Trinity_Tuxedo_Workshop/wiki
2.Tuxedo Genome Guided Transcriptome Assembly Workshop
3.RNA测序2个方向:真核转录组、RNA病毒测序。
4.一代、芯片关注:有polyA尾巴的RNA。 相当数量lncRNA也有polyA,不编码蛋白。
二代可以关注repeat、假基因等。
ENCODE 计划:针对人和小鼠,完善基因组注释。https://www.encodeproject.org/data/annotations/
2008-09芯片、NGS较量厉害的2年。
需要3个生物学重复,不需要技术重复。
不要做等分取样???//todo
如果分析低丰度转录本,则加大数据量。
mRNA内标的问题。
SAGE:1994-1995出来的技术。
rRNA删除:
适用性
lincRNA 功能很难验证。不编码蛋白,选择压力小。水稻xx基因,小麦的xx基因再做已经没有新意了,但是做lincRNA就很有新意,但实验难度并没有增加。
镇住销售的名词:核糖体去除 链特异的RNAseq。
web分析系统:http://waprna.big.ac.cn/
[P48]
lab5a 使用fastX Toolkit对数据进行清洗。[P74]
Fastq_to_fasta -h
user120@ipags002:~/my_projects/lab5a_fastxtoolkit$ fastq_quality_filter -h
usage: fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]
Part of FASTX Toolkit 0.0.13 by A. Gordon (gordon@cshl.edu)
[-h] = This helpful help screen.
[-q N] = Minimum quality score to keep.
[-p N] = Minimum percent of bases that must have [-q] quality.
[-z] = Compress output with GZIP.
[-i INFILE] = FASTA/Q input file. default is STDIN.
[-o OUTFILE] = FASTA/Q output file. default is STDOUT.
[-v] = Verbose - report number of sequences.
If [-o] is specified, report will be printed to STDOUT.
If [-o] is not specified (and output goes to STDOUT),
report will be printed to STDERR.
user120@ipags002:~/my_projects/lab5a_fastxtoolkit$
#数据过滤
$ fastq_quality_filter -q 30 -p 100 -i test_1.fq -o test_1_filter.fq -Q 33
$ fastq_quality_filter -q 30 -p 100 -i test_2.fq -o test_2_filter.fq -Q 33
#去掉前10个碱基
$ fastx_trimmer -f 11 -i test_1_filter.fq -o test_1_quality_filter_trimmed.fq
$ fastx_trimmer -f 11 -i test_2_filter.fq -o test_2_quality_filter_trimmed.fq
#将序列小于50的序列去除
$ fastx_clipper -l 50 -i test_1_quality_filter_trimmed.fq -o test_1_quality_filter_trimmed_clipper.fq
$ fastx_clipper -l 50 -i test_2_quality_filter_trimmed.fq -o test_2_quality_filter_trimmed_clipper.fq
# 数据格式转换
#fastq2fasta格式
$ fastq_to_fasta -i test_1.fq -o test_1.fasta
#fasta2tabulated格式
$ fasta_formatter -t -i test_1.fasta -o test_1_tabulated.txt
$ fastqc test_1_quality_filter_trimmed_clipper.fq
下载到本地,用浏览器查看fastqc结果,看数据清洗后数据质量是否提高了。
Col Field Type Regexp/Range Brief description
1 QNAME String [!-?A-~]{1,254} Query template NAME
2 FLAG Int [0,216-1] bitwise FLAG
3 RNAME String \*|[!-()+-<>-~][!-~]* Reference sequence NAME
4 POS Int [0,231-1] 1-based leftmost mapping POSition
5 MAPQ Int [0,28
-1] MAPping Quality
6 CIGAR String \*|([0-9]+[MIDNSHPX=])+ CIGAR string
7 RNEXT String \*|=|[!-()+-<>-~][!-~]* Ref. name of the mate/next read
8 PNEXT Int [0,231-1] Position of the mate/next read
9 TLEN Int [-231+1,231-1] observed Template LENgth
10 SEQ String \*|[A-Za-z=.]+ segment SEQuence
11 QUAL String [!-~]+ ASCII of Phred-scaled base QUALity+33
实验5b内容:使用bowtie2+sam tools +Bamview进行mapping、修改和查看。[]
lab5b:map到reference上
1.建立索引
$bowtie2-build ../../../datamart/sample_data/lab5b_ref.fa lab5b_ref
2.单端比对
$ bowtie2 -x lab5b_ref -U ../../../datamart/sample_data/lab5b_reads_1.fq -S eg1.sam
10000 reads; of these:
10000 (100.00%) were unpaired; of these:
596 (5.96%) aligned 0 times
9404 (94.04%) aligned exactly 1 time
0 (0.00%) aligned >1 times
94.04% overall alignment rate
user120@ipags002:~/my_projects/lab5b_bowtie2$
3.双端比对
$ bowtie2 -x lab5b_ref -1 ../../../datamart/sample_data/lab5b_reads_1.fq -2 ../../../datamart/sample_data/lab5b_reads_2.fq -S eg2.sam
10000 reads; of these:
10000 (100.00%) were paired; of these:
834 (8.34%) aligned concordantly 0 times
9166 (91.66%) aligned concordantly exactly 1 time
0 (0.00%) aligned concordantly >1 times
----
834 pairs aligned concordantly 0 times; of these:
42 (5.04%) aligned discordantly 1 time
----
792 pairs aligned 0 times concordantly or discordantly; of these:
1584 mates make up the pairs; of these:
1005 (63.45%) aligned 0 times
579 (36.55%) aligned exactly 1 time
0 (0.00%) aligned >1 times
94.97% overall alignment rate
4.使用本地比对选项。
$ bowtie2 --local -x lab5b_ref -U ../../../datamart/sample_data/longreads.fq -S eg3.sam
6000 reads; of these:
6000 (100.00%) were unpaired; of these:
157 (2.62%) aligned 0 times
5634 (93.90%) aligned exactly 1 time
209 (3.48%) aligned >1 times
97.38% overall alignment rate
5.sam2bam
$ samtools view -bS eg2.sam > eg2.bam
6.bam排序
samtools sort eg2.bam eg2.sorted
7.为排序过的bam建lindex
samtools index eg2.sorted.bam
8.查看比对结果
mkdir eg2
cp ../../../datamart/sample_data/lab5b_ref.fa eg2.ref.fa
cp eg2.ref.fa eg2.sorted.bam eg2.sorted.bam.bai eg2
下载eg2文加夹。
打开bamview文件,输入bam文件和eg2.ref.fa查看比对结果。
Bamview接收输入bam文件,可选输入reference。
更好的是使用IGV可视化。
refer links: http://www.htslib.org/doc/
0 ##gff-version 3.2.1
1 ##sequence-region ctg123 1 1497228
2 ctg123 . gene 1000 9000 . + . ID=gene00001;Name=EDEN
3 ctg123 . TF_binding_site 1000 1012 . + . ID=tfbs00001;Parent=gene00001
4 ctg123 . mRNA 1050 9000 . + . ID=mRNA00001;Parent=gene00001;Name=EDEN.1
5 ctg123 . mRNA 1050 9000 . + . ID=mRNA00002;Parent=gene00001;Name=EDEN.2
6 ctg123 . mRNA 1300 9000 . + . ID=mRNA00003;Parent=gene00001;Name=EDEN.3
7 ctg123 . exon 1300 1500 . + . ID=exon00001;Parent=mRNA00003
8 ctg123 . exon 1050 1500 . + . ID=exon00002;Parent=mRNA00001,mRNA00002
9 ctg123 . exon 3000 3902 . + . ID=exon00003;Parent=mRNA00001,mRNA00003
10 ctg123 . exon 5000 5500 . + . ID=exon00004;Parent=mRNA00001,mRNA00002,mRNA00003
11 ctg123 . exon 7000 9000 . + . ID=exon00005;Parent=mRNA00001,mRNA00002,mRNA00003
12 ctg123 . CDS 1201 1500 . + 0 ID=cds00001;Parent=mRNA00001;Name=edenprotein.1
13 ctg123 . CDS 3000 3902 . + 0 ID=cds00001;Parent=mRNA00001;Name=edenprotein.1
能从gff文件看出复杂的基因结构的注释信息:
DE 分析方法。
不同condition的mean sv 画分布图。
modeling the distribution of count.
基因定量的3种方法。
考虑的其他因素
数据分析软件
lab6 有参RNAseq分析
1.建立索引
$ bowtie2-build genome.fa genome
2.tophat 做mapping
$ tophat -p 4 -G genes.gtf -o C1_R1_thout genome 4k_READS_sample/C1_R1_1.fq 4k_READS_sample/C1_R1_2.fq
$ tophat -p 4 -G genes.gtf -o C1_R2_thout genome 4k_READS_sample/C1_R2_1.fq 4k_READS_sample/C1_R2_2.fq
$ tophat -p 4 -G genes.gtf -o C2_R1_thout genome 4k_READS_sample/C2_R1_1.fq 4k_READS_sample/C2_R1_2.fq
$ tophat -p 4 -G genes.gtf -o C2_R2_thout genome 4k_READS_sample/C2_R2_1.fq 4k_READS_sample/C2_R2_2.fq
生成bam文件。最重要的是accepted_hits.bam文件,在cufflinks和cuffdiff都会用到。
3.组装基因和转录组
$ cufflinks -p 4 -o C1_R1_clout C1_R1_thout/accepted_hits.bam
$ cufflinks -p 4 -o C1_R2_clout C1_R2_thout/accepted_hits.bam
$ cufflinks -p 4 -o C2_R1_clout C2_R1_thout/accepted_hits.bam
$ cufflinks -p 4 -o C2_R2_clout C2_R2_thout/accepted_hits.bam
生成gtf文件,transcripts.gtf。
会有基因定量,gene.tracking,isoxx.tracking文件。
echo "./C1_R1_clout/transcripts.gtf" > assemblies.txt
echo "./C1_R2_clout/transcripts.gtf" >> assemblies.txt
echo "./C2_R1_clout/transcripts.gtf" >> assemblies.txt
echo "./C2_R2_clout/transcripts.gtf" >> assemblies.txt
4.创建单个的转录注释文件
cuffmerge -g genes.gtf -s genome.fa -p 4 assemblies.txt
5. 识别差异表达基因和转录本
cuffdiff -o diff_out -b genome.fa -p 4 -L C1,C2 -u merged_asm/merged.gtf ./C1_R1_thout/accepted_hits.bam,./C1_R2_thout/accepted_hits.bam ./C2_R1_thout/accepted_hits.bam,./C2_R2_thout/accepted_hits.bam
注意2个条件之间要有空格,条件内部是没有空格的逗号。
exp.diff是最重要的文件。
http://bioinfo.cipf.es/babelomicstutorial/maplot
MA图用于研究2个变量的log比值,和这两个变量的的均值的依赖性。
Y轴是M值(log尺度的minus)是2个变量的log比值。
X轴是A值,2个参数的平均值(log尺度的average)。
X: logCounts
Y: logFc.
应该是一条线??
trinity(三位一体) software
运行trinity的硬件:512G-1T内存。
trinity: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3571712/
https://github.com/trinityrnaseq/trinityrnaseq/wiki
$ ssh user120@123.57.214.96
961251
视频链接在ppt中。 QQ群: 554135121
2000 fly
WGS
生物学意义 biology of genome
疾病 biology of disease
制药 medicine
个性化医疗 healthcare
Nextera:打断DNA。
为什么Illunima测序不是很长?
PE测序顺序:read1,index1,reverse,index2,PCR, read2.
mate pair 和pair end的区别?
三代测序比较成熟的pacBio和nanoPore
pacBio的single molecule seq的2项技术:
nanoPore的
chown UID:GID files chmod o+w file.txt #other组增加write权限
grep split swk
find
date ls -la
nano emacs vi
su suer passwd top top -u user history ps ps -ef 显示所有账号的进程详细列表 kill -9 pid
< 导入符号 到文件 | 管道符号,输出作为下一步的输入
重定向 & 后台处理
ubuntu 使用apt-get red hat使用 yum
tar -xzvf xx.tar.gz ./configure make (sudo) make install make clean
1.注意大小写
end8:34
http://yanshouyu.blog.163.com/ http://yanshouyu.blog.163.com/blog/static/214283182201302835744453/
http://cbsu.tc.cornell.edu/lab/doc/RNASeq_workshop_2013_part2.pdf
--
通过表达量FC,p-value,得到DE gene list。
GO & KEGG。
trinotate 转录本功能注释
转录组基因注释
lab8a
lab8b
Cluster of Adjacent and Similarly Expressed Genes(CASEG)
GO一级分类3个
数据预处理 log之后可能就正态分布了。
富集分析也是很复杂的领域,剩下的不过:DAVID等。
class I: singular enrichment Analysis仅仅考虑p值。
class II:考虑基因的FC和p-value。GSEA。
class III:还要考虑DE gene之间的关系。wgcna。
Gene命名产生了GO,后来GO越来越复杂了。Gene Oncology.
GO enrichment analysis
map gene 到Goterm ,blast2GO
GO 画图。
蛋白互作网络PPI: string-db,
gene list analysis: GoSeq, KOBAS, DAVID[推荐].
非模式生物,不建议做GO分析,没有意义。
DAVID最早使用affimatrix的probe ID作为输入的,现在支持的输入越来越多了。
http://geneontology.org/page/go-enrichment-analysis
--
2017.3.24 上午
==================== 基因组 2017.3.24
1.什么样的物种适合全基因组测序? 能被高引用的,才可能高分文章。 天山雪莲,从稀有、中药角度,老外估计不喜欢。 如果有天山雪莲的体外培养系统,做成耐寒的模式生物,则有可能发高分。 end9:45
2.技术流、思路哪个重要? 几k的测序结果,就一个进化树,为什么发到CNS? 还没有自己的真菌分析复杂、透彻? 因为自己的真菌没人关注,而别人的传染病病毒则很多人关注。
比如SARS时,很多机构都很关注:知名实验室、制药公司、政府部门。 华大当时通过私人关系“偷”的菌株,测序的。
影响力由什么决定? 模式生物、病原性、经济性状、进化地位。决定于有多少读者群。
end9:51
3.课题设计很重要? 只有基因组可能不够,是静态的。 多层次:转录、表观、代谢。 只要是动态的,就涉及取样问题,要提前设计。
经济方向怎么解释?以前一直做雪莲药用的,次生代谢基础做得好。 但是读者可能不关注:做基因组测序前,同行调研。 抗逆,可能关注度排第一。 end10:00
4.基因组测序:二代+三代当前是主流。 很多物种测序过了,怎么发掘新的模式生物? 已测序物种:https://www.ncbi.nlm.nih.gov/guide/genomes-maps/ 当该生物在进化树分支上、小分支上首发时,paper至少一半要分析进化。 进化的魅力:所有结论都是推论。无法证伪。
如果有材料、没idea,销售一般推销什么?自己公司擅长的,而不是该材料最适合的。 所以设计很重要。 end10:14
5.组学文章3大块:测序、关键遗传性状、比较基因组学分析。
1)half de novo 测序:近亲物种测序过了,该物种可能只有SNP、SV等少量差异。 2)重测序适用于:该物种测序过了, 2013橡胶基因组很碎,剩8000个scaffold。再做时,不能不管第一个报道,剩下2000个scaffold。 3)population测序:第一株高精度de novo,其他做resequnce,和第一株比对。
组学文章最忌讳:一篇文章什么都讲 = 什么都没讲。 《我的一天》作文不能使流水账,必须详细写一件事。 要讲最吸引人的部分,1-2个经济性状。结合转录组、代谢组,动态分析。 韩国辣椒基因组,转录组中辣与不辣落到一个基因上。 end10:20
6.全基因组SSR都找出来了。意味着,后面育种都要引用了。 SSR(Simple Sequence Repeats)标记是近年来发展起来的一种以特异引物PCR为基础的分子标记技术,也称为微卫星DNA(MicrosatelliteDNA),是一类由几个核苷酸(一般为1~6个)为重复单位组成的长达几十个核苷酸的串联重复序列。由于每个SSR两侧的序列一般是相对保守的单拷贝序列。
1)如果基因组碎片多,别做大进化分析,别和其他物种做比对。 共线性 不等于 同源。 碎片多,从生物学意义入手:xx基因重要,xx基因家族重要。
2)如果拼接的好,要和水稻12条染色体比对,拟南芥比对,凸显全基因组拼接的好。 基因家族拷贝、收缩。
测序低价都是有原因的。 end10:35
7.怎么学生信? 跟着一个完整项目。 要及时问公司要文档、参数,防止人员离职。
end10:45
==================== 转录组 2017.3.24
8.转录组是必须做!有取样问题,安排时间。 de novo要三套转录组:
end11:13
9.转录组需要精心设计。 调控网络:表观。
end11:16
10.平台选择:3+2长短结合方式,仅二代也要长短结合。 细菌:必须上三代,而用二代很难成环。补漏洞时间很长,一年-四年! 三代没有PCR,没有GC偏差。 缺点是,错误率高polyA、polyT。用二代补救。 真菌:同上。
end11:27
11.怎么制定基因组测序方案? 1)花2-3万先测基因组大小???Genome Survey. 20x-50xPE,200bp-400bp的小库,不要500bp的大库。 jellyfish软件可以画一个kmer分布图。 kmer是统计概念。 意味着:100bp read有多少17kmer?1-17,2-18,3-19(100-17+1个kmer) x:某个kmer出现的次数。 y: 评估genome survey的方法。 峰值/ =基因组大小。
1.2)昆虫、藻类一般都是杂合子。 种群越大、寿命越短,则杂合度越多。
杂合度高的短reads,很难拼接!比重复序列还难。 杂合的,数据量上升,400bp contig不会再长了。 多倍体也很难。例:六倍体小麦异源杂合。
放大镜才能看到的昆虫,口腔、肠道、体表不可避免基因组污染。 测序结果和所有已知基因组(植物、微生物)比对,去掉后再看kmer图。 如果还有低频区域杂峰,说明还有基因组污染(未知微生物基因组)。
主峰:不是单峰,是杂合。 x轴很长,说明基因组内有很多重复序列。 x轴很长,y坐标又很大,则说明更难。
苹果的杂合度太高,只能选相对杂合度低的。虽然不是种植最广泛的品种。 kmer没有峰怎么办?测序量不够。
2)物理图谱:BioNano 等确定序列。 做好数据指控。QC对后续假阳、假阴影响很大。 一般建议,精准医学要用最严格的QC,宁可丢一半序列,也要只接收最高质量的数据。 基因组拼接:(Genome res.2010 Feb;20(s):265-72)
3)如果有种植资源,可以做genotyping by sequencing,GBS,构建遗传连锁群。不建议选遗传关系特别近的亲本。 4)确定连锁群在一号染色体,只能用FISH定位到染色体。