Open Ming-Lian opened 5 years ago
沙发!
提问阶段感想:
基因组注释可能有各种问题,要自己搞
1、samtools和GATK的算法不一样 samtools和GATK的区别回头要学一下 2、非模式生物用samtools 3、WGS建议20X以上,WES建议100X以上
从头组装和参考组装 从头组装的两种方式:overlap和DBG图
三代测序与结构变异是未来值得关注的方向 二代测序call SV的原理: 将基因组分成多个区段,看每个区段的reads depth是不是有差异,如果某个区段变异特别大,则很有可能有点SV。 注:三代建议先拼接再找结构变异
duplicates的建议: RNA-seq不去,基因组测序要去
几个变异注释软件: InterVar/ANNOVAR/Phenolyzer
每步都有坑: 样本质控、SNP质控、批次效应校正、多重检验校正
GWAS是高覆盖度的少样本好,还是低覆盖度的多样本好?结论:低覆盖度的多样本好,可以使用贝叶斯等方法进行校正
与芯片比:不需要先验知识 样本量:mRNA至少6G,lncRNA至少12G,生物学至少3个 现在新的流程:STAR+RESM因为一些大的组织用的比较多 样本间的比对强烈建议TPM
核心:将生物学的问题转换成图像问题 特点:数据驱动
关于 VCF 文件中 GT 的 phasing 的问题,phased 之后同一边的 allele 一定来自同一个亲本吗?还是存在 contig 或者 haplotype 的情况在里面?
分享一下直播中讨论的PCR去重复的思考,简书——讨厌又迷人的reads去重复
最近正好在做gwas方面的东西,把最近一点总结作为本次的一个思考,可能有点离题https://www.jianshu.com/p/aeb965dc765e
这次分享干货满满,伊老师所讲的关于测序的原理以及Blast算法相关的内容都十分有用。
二代
高通量测序中PCR扩增偏向性问题
三代
单分子,nanopore,不用扩增,奶茶,通过atcg的大小不同,可以从电流量感知出atcg。
SMRT-Seq 单分子,合成酶固定在小孔,每个碱基进来合成,发光不一样。碱基如果有修饰,时间不一样。
测序精度不高,错误率比较高。
所以二代,三代互补。前两天有篇文章,三代的测序精度大大提高了。Helicos公司的Heliscope单分子测序仪、Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术,被认为是第三代测序技术。
历史的惯性导致会并行一段时间。二代积累的数据很多。
用数字表示几种情况的信息,chmod777读写执行
hg19 B37不太一样,基因的坐标不一样
TG的坐标
处理的变异信息,差1bp是因为坐标用错了
0-based(half open:[3,5)):BED,BAM,PSL dbSNP,Table Browser给计算机看的
1-based(fully-closed:[4,5]):GFF,VDF,SAM,Wiggle,DAS,Genome Browser给人看的
gff人工注释
注释文件里,没有UTR,错了几个bp?
基于二代测序,做结构变异的准确率不如三代。
mismatch设置2,是种子区域周围20-30bp,一般设置10bp不能超过3个变异。
call SNP的2种方法:
samtools,后验概率,贝叶斯,李恒开发的算法。对非模式,非人的物种合适,MDOP把read从头到尾都一样的都去掉,早期pcr, 桥式pcr
GATK,mappping后的高变区,read拿出来再拼接。学术界,工业界的公认标准。好。要自己下载变异。有各种模型。
要deep learning代替VQSR
joint calling多个人合起来,把人群的信息考虑进去
做临床:外显子测序100X,WGS20,30X
~~~~~~Day2~~~~~~~~~
BWT
key: P is T的短序列substring,这样就能在O(1)很短的时间内,知道aP是不是在T内。
李恒minimap 2018
1kb-250Mbp
seed,chain,extend
李恒bwa2还没发文章
~~~~~~Day3~~~~~~~~~
组装
OLC: pairwise alignment between reads are detected and merged
de Bruijn graph: reads are decomposed into k-mers adn mergeed
CNV结构变异
NGS-based SV detection 基于read depth, paired reads, split reads, de novo assembly
read count-based SV detection,软件PennCNV flowchart,Annovar
三代用来拼接(没有先验知识,不会对结果误导),还是mapping比对
三代,滚环,一环一个pass,测序准确率低
做CNV的时候要PCR,检测read是要进行GC含量的矫正。GC含量过高过低,会影响检测量。一个DNA模板,测序的时候一不小心生成了临近的2个簇,PCR duplicate要去除这种。桥式PCR检测read的坐标信息,cigar值(插入缺失),碱基组成。做早期pcr的不好使
RNA-Seq不要去,转录本的copy很多。
基因组重测序要去
~~~~~~Day4~~~~~~~~~
SNP and sequencing based association
GWAS假设Hypothesis: common disorders are likely influenced by genetic variation that is also common in the population
FASTQC先进行质控,质控有很大的影响!garbage in garbage out!
样本,SNP,batch effect(多重检验矫正)
GWAS软件:PLINK
曼哈顿图p<5*10^-8
芯片过时, 现在多是基于NGS的GWAS,但是究竟是选择人多,还是测序深度大一点?
答案,测的人多3000,低覆盖度4X,基于贝叶斯,人群的信息,把没检测的位点拉回来,inpotation
华大NIPT,孕妇外周血,检测小孩的基因组
alignment,count normalization,seq bias
STAR+RSEM
不要用tophat!!!
FPKM双端,RPKM单端,只能样本内比较。一个基因除所以样本的基因,乘以10^6,换算成TPM。对基因exon的长度。
TPM每百万里面的转录本,都要到百分之的概念,除了样本内可以比较,也进行样本之间的比较。
CPM只换成了百分比,但是没有考虑基因长度的不一样。
ERCC bulk RNA-Seq, spike-in
时间序列,考虑趋势问题,只在某一个阶段有差异,后来又恢复,两两比较。
RNA cocktail,一个全面的,分析准确性高的RNA-seq分析流程,https://www.jianshu.com/p/3600a6ebdf56
~~~~~~Day5~~~~~~~~~
机器学习:先验知识
deep-learning:不需要先验知识高级的神经网络
RNN时间序列recurrent neural network
CNN模式识别
DeepVariant,把生物学问题pileup 转换成deep-learning擅长的pileup image
Poplin, nature biotechnology,2018
可以看每一节点擅长提取的pattern解读,可视化出来
feature对应到数学上收敛,局部最优,有生物学的意义,生物倾向于选择最高效
根据你设计的目标
这次关于kmer的分享让我知道还有三个峰,然后第一部分去复习了三个分布的成立条件和区别转化,收获很大,但是 突变概率那一部分没搞清楚是怎么先后验的
https://ming-lian.github.io/2019/08/19/Bioinfo-ML-Club-6th/