Ming-Lian / Gitment-repo

保存个人博客中的评论信息以及兴趣小组的相关材料
5 stars 0 forks source link

《生信与机器学习兴趣小组》第六次分享讨论贴 | Lianm's Blog #21

Open Ming-Lian opened 5 years ago

Ming-Lian commented 5 years ago

https://ming-lian.github.io/2019/08/19/Bioinfo-ML-Club-6th/

Hua-CM commented 5 years ago

沙发!

龙星课程分享

文件格式

  1. 2012-2013前的fastq数据一定要检查质量格式
  2. BED格式类似gff格式,是用于序列注释的
  3. SAM/BAM值得学习下flag值和CIGAR值
  4. 注意0base的坐标系统和1base的坐标系统(BED使用的是0,gff是1)

提问阶段感想:

基因组注释可能有各种问题,要自己搞

variant call

1、samtools和GATK的算法不一样 samtools和GATK的区别回头要学一下 2、非模式生物用samtools 3、WGS建议20X以上,WES建议100X以上

基因组组装

从头组装和参考组装 从头组装的两种方式:overlap和DBG图

结构变异

三代测序与结构变异是未来值得关注的方向 二代测序call SV的原理: 将基因组分成多个区段,看每个区段的reads depth是不是有差异,如果某个区段变异特别大,则很有可能有点SV。 注:三代建议先拼接再找结构变异

duplicates的建议: RNA-seq不去,基因组测序要去

几个变异注释软件: InterVar/ANNOVAR/Phenolyzer

关联分析

每步都有坑: 样本质控、SNP质控、批次效应校正、多重检验校正

GWAS是高覆盖度的少样本好,还是低覆盖度的多样本好?结论:低覆盖度的多样本好,可以使用贝叶斯等方法进行校正

RNA-seq

与芯片比:不需要先验知识 样本量:mRNA至少6G,lncRNA至少12G,生物学至少3个 现在新的流程:STAR+RESM因为一些大的组织用的比较多 样本间的比对强烈建议TPM

AI

核心:将生物学的问题转换成图像问题 特点:数据驱动

xyz1396 commented 5 years ago

分享一点git的使用经验

ChaoTang-SCU commented 5 years ago

关于 VCF 文件中 GT 的 phasing 的问题,phased 之后同一边的 allele 一定来自同一个亲本吗?还是存在 contig 或者 haplotype 的情况在里面?

ghost commented 5 years ago

分享一下直播中讨论的PCR去重复的思考,简书——讨厌又迷人的reads去重复

shengxinzhuan commented 5 years ago

最近正好在做gwas方面的东西,把最近一点总结作为本次的一个思考,可能有点离题https://www.jianshu.com/p/aeb965dc765e

12kyy123 commented 5 years ago

这次分享干货满满,伊老师所讲的关于测序的原理以及Blast算法相关的内容都十分有用。

zoe106 commented 5 years ago

二代
高通量测序中PCR扩增偏向性问题

三代
单分子,nanopore,不用扩增,奶茶,通过atcg的大小不同,可以从电流量感知出atcg。
SMRT-Seq 单分子,合成酶固定在小孔,每个碱基进来合成,发光不一样。碱基如果有修饰,时间不一样。
测序精度不高,错误率比较高。
所以二代,三代互补。前两天有篇文章,三代的测序精度大大提高了。Helicos公司的Heliscope单分子测序仪、Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术,被认为是第三代测序技术。
历史的惯性导致会并行一段时间。二代积累的数据很多。

用数字表示几种情况的信息,chmod777读写执行
hg19 B37不太一样,基因的坐标不一样

TG的坐标
处理的变异信息,差1bp是因为坐标用错了
0-based(half open:[3,5)):BED,BAM,PSL dbSNP,Table Browser给计算机看的
1-based(fully-closed:[4,5]):GFF,VDF,SAM,Wiggle,DAS,Genome Browser给人看的

gff人工注释
注释文件里,没有UTR,错了几个bp?

基于二代测序,做结构变异的准确率不如三代。

mismatch设置2,是种子区域周围20-30bp,一般设置10bp不能超过3个变异。
call SNP的2种方法:
samtools,后验概率,贝叶斯,李恒开发的算法。对非模式,非人的物种合适,MDOP把read从头到尾都一样的都去掉,早期pcr, 桥式pcr
GATK,mappping后的高变区,read拿出来再拼接。学术界,工业界的公认标准。好。要自己下载变异。有各种模型。
要deep learning代替VQSR
joint calling多个人合起来,把人群的信息考虑进去
做临床:外显子测序100X,WGS20,30X
~~~~~~Day2~~~~~~~~~
BWT
key: P is T的短序列substring,这样就能在O(1)很短的时间内,知道aP是不是在T内。

李恒minimap 2018 
1kb-250Mbp
seed,chain,extend
李恒bwa2还没发文章

~~~~~~Day3~~~~~~~~~
组装
OLC: pairwise alignment between reads are detected and merged
de Bruijn graph: reads are decomposed into k-mers adn mergeed

CNV结构变异

NGS-based SV detection 基于read depth, paired reads, split reads, de novo assembly
read count-based SV detection,软件PennCNV flowchart,Annovar
三代用来拼接(没有先验知识,不会对结果误导),还是mapping比对
三代,滚环,一环一个pass,测序准确率低

做CNV的时候要PCR,检测read是要进行GC含量的矫正。GC含量过高过低,会影响检测量。一个DNA模板,测序的时候一不小心生成了临近的2个簇,PCR duplicate要去除这种。桥式PCR检测read的坐标信息,cigar值(插入缺失),碱基组成。做早期pcr的不好使

RNA-Seq不要去,转录本的copy很多。
基因组重测序要去

~~~~~~Day4~~~~~~~~~
SNP and sequencing based association

GWAS假设Hypothesis: common disorders are likely influenced by genetic variation that is also common in the population

FASTQC先进行质控,质控有很大的影响!garbage in garbage out!

样本,SNP,batch effect(多重检验矫正)
GWAS软件:PLINK

曼哈顿图p<5*10^-8
芯片过时, 现在多是基于NGS的GWAS,但是究竟是选择人多,还是测序深度大一点?
答案,测的人多3000,低覆盖度4X,基于贝叶斯,人群的信息,把没检测的位点拉回来,inpotation

华大NIPT,孕妇外周血,检测小孩的基因组

alignment,count normalization,seq bias

STAR+RSEM
不要用tophat!!!
FPKM双端,RPKM单端,只能样本内比较。一个基因除所以样本的基因,乘以10^6,换算成TPM。对基因exon的长度。
TPM每百万里面的转录本,都要到百分之的概念,除了样本内可以比较,也进行样本之间的比较。
CPM只换成了百分比,但是没有考虑基因长度的不一样。
ERCC bulk RNA-Seq, spike-in

时间序列,考虑趋势问题,只在某一个阶段有差异,后来又恢复,两两比较。
RNA cocktail,一个全面的,分析准确性高的RNA-seq分析流程,https://www.jianshu.com/p/3600a6ebdf56

~~~~~~Day5~~~~~~~~~
机器学习:先验知识
deep-learning:不需要先验知识高级的神经网络
RNN时间序列recurrent neural network
CNN模式识别

DeepVariant,把生物学问题pileup 转换成deep-learning擅长的pileup image 
Poplin, nature biotechnology,2018

可以看每一节点擅长提取的pattern解读,可视化出来
feature对应到数学上收敛,局部最优,有生物学的意义,生物倾向于选择最高效
根据你设计的目标
wentgithub commented 5 years ago

这次关于kmer的分享让我知道还有三个峰,然后第一部分去复习了三个分布的成立条件和区别转化,收获很大,但是 突变概率那一部分没搞清楚是怎么先后验的