龙星课程分享

文件格式

2012-2013前的fastq数据一定要检查质量格式
BED格式类似gff格式，是用于序列注释的
SAM/BAM值得学习下flag值和CIGAR值
注意0base的坐标系统和1base的坐标系统（BED使用的是0，gff是1）

提问阶段感想：

基因组注释可能有各种问题，要自己搞

variant call

1、samtools和GATK的算法不一样 samtools和GATK的区别回头要学一下 2、非模式生物用samtools 3、WGS建议20X以上，WES建议100X以上

基因组组装

从头组装和参考组装从头组装的两种方式：overlap和DBG图

结构变异

三代测序与结构变异是未来值得关注的方向二代测序call SV的原理：将基因组分成多个区段，看每个区段的reads depth是不是有差异，如果某个区段变异特别大，则很有可能有点SV。注：三代建议先拼接再找结构变异

duplicates的建议： RNA-seq不去，基因组测序要去

几个变异注释软件： InterVar/ANNOVAR/Phenolyzer

关联分析

每步都有坑：样本质控、SNP质控、批次效应校正、多重检验校正

GWAS是高覆盖度的少样本好，还是低覆盖度的多样本好？结论：低覆盖度的多样本好，可以使用贝叶斯等方法进行校正

RNA-seq

与芯片比：不需要先验知识样本量：mRNA至少6G，lncRNA至少12G，生物学至少3个 现在新的流程：STAR+RESM因为一些大的组织用的比较多 样本间的比对强烈建议TPM

AI

核心：将生物学的问题转换成图像问题 特点：数据驱动

xyz1396 commented 5 years ago

分享一点git的使用经验

ChaoTang-SCU commented 5 years ago

关于 VCF 文件中 GT 的 phasing 的问题，phased 之后同一边的 allele 一定来自同一个亲本吗？还是存在 contig 或者 haplotype 的情况在里面？

ghost commented 5 years ago

分享一下直播中讨论的PCR去重复的思考，简书——讨厌又迷人的reads去重复

shengxinzhuan commented 5 years ago

最近正好在做gwas方面的东西，把最近一点总结作为本次的一个思考，可能有点离题https://www.jianshu.com/p/aeb965dc765e

12kyy123 commented 5 years ago

这次分享干货满满，伊老师所讲的关于测序的原理以及Blast算法相关的内容都十分有用。

zoe106 commented 5 years ago


二代
高通量测序中PCR扩增偏向性问题

三代
单分子，nanopore，不用扩增，奶茶，通过atcg的大小不同，可以从电流量感知出atcg。
SMRT-Seq 单分子，合成酶固定在小孔，每个碱基进来合成，发光不一样。碱基如果有修饰，时间不一样。
测序精度不高，错误率比较高。
所以二代，三代互补。前两天有篇文章，三代的测序精度大大提高了。Helicos公司的Heliscope单分子测序仪、Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司的纳米孔单分子技术，被认为是第三代测序技术。
历史的惯性导致会并行一段时间。二代积累的数据很多。

用数字表示几种情况的信息，chmod777读写执行
hg19 B37不太一样，基因的坐标不一样

TG的坐标
处理的变异信息，差1bp是因为坐标用错了
0-based（half open：[3,5））：BED,BAM,PSL dbSNP，Table Browser给计算机看的
1-based（fully-closed：[4,5]）：GFF,VDF,SAM,Wiggle，DAS，Genome Browser给人看的

gff人工注释
注释文件里，没有UTR，错了几个bp？

基于二代测序，做结构变异的准确率不如三代。

mismatch设置2，是种子区域周围20-30bp，一般设置10bp不能超过3个变异。
call SNP的2种方法：
samtools，后验概率，贝叶斯，李恒开发的算法。对非模式，非人的物种合适，MDOP把read从头到尾都一样的都去掉，早期pcr， 桥式pcr
GATK，mappping后的高变区，read拿出来再拼接。学术界，工业界的公认标准。好。要自己下载变异。有各种模型。
要deep learning代替VQSR
joint calling多个人合起来，把人群的信息考虑进去
做临床：外显子测序100X，WGS20,30X
~~~~~~Day2~~~~~~~~~
BWT
key： P is T的短序列substring，这样就能在O(1)很短的时间内，知道aP是不是在T内。

李恒minimap 2018 
1kb-250Mbp
seed，chain，extend
李恒bwa2还没发文章

~~~~~~Day3~~~~~~~~~
组装
OLC： pairwise alignment between reads are detected and merged
de Bruijn graph: reads are decomposed into k-mers adn mergeed

CNV结构变异

NGS-based SV detection 基于read depth， paired reads， split reads， de novo assembly
read count-based SV detection，软件PennCNV flowchart，Annovar
三代用来拼接（没有先验知识，不会对结果误导），还是mapping比对
三代，滚环，一环一个pass，测序准确率低

做CNV的时候要PCR，检测read是要进行GC含量的矫正。GC含量过高过低，会影响检测量。一个DNA模板，测序的时候一不小心生成了临近的2个簇，PCR duplicate要去除这种。桥式PCR检测read的坐标信息，cigar值（插入缺失），碱基组成。做早期pcr的不好使

RNA-Seq不要去，转录本的copy很多。
基因组重测序要去

~~~~~~Day4~~~~~~~~~
SNP and sequencing based association

GWAS假设Hypothesis: common disorders are likely influenced by genetic variation that is also common in the population

FASTQC先进行质控，质控有很大的影响！garbage in garbage out！

样本，SNP，batch effect（多重检验矫正）
GWAS软件：PLINK

曼哈顿图p<5*10^-8
芯片过时， 现在多是基于NGS的GWAS，但是究竟是选择人多，还是测序深度大一点？
答案，测的人多3000，低覆盖度4X，基于贝叶斯，人群的信息，把没检测的位点拉回来，inpotation

华大NIPT，孕妇外周血，检测小孩的基因组

alignment，count normalization，seq bias

STAR+RSEM
不要用tophat！！！
FPKM双端，RPKM单端，只能样本内比较。一个基因除所以样本的基因，乘以10^6，换算成TPM。对基因exon的长度。
TPM每百万里面的转录本，都要到百分之的概念，除了样本内可以比较，也进行样本之间的比较。
CPM只换成了百分比，但是没有考虑基因长度的不一样。
ERCC bulk RNA-Seq， spike-in

时间序列，考虑趋势问题，只在某一个阶段有差异，后来又恢复，两两比较。
RNA cocktail，一个全面的,分析准确性高的RNA-seq分析流程，https://www.jianshu.com/p/3600a6ebdf56

~~~~~~Day5~~~~~~~~~
机器学习：先验知识
deep-learning：不需要先验知识高级的神经网络
RNN时间序列recurrent neural network
CNN模式识别

DeepVariant，把生物学问题pileup 转换成deep-learning擅长的pileup image 
Poplin, nature biotechnology,2018

可以看每一节点擅长提取的pattern解读，可视化出来
feature对应到数学上收敛，局部最优，有生物学的意义，生物倾向于选择最高效
根据你设计的目标

wentgithub commented 5 years ago

这次关于kmer的分享让我知道还有三个峰，然后第一部分去复习了三个分布的成立条件和区别转化，收获很大，但是突变概率那一部分没搞清楚是怎么先后验的

Ming-Lian / Gitment-repo

《生信与机器学习兴趣小组》第六次分享讨论贴 | Lianm's Blog #21