Ming-Lian / Gitment-repo

保存个人博客中的评论信息以及兴趣小组的相关材料
5 stars 0 forks source link

《生信与机器学习兴趣小组》第五次分享讨论/打卡贴 | Lianm's Blog #17

Open Ming-Lian opened 4 years ago

Ming-Lian commented 4 years ago

https://ming-lian.github.io/2019/08/05/Bioinfo-ML-Club-5th/

oGcGo commented 4 years ago

Ming-Lian commented 4 years ago

本次兴趣小组知识分享的提纲,字写得比较潦草,大家凑合看啊

上期回顾与宏基因组bining

HMM与蛋白质保守区块识别

jsonProgram commented 4 years ago

刚刚看完。最后面说的算法有点多,且蒙圈....

lakeseafly commented 4 years ago

总来说讲得蛮好,特别是对机器学习有一定了解的人来说,受益会很大。但是感觉对新手可能不太友好。就是如果想更多人明白,我个人觉得是要把整个提纲弄得更加清晰,然后尽量不要深入讨论算法之类的,多聚类讲怎样应用。

这里给大家先推荐一篇Nature genetic review的综述:https://www.nature.com/articles/s41576-019-0122-6 。这篇总结得相当好,从浅到深,有助理解很多概念。关于机器学习在生物信息学的应用这个话题,我个人还是蛮兴趣的,其涉及到的应用其实很多,后面会做一些research,再和大家分享。

pangkun97 commented 4 years ago

无监督聚类与宏基因组bining:

xuyinsheng commented 4 years ago

IMG_20190812_130202.jpg IMG_20190812_130213.jpg IMG_20190812_130218.jpg IMG_20190812_130228.jpg

cwu2011 commented 4 years ago

感谢连博士的分享!

笔记:

宏基因组

根据序列特征进行聚类。(1、kmer频率,GC含量等;2、丰度信息)

经典聚类方法:

  • kmeans,分类形状是圆形;
  • Gaussian混合分布,分类形状可变换为椭圆形;
  • 层次聚类
  • DBSCAN等

HMM与蛋白质保守区块识别

学习:给定标记的序列,学习和提取出block序列pattern 搜索:在未知序列中搜索pattern 描述序列的方法: sequence logo PWM(位点权重矩阵) HMM 假设有一组未知序列,判断各序列有多大概率是由以上pattern生成器产生的,概率较大的序列被认为服从该pattern的分布

应用:

1、给定一条序列和多个模型,判断最可能的来源,计算各block产生该序列的Galvan取最大者(前向-后向算法)

2、已知某序列由某block机器产生,确定block的位置(保守区)(解码问题,维特比算法)

3、给定一组block代表序列,学习转移/发射概率,建立模型(鲍姆-维奇算法(EM-like)) P.S. 序列比对是基于一致性,而block有可变区和不可变区,如果block的可变位点较多但有一个pattern,直接去做比对是比对不上的。

shangguandong1996 commented 4 years ago

生信与机器学习兴趣小组_Club_5th

无监督聚类与宏基因组bining

解决生物学问题

测序的reads是来自于什么物种

会拼接成contig,然后决定属于物种归属

宏基因组的binming聚类特征

如何根据特征来聚类

HMM与蛋白质保守区块识别

问题:

方法:

HMM

HMM

idmaomao1 commented 4 years ago

无监督聚类与宏基因组bining

宏基因组:利用新一代高通量测序技术(NGS)以特定环境下微生物群体基因组为研究对象,在分析微生物多样性、种群结构、进化关系的基础上,可进一步探究微生物群体功能活性、相互协作关系及与环境之间的关系,发掘潜在的生物学意义。与传统微生物研究方法相比,宏基因组测序技术规避了绝大部分微生物不能培养、痕量菌无法检测的缺点,因此近年来在环境微生物学研究中得到了广泛应用。

研究目标:1、有哪些物种,丰度如何※ 2、有何功能 3、生理状态下或个体的动态变化 测序策略: 1、mapping-based (依赖ref完整) 2、Mapping-free/assembly-based (ref不理想)可以检测发现新的物种,但是计算量大,对丰度低的菌检出效率低#基于Debrijn图的基因拼接算法#注释率 Contig->查找物种归属【1、与库中已知序列比对(受注释率影响)2、bining把序列类似的contig归类聚到一起称为bins(多条),有较大概率是来源于同一属物种】 Reads、contig、gene不同层次都可以做bining,但从精度上考虑常用contigs和gene做bining,contigs长度更长信息量更高更适合bining。 无监督聚类是针对无类别标记,具有多个特征feature,f1~fn,根据其相似性进行分类。 重点是根据特征feature分类: (1)序列组成特点(k-mer频率、GC含量、【#来源于同一物种的序列在组成上更加相似】) (2)丰度信息(尤其是基因的丰度,某一物种基因A和B的拷贝数量是2:1,不管其数量多少占丰度比例,具有A:B=2:1的特征,根据基因间的固定比例可以确定是来自同一物种)

这个集合可以映射到多维空间上,从空间分布的相似性进行bining。 聚类方法有: 1、k-means【随机假设样本中有k个类,则有k个“样本中心”,计算各样本到这些“样本中心”的直线距离,根据距离来分类(离谁近就算谁这一类),重复这个过程直到“样本中心”稳定为止,其本质是期望最大过程(EM)】

2、高斯混合分布【针对k-means的分类有不足(各个类别界限是偏圆形或的球形),而数据分布可能是近椭圆形分布的,比如一维的高斯分布就是钟型正态分布,二维的高斯分布是一个立体的钟型曲面,如果均值不变,方差变化,这个钟型曲面的平面投影就是椭圆的】 3、层次聚类

不同聚类方法有不同的适用条件

同心圆类型的聚类方法

实际上聚类团数k的大小是超参数,是要通过试验来人为确定的,在理想的情况下,类内各样本到中心的总距离是最小的。试验的结果会发现某一个k值能使得总距离最小。 横坐标是k值(整数),纵坐标是距中心点总距离 在学习之前需要先确定K的值。

ggoodstudydaydayup commented 4 years ago

无类别标记聚类,其可用于聚类的分别为reads,contigs(其序列信息最多)和gene,根据其序列组成的特点k-mer频率和GC含量或者丰度信息(拷贝数)将序列信息矢量化并聚类。

gsh150801 commented 4 years ago

baiziyi commented 4 years ago

cjchen5 commented 4 years ago

学习到了!感谢分享~

yueyang0907 commented 4 years ago

其他小伙伴的笔记太棒啦!!我先。。。占个坑。。。再来补交笔记