ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
108 stars 30 forks source link

干货 | 1分钟看懂OPLS-DA原理及图表 #3777

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/BYBk6zcB4Tbn_NjM-DkZPg

ixxmu commented 1 year ago

干货 | 1分钟看懂OPLS-DA原理及图表 by 迈维代谢


OPLS 简介

正交偏最小二乘法(Orthogonal projections to latent structures (OPLS))是一种新型的多元统计方法,它由Johan Tryggde等人于2002年首次提出。近十年来,这种方法在理论和应用方面得到了迅速的发展,并在计量化学中有大量的应用。OPLS是一种多因变量对多自变量的回归建模方法,其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,从而模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显。



OPLS 原理 

OPLS从给定的数据集X中移除系统正交变量,并把这些正交变量和非正交变量区分开来,可以对这些正交变量单独进行分析。OPLS方法利用响应变量Y中的信息把X分成三部分。即

X = TPPTP + TOPTO + E


其中,TP表示X的预测的得分矩阵,PTP表示X的预测载荷矩阵,TPPTP表示预测部分,TO表示XY的正交成分(称为OPLS成分)的得分矩阵,PTO表示对应的载荷矩阵,TOPTO表示与Y正交的部分,E为残差矩阵。


OPLS方法的实现通过两步完成:


第一步,与Y正交的变量从X数据矩阵中剔除,即

XP = X  TOPTO

其中TO是与Y正交成分的得分矩阵,PTO是与其对应的载荷矩阵。


第二步,对XP进行偏最小二乘分析。



图1  OPLS的概述图



OPLS-DA 图表简述 


[1]. OPLS-DA的得分图


OPLS-DA 得分图的横坐标表示OSC过程中的主要成分的得分值(Tp),所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO);所以从纵坐标上看出组内的差异(组内样本间的差异)。



图2  OPLS-DA得分图



[2]. OPLS-DA 的S-plot图

S-plot图的横坐标表示主成份与代谢物的协相关系数,纵坐标表示主成份与代谢物的相关系数。S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1,绿色的点表示这些代谢物的VIP值小于等于1。



图3  OPLS-DA S-plot



[3]. OPLS-DA的模型验证permutation Test图

模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示200次permutation Test中200个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置,其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2标示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况下,R2、Q2高于0.5较好,高于0.4即可接受。从图中可以看出Q2为0.994,R2Y为1,R2X为0.685,Q2和R2Y的P值均为0.005,说明permutation Test中只有1个随机分组模型结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。



图4  OPLS-DA 的验证图






99%的代谢组学研究者都在阅读下文:

代谢做得好,重大项目跑不了

客户文章 | AICAr通过诱导急性淋巴细胞白血病细胞中的NTP和d NTP库失衡来抑制细胞增殖

迈维影像 |《生命之光》专访 x 上海代谢组学国际研讨会精彩回放

湖北卫视特别报道:迈维代谢——湖北重点产业里的新动能

多组学|转录+代谢联合分析,so easy

干货 | 如何通俗易懂地理解PCA主成分分析

文献解读|炎症性肠病肠道微生物组结构及代谢活性的研究

干货 | 一文了解代谢组学中常见质谱仪

干货|浅析代谢组学最常用到的数据分析方法

迈维星光 | 转酮醇酶缺乏通过增加核糖-5-磷酸和核苷酸水平保护肝脏免受DNA损伤