MannLabs / alphapeptdeep

Deep learning framework for proteomics
Apache License 2.0
102 stars 20 forks source link

Data integration #131

Closed HR-RH closed 5 months ago

HR-RH commented 6 months ago

Hello, Thank you for your great contribution. I would like to ask after analyzing the raw PXD data from different ddaPASEF or diaPASEF types with search software, how can the RT, Ion Intensity and CCS data to be predicted be integrated into one data set for training?

jalew188 commented 6 months ago

In the settings file, load precursor results or PSM files as a list, see https://github.com/MannLabs/alphapeptdeep/blob/main/peptdeep/constants/default_settings.yaml#L128, then integration will be automatically done.

Is this what you want?

HR-RH commented 6 months ago

您好: 我想请问ddaPASEF或者diaPASEF格式的PXD原始质谱数据通过不同的搜索引擎分析出的结果中,比如maxquant的evidence.txt, msms.txt和dia-nn的report.tsv文件,从这些文件中获取信息时:

1.对于rentention time 和 ccs, 分别取的是哪一个列呢,校准的还是没有校准的呢?为什么呢? 2.对于ion intensity, 文中提到来自不同搜索软件的离子丰度数据,由于他们的centroiding algorithms不同,提到的微调方法是如何操作的呢?是来自同一个centroiding algorithms的数据训练后,再使用其他的ms2数据微调吗?

  1. 对于从多个搜索软件结果中得到rentention time, ion intensity 和 ccs的数据后,这些数据他们分别是如何合并为一个数据集来训练模型的呢?是直接放在一起还是如何操作呢,比如rt如何转换为irt?

以上是阅读您的文章后想要请教问题。感谢您的回答。

jalew188 commented 6 months ago

1、我们取的是原始的RT和CCS的列, 也就是Raw数据里面未校准的; 2、对于Thermo的数据,我们是自己从谱图中提取强度值,所以用的都是统一的Thermo的中心化值,所以训练和测试都是统一的。但是对于Sciex和timsTOF的,公司没有提供中心化方法,所以我们采用的是引擎自己报告的强度值。 3、我们只把所有数据的MS2和CCS数据合并训练了,对与RT,由于梯度不同,我用的是同一个梯度的数据做的训练。