CatIIIIIIII / RNAErnie2

2 stars 0 forks source link

RNAErnie2下游任务微调 #1

Open zhendejuzi opened 1 week ago

zhendejuzi commented 1 week ago

【考虑到大多数研究人员更喜欢使用 transformers 和 pytorch 作为后端。因此,我将我的工作转移到 transformers 并从头开始训练 pytorch 模型。新模型使用更强大的设置进行训练:现在最大模型长度高达 2048,预训练数据集是 rnacentral 的最新版本,经过长度过滤(<2048)后包含约 3100 万个 RNA 序列。】 非常棒的工作。 我想进一步问下: 1)这里的预训练数据集rnacentral 是只包含ncRNA吗? 2)有没有类似RNAErnie,进行下游任务的相关代码/教程,例如提取 RNA 序列嵌入、RNA RNA 相互作用预测和结构预测。 谢谢!

CatIIIIIIII commented 1 week ago

1) 不是,是rnacentral中所有类别的RNA 2)https://github.com/CatIIIIIIII/RNAErnie_baselines 这是torch版本的下游任务

zhendejuzi commented 1 week ago

我的基础比较薄弱 1)https://github.com/CatIIIIIIII/RNAErnie_baselines里面的主要是针对3个baseline模型的。有没有针对RNAErnie2的代码/教程。 2)在进行RNA-RNA interaction,如果我只有少量样本的话。如何进行少样本训练会有更好的效果。冻结预训练?如果在特定的情况下,先对公共的数据(~4000)。然后再对特定研究的自己的数据(~100)再调,从而预测特定研究中的其他靶目标?

CatIIIIIIII commented 1 week ago

1) baselines里面的代码适用于任何预训练后的模型包括RNAErnie2,可以自己调整一下。目前没有计划针对RNAErnie2微调之前的任务 2)数据量少(4000条)的情况冻结backbone应该会有更好的效果。如果更少,只有100条数据的话,建议不要针对这些数据微调,或许有比较严重的过拟合

zhendejuzi commented 1 week ago

谢谢~ 1)在run_rr_inter的代码中,是冻结backbone,还是全局都有微调?特别是最后还添加了cnn+lstm,这样即使冻结backbone的话4000个样本会够吗?

CatIIIIIIII commented 1 week ago

我目前采用的是全局微调。训练多个epoch下,4000个样本应该是没有问题的