RNAErnie2下游任务微调

CatIIIIIIII / RNAErnie2

2 stars 0 forks source link

RNAErnie2下游任务微调 #1

Open zhendejuzi opened 1 week ago

zhendejuzi commented 1 week ago

【考虑到大多数研究人员更喜欢使用 transformers 和 pytorch 作为后端。因此，我将我的工作转移到 transformers 并从头开始训练 pytorch 模型。新模型使用更强大的设置进行训练：现在最大模型长度高达 2048，预训练数据集是 rnacentral 的最新版本，经过长度过滤（<2048）后包含约 3100 万个 RNA 序列。】非常棒的工作。我想进一步问下： 1）这里的预训练数据集rnacentral 是只包含ncRNA吗？ 2）有没有类似RNAErnie，进行下游任务的相关代码/教程，例如提取 RNA 序列嵌入、RNA RNA 相互作用预测和结构预测。谢谢！

CatIIIIIIII commented 1 week ago

1）不是，是rnacentral中所有类别的RNA 2）https://github.com/CatIIIIIIII/RNAErnie_baselines 这是torch版本的下游任务

zhendejuzi commented 1 week ago

我的基础比较薄弱 1）https://github.com/CatIIIIIIII/RNAErnie_baselines里面的主要是针对3个baseline模型的。有没有针对RNAErnie2的代码/教程。 2）在进行RNA-RNA interaction，如果我只有少量样本的话。如何进行少样本训练会有更好的效果。冻结预训练？如果在特定的情况下，先对公共的数据（~4000）。然后再对特定研究的自己的数据（~100）再调，从而预测特定研究中的其他靶目标？

CatIIIIIIII commented 1 week ago

1) baselines里面的代码适用于任何预训练后的模型包括RNAErnie2，可以自己调整一下。目前没有计划针对RNAErnie2微调之前的任务 2）数据量少（4000条）的情况冻结backbone应该会有更好的效果。如果更少，只有100条数据的话，建议不要针对这些数据微调，或许有比较严重的过拟合

zhendejuzi commented 1 week ago

谢谢~ 1）在run_rr_inter的代码中，是冻结backbone，还是全局都有微调？特别是最后还添加了cnn+lstm，这样即使冻结backbone的话4000个样本会够吗？

CatIIIIIIII commented 1 week ago

我目前采用的是全局微调。训练多个epoch下，4000个样本应该是没有问题的