Open heshenghuan opened 3 years ago
FLAT模型结构应该可以进行预训练
不过作者好像没有进行这方面的实验,不知为何?
同疑惑,Flat 为什么不多层训练,是因为效果不好吗。
FLAT模型结构应该可以进行预训练
不过作者好像没有进行这方面的实验,不知为何?