Open lewis081 opened 12 months ago
作者,你好: 非常感谢你的工作进行源码公开,能看到许多论文中没有描述的细节。 但是,我也产生了一些疑惑,是关于Teacher 的。主要有如下两个问题: 1. Teacher 在整个框架中需要提供比Student 更好的伪Label,供Student 进行训练和提高。那如果Teacher 能产生比Student 更好的结果,那为什么最后不使用Teacher 的输出结果呢?从代码来看,推理使用的是训练时保存的Student 模型。 2. Teacher 模型的参数是从Student 更新过来的,且模型跟Student 是一样的。为什么它在比Student 得到更少训练数据的情况下,能得到比Student 更好的输出结果供Student 学习呢? 以上两个点在我思考过一段时间后,还是未能找到答案。所以,还烦请作者进行耐心的解释,不甚感激。
您好,请问您思考出来这个结果了吗?希望能够得到您的回复以学习,谢谢!
作者,你好: 非常感谢你的工作进行源码公开,能看到许多论文中没有描述的细节。 但是,我也产生了一些疑惑,是关于Teacher 的。主要有如下两个问题: 1. Teacher 在整个框架中需要提供比Student 更好的伪Label,供Student 进行训练和提高。那如果Teacher 能产生比Student 更好的结果,那为什么最后不使用Teacher 的输出结果呢?从代码来看,推理使用的是训练时保存的Student 模型。 2. Teacher 模型的参数是从Student 更新过来的,且模型跟Student 是一样的。为什么它在比Student 得到更少训练数据的情况下,能得到比Student 更好的输出结果供Student 学习呢? 以上两个点在我思考过一段时间后,还是未能找到答案。所以,还烦请作者进行耐心的解释,不甚感激。