Closed Feynman1999 closed 5 months ago
谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解
谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解
嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏
谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解
嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏
我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。
时间t是均匀采样,lambda_t=1
谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解
嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏
我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。
时间t是均匀采样,lambda_t=1
好的,你看我总结的这样的训练流程对吗:
另外,期待训练代码的开源~ 🎉
谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解
嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏
我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。 时间t是均匀采样,lambda_t=1
好的,你看我总结的这样的训练流程对吗: 0. 数据集均使用 JourneyDB
- 500 iter , finetune网络到v-prediction
- 500 iter, zero SNR 调整 (这里是v_theta调整,v_phi依然用之前的scheduler? v_phi是per-trained model with ϵ-prediction)
- L2 loss + adv loss + percerp loss + consistency loss (这里时间t也是均匀采样吗?)
另外,期待训练代码的开源~ 🎉
对的,流程基本上是这样
训练代码这个月内会发布,敬请期待!
训练代码开源了,我先把这个issue关掉,有进一步问题欢迎随时再打开
还有几个疑问,您有空时指点下~
你好,作者,为了方便我直接用中文描述问题了~
我理解这里需要finetune网络 这里是怎么推导这个v_phi的?请指教,感谢🙏