Luo-Yihong / YOSO

41 stars 2 forks source link

question about Adapt-stage-I in paper #5

Closed Feynman1999 closed 5 months ago

Feynman1999 commented 5 months ago

你好,作者,为了方便我直接用中文描述问题了~

我理解这里需要finetune网络 这里是怎么推导这个v_phi的?请指教,感谢🙏

image
Luo-Yihong commented 5 months ago

谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: image 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解

Feynman1999 commented 5 months ago

谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: image 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解

嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏

Luo-Yihong commented 5 months ago

谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: image 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解

嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏

我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。

时间t是均匀采样,lambda_t=1

Feynman1999 commented 5 months ago

谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: image 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解

嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏

我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。

时间t是均匀采样,lambda_t=1

好的,你看我总结的这样的训练流程对吗:

  1. 数据集均使用 JourneyDB
  2. 500 iter , finetune网络到v-prediction
  3. 500 iter, zero SNR 调整 (这里是v_theta调整,v_phi依然用之前的scheduler? v_phi是per-trained model with ϵ-prediction)
  4. L2 loss + adv loss + percerp loss + consistency loss (这里时间t也是均匀采样吗?)

另外,期待训练代码的开源~ 🎉

Luo-Yihong commented 5 months ago

谢谢你对我们工作的关注,这个是来自于《Progressive Distillation for Fast Sampling of Diffusion Models》的v-prediction,原始形式是: image 这里是把epsilon和x都换成了教师模型的预测结果了 希望能帮到你理解

嗯嗯,我根据v-prediction论文中的公式,成功推导了你们论文中的式子。 按照我的理解,adapt-stage1和2是不是一起进行的(训练1k iter),还是说分开进行的?另外adapt时,如何采样时间t的?每个时间步的权重lambda_t如何设置? 感谢指导🙏

我们各进行了500iters,如果你喜欢的话多跑一些迭代也是没问题的。 时间t是均匀采样,lambda_t=1

好的,你看我总结的这样的训练流程对吗: 0. 数据集均使用 JourneyDB

  1. 500 iter , finetune网络到v-prediction
  2. 500 iter, zero SNR 调整 (这里是v_theta调整,v_phi依然用之前的scheduler? v_phi是per-trained model with ϵ-prediction)
  3. L2 loss + adv loss + percerp loss + consistency loss (这里时间t也是均匀采样吗?)

另外,期待训练代码的开源~ 🎉

对的,流程基本上是这样

训练代码这个月内会发布,敬请期待!

Luo-Yihong commented 5 months ago

训练代码开源了,我先把这个issue关掉,有进一步问题欢迎随时再打开

Feynman1999 commented 4 months ago

还有几个疑问,您有空时指点下~

  1. 判别器是不是也要输入文本信息?
  2. 判别器为什么要输入时间步的信息
  3. 推理的时候,timestep如何设置,设置不同的值有显著区别吗