ai-forever / Kandinsky-2

Kandinsky 2 — multilingual text2image latent diffusion model
Apache License 2.0
2.75k stars 307 forks source link

Код обучения для ControlNet? #84

Open chuck-ma opened 1 year ago

chuck-ma commented 1 year ago

Я очень заинтересован в обучении новой модели ControlNet. После изучения загруженной модели kandinsky-2-2-controlnet-depth в HuggingFace, я обнаружил, что ее архитектура отличается от модели ControlNet традиционной стабильной диффузии.

По моему пониманию, структура модели UNet, соответствующей модели kandinsky-2-2-controlnet-depth, была изменена по сравнению с моделью UNet kandinsky-2-2-decoder. Параметр "in_channels" у conv_in был изменен на 8, а также добавлен дополнительный модуль под названием "input_hint_block".

Что касается параметров, то веса и смещения также полностью отличаются от модели UNet kandinsky-2-2-decoder.

Мой подход к обучению следующий: сначала загрузите модели UNet, соответствующие моделям kandinsky-2-2-controlnet-depth и kandinsky-2-2-decoder. Затем скопируйте общие параметры модели UNet из kandinsky-2-2-decoder в соответствующие параметры модели UNet в kandinsky-2-2-controlnet-depth (за исключением частей с разными структурами).

После этого обучите новую модель UNet на наборе данных fill50k.

Интересно, есть ли какие-либо проблемы с этим подходом? Буду очень признателен за любую помощь или предложения, которые вы можете предоставить.

Кроме того, я, кажется, не нашел код обучения, специально предназначенного для модели kandinsky-2-2-controlnet-depth. Буду очень благодарен, если вы сможете предоставить информацию о том, где его можно найти.

@cene555