Open Akasuyi opened 2 years ago
提出了两个涂鸦数据集:Creative Birds 和 Creative Creatures
这两个数据集主要的优点:1、图案比较有想象力和创造性 2、有每一个鸟/动物身体部分的标注 3、给定初始的随机的笔画,一部分一部分绘画而成,更接近人绘画的过程4、比起其他涂鸦数据集,平均笔画更多,且更长
提出的模型是与数据集相对应的,逐步一部分一部分生成最后的结果,在自己的数据集上取得了比较好的结果,不管是数据上还是人工评判上。
复制到markdown编辑器以获取更好的阅读体验
训练和推测时,都是分步进行
模型的输入:每一步的输入是该步之前画好的涂鸦部分,第一次生成时为随机的笔划(涂鸦的每一部分分别存储在输入张量中不同的channel里面)
模型分为part selector和part generator,分别用于选择下一步生成哪个部分以及生成下一部分
part selector: encoder用以encode模型+线性层用以分类选择下一生成部分
part generator: 使用encoder来encode后,利用StyleGAN2的generator以及(Karras et al., 2018)的discriminator(待后续补充)来进行训练,生成时只使用generator。
encoder:5层CNN
训练很快就收敛,但只生成空白图案,discriminator训练返回的梯度就停止了
增加一个额外的loss,使训练生成的与原图像的像素点数之差的L2 norm尽量小
感觉这个也属于一个GAN训练中常见的问题,generator和discriminator效果差的“势均力敌”,以至于训练不出好的模型
对初始的随机笔画的细微变化特别的敏感(我认为这一点可能会导致模型对人眼看起来一样的初始笔画,却生成完全不一样的甚至不合理的结果)
增加一个从正态分布中抽取的“小扰动”,并将增加了扰动的样本与原先样本一样投入训练,生成原先样本的下一步的结果
其他论文提出的评价方法:
本文另外使用的:
characteristic score (CS):先训练个分类器,如果分类器能把生成的图片分类成鸟/动物,就说明生成成功
semantic diversity score:主要针对creative creature,涂鸦的每个部分像是来自于越多动物的越好
人工评价:让人来评价用模型生成的和原来数据集中的图片哪个更好(从几个方面,如创造力、更像鸟/生物、更像人画的等)
利用论文中给出的demo地址,生成了几十次结果,结果的大概统计:
我对生成结果的感受:数据集中的图片大部分并不是具有一定绘画技能的人画的,所以最后做问卷调查的时候,模型随机生成的数据集反倒是比人画的更富有创造性这一个结果是可能的,但是就生成的平均水平来说,是有接近一般人的水平了,只不过生成的下限与数据集相比低不少,上限也低不少。
没有creative bird结果那么好,相比较于数据集,生成的一般可以看出是一个生物,但是全凭想象力
注意到一般只会说明问卷题目,以及实验参与人数,以及呈现出来调查问卷的结果,但是,不会更加详细的描述这个测试是怎么做的,被试有什么影响实验的特点之类的信息等等,更多像是对已有的结果锦上添花,有时间可以考虑参考参考社科类中设计调查问卷调查研究结论的那类论文做调查的方法以及要注意的点?
可以通过描述来生成各种各样的涂鸦,描述需要一个怎么样的鸟或者生物,然后让模型来生成。
We give the discriminator access to the input partial sketch and the corresponding part channels
Our dataset and approach can be used to boost more applications related to draw a creative sketch.
On the right is the probability that conditioned on the row part being drawn, the column part is drawn next.
提出了两个涂鸦数据集:Creative Birds 和 Creative Creatures
这两个数据集主要的优点:1、图案比较有想象力和创造性 2、有每一个鸟/动物身体部分的标注 3、给定初始的随机的笔画,一部分一部分绘画而成,更接近人绘画的过程4、比起其他涂鸦数据集,平均笔画更多,且更长
提出的模型是与数据集相对应的,逐步一部分一部分生成最后的结果,在自己的数据集上取得了比较好的结果,不管是数据上还是人工评判上。
复制到markdown编辑器以获取更好的阅读体验
信息
1 模型结构
训练和推测时,都是分步进行
模型的输入:每一步的输入是该步之前画好的涂鸦部分,第一次生成时为随机的笔划(涂鸦的每一部分分别存储在输入张量中不同的channel里面)
模型分为part selector和part generator,分别用于选择下一步生成哪个部分以及生成下一部分
part selector: encoder用以encode模型+线性层用以分类选择下一生成部分
part generator: 使用encoder来encode后,利用StyleGAN2的generator以及(Karras et al., 2018)的discriminator(待后续补充)来进行训练,生成时只使用generator。
encoder:5层CNN
构建模型时遇到的问题-解决方法
训练很快就收敛,但只生成空白图案,discriminator训练返回的梯度就停止了
增加一个额外的loss,使训练生成的与原图像的像素点数之差的L2 norm尽量小
感觉这个也属于一个GAN训练中常见的问题,generator和discriminator效果差的“势均力敌”,以至于训练不出好的模型
对初始的随机笔画的细微变化特别的敏感(我认为这一点可能会导致模型对人眼看起来一样的初始笔画,却生成完全不一样的甚至不合理的结果)
增加一个从正态分布中抽取的“小扰动”,并将增加了扰动的样本与原先样本一样投入训练,生成原先样本的下一步的结果
2 评价方法
其他论文提出的评价方法:
本文另外使用的:
characteristic score (CS):先训练个分类器,如果分类器能把生成的图片分类成鸟/动物,就说明生成成功
semantic diversity score:主要针对creative creature,涂鸦的每个部分像是来自于越多动物的越好
人工评价:让人来评价用模型生成的和原来数据集中的图片哪个更好(从几个方面,如创造力、更像鸟/生物、更像人画的等)
3 其他
随机生成creative bird的图片:
利用论文中给出的demo地址,生成了几十次结果,结果的大概统计:
我对生成结果的感受:数据集中的图片大部分并不是具有一定绘画技能的人画的,所以最后做问卷调查的时候,模型随机生成的数据集反倒是比人画的更富有创造性这一个结果是可能的,但是就生成的平均水平来说,是有接近一般人的水平了,只不过生成的下限与数据集相比低不少,上限也低不少。
随机生成creative creatures的图片:
没有creative bird结果那么好,相比较于数据集,生成的一般可以看出是一个生物,但是全凭想象力
关于human-involved evaluation
注意到一般只会说明问卷题目,以及实验参与人数,以及呈现出来调查问卷的结果,但是,不会更加详细的描述这个测试是怎么做的,被试有什么影响实验的特点之类的信息等等,更多像是对已有的结果锦上添花,有时间可以考虑参考参考社科类中设计调查问卷调查研究结论的那类论文做调查的方法以及要注意的点?
4 在你认知范围内,哪些其它任务可以尝试
可以通过描述来生成各种各样的涂鸦,描述需要一个怎么样的鸟或者生物,然后让模型来生成。
5 好的句子
We give the discriminator access to the input partial sketch and the corresponding part channels
Our dataset and approach can be used to boost more applications related to draw a creative sketch.
On the right is the probability that conditioned on the row part being drawn, the column part is drawn next.