Open long8v opened 1 month ago
paper, code, dataset
CLIP
finetuning loss
$s$ : score $x$ : prompt $y_1, y_2$: image
in-batch negative도 해봤는데 별로 성능이 안좋았다고 함 trainingdms 4000 step, lr 3e-6, bs 128, warmup 500 step 8 A100으로 1시간도 안걸렸다고 함.
rerank vis CLIP-H vs Pick-a-Pic
accuracy
classifier-free guidance로 학습한 것
correlation between human expert
다른 모델들과 비교
why not COCO? 아직도 가장 많이 사용되는 게 COCO prompt를 사용한 이미지 생성이라고 함 COCO는 일반적인 object를 사용하는데 그게 사용자가 바라는것과는 상이하다.
그냥 생성한 것 vs PickScore로 rerank한 것
preference가 alignment에 많이 맞혀있는듯
paper, code, dataset
TL;DR
Details
annotation
Pick-a-Pic Dataset
PickScore
CLIP
finetuning loss
$s$ : score $x$ : prompt $y_1, y_2$: image
in-batch negative도 해봤는데 별로 성능이 안좋았다고 함 trainingdms 4000 step, lr 3e-6, bs 128, warmup 500 step 8 A100으로 1시간도 안걸렸다고 함.
Result
rerank vis CLIP-H vs Pick-a-Pic
accuracy
classifier-free guidance로 학습한 것
correlation between human expert
다른 모델들과 비교
why not COCO? 아직도 가장 많이 사용되는 게 COCO prompt를 사용한 이미지 생성이라고 함 COCO는 일반적인 object를 사용하는데 그게 사용자가 바라는것과는 상이하다.
그냥 생성한 것 vs PickScore로 rerank한 것