Decoder에게 refine을 맡기는것이 불가능하다

DongHwanJang commented 4 years ago

우리는 여태까지 Decoder가 refine을 알아서 잘 해줄것이라 생각했는데, Decoder는 refine을 하는게 불가능하다! 왜냐?! Decoder는 L을 모른다. warped 된 gamma/beta 값이 맞는지 아닌지 판단할 L이 없다! 못하는게 당연하다. ~~(한글 너무 렉걸려서 영어로 쓸게요)~~ 알고보니 grammarly를 켜놔서 그런거였네요... 이미 쓴건 그냥 두겠습니다ㅋㅋㅜ

Even in the previous examples(Exemplar-based colorizations), all of them used target L images as an input for the refinement network!

DongHwanJang commented 4 years ago

It feels like we are missing something fundamentally (in the most basic structure). How can we fill up those holes when there is no information given at all for certain parts?

이게 너무나도 중요한 이슈인게, 그림에서 가장 중요한 color만 뽑아서 guide로 쓰는 방식이나 style transfer와 우리연구가 명백하게 달라지는 부분이 이부분인데, 이거를 해결하지 못하면 reviewer들 한테 개까일거 같다. (일단 나 스스로도 납득이 안되고.)

물체의 correspondence를 따지되 이미지 전체가 자연스럽게 보이는게 우리의 목적인데, 그거를 현명하게 풀어내지 못하면 문제가 있어보인다.

~~(초록얼굴 인간은 나는 너무 비추야. 정말로..)~~ 생각해보니 방법론을 논하는건데 좀더 디테일을 적어야하는 코멘트인듯. 만약 우리가 초록얼굴 인간도 괜찮다고 한다면 지금 우리 모델로도 괜찮을거 같은데(refine 포기) 이럴경우 네트워크 성능이 떨어질수 밖에 없는거 같다. 왜냐면 correspondence 따지는게 완벽하지 못하니까 그부분을 refine 해주는건 명백히 필요한데, 초록얼굴 인간을 허용하면 refine 해주는 방법이 없어져 버리는거 같아. 즉 사람이 봤을때 correspondence 가 있는데 매핑을 못하는경우 (그리고 이거는 못하는 경우가 필수적으로 생길거라 생각해.) 이거를 고칠방법이 없어. ref 와 tgt 에 모두 사람이 있는데 tgt 에는 반팔을입고, ref 에는 긴팔을 입었을때 tgt 노출된 팔부분에 얼굴 살색을 매핑시키지 못하면 tgt 의 팔은 분명히 이상한 색일거야

DongHwanJang commented 4 years ago

The warping is not the optimal solution I think. Maybe masking and inpainting would be better

DongHwanJang commented 4 years ago

1) semantic correspondence 따져서 conf가 확실한 (어느정도 이상인) 부분만 warping을 한다. 2) 그부분을 기점으로 AffinityNet에서 한 방법처럼 pixel 끼리 random walk로 색칠을 해준다. 3) 색칠이 안된 부분은 L에서 뽑은 gamma/beta랑 masking한거로 합쳐서 처리해준다..?

DongHwanJang commented 4 years ago

잠깐... 그럼 warped 는 망했는데 synthesize 는 잘하는건 뭐지? 도대체 어떻게 가능했던거지? 플라시보었나? identity 때만 가능했던건가?

deepkyu commented 4 years ago

잠깐... 그럼 warped 는 망했는데 synthesize 는 잘하는건 뭐지? 도대체 어떻게 가능했던거지? 플라시보었나? identity 때만 가능했던건가?

Warped된 gamma/beta에 대해 optimal한 synthesize를 외웠다고 보는 건 너무 비약일까요?? (Regardless of reference image)

DongHwanJang commented 4 years ago

Warped된 gamma/beta에 대해 optimal한 synthesize를 외웠다고 보는 건 너무 비약일까요?? (Regardless of reference image)

사람은 구별 못하는 어떤 pattern에 대해서 decoder가 잘 만들었을거라는 말씀이시죠. 그럴수 있 d을거 같아요. 어느쪽이던 바람직한 방향은 아니지만ㅜㅜ

DongHwanJang commented 4 years ago

targetL을 U-Net 구조 input으로 넣고 local한 정보들은 conf_map을 이용해서 바꿔준다.

conf_map을 곱해줄 수도 있고- 그냥 concat 해줄 수도 있다.
targetL만을 Unet input으로 삼을 수도 있고, targetL + warped_img를 input으로 삼을 수도 있다.
Skip connection에 대한 생각은 반대다. target_L과 우리가 만들고자 하는 out_AB는 도메인 자체가 다르기 때문에 skip connection은 output 성능을 낮추는 결과를 가져다 줄것 .

DongHwanJang / SPADE_Colorization

Decoder에게 refine을 맡기는것이 불가능하다 #48