[1일차] Learning in the Frequency domain

dhkim0225 commented 4 years ago

https://arxiv.org/abs/2002.12416

RGB input 활용이 아니라, YCrCb 를 DCT 후 input으로 씀 더 큰 이미지를 network input으로 활용할 수 있어서 정확도 향상에 좋음

resnet50 에 [448, 448, 3] mobilenet v2 에 [896, 896, 3]

Example

....[448, 448, 3] input => YCrCb 변환 ....dct block_size 8 ....Y => [8, 8, 56, 56] => [56, 56, 64] (8x8 를 같은 frequency 별로 모음) ....Cr => [8, 8, 56, 56] => [56, 56, 64] ....Cb => [8, 8, 56, 56] => [56, 56, 64] ....총 [8, 8, 192] 에서 senet을 활용한 channel selection. (with gumbel softmax trick)

learning 시킨 애들을 validation set에서 보니 맨날 비슷한 frequency 만 뽑아냄 => 저주파 영역 => Cr Cb 보다는 Y => classification, segmentation 둘 다 비슷한 frequency만 활용.

그래서 중요한 frequency 만 갖고도 모델 학습 가능 실제 accuracy가 많이 증가하지는 않고 input 사이즈도 반 정도밖에 줄지 않지만, 서비스 측면으로는 우수할 듯. 이미지를 jpeg binary로 받고 decoding 없이 바로 inference 가 가능하기 때문.

이미지와 주파수 blog: https://idlecomputer.tistory.com/120?category=773851 DCT blog: https://idlecomputer.tistory.com/121?category=773851

DK-sr commented 4 years ago

YCrCb 를 DCT 하는게 이미지를 frequency domain으로 무언가를 할때 쓰는 방법중 하나인거임? 아니면 여기서 그렇게하기로 정한거임? YCrCb에서 각각의 채널 특징들이 뭐임?

dhkim0225 commented 4 years ago

그냥 여기서 그렇게 하기로 정한거지 ㅇㅇ y 가 휘도(빛의 양) cr cb가 색차

다른 색 space에서 똑같이 dct로 frequency를 뽑아냈을 때는 어떻게 될까도 궁금하긴 하네

dhkim0225 commented 4 years ago

@DK-sr 좀 알아보니까, jpeg 인코딩 자체가 ycbcr 을 DCT 하는 방식임. 그래서 jpeg compression 된 상태에서 huffman coding 되어진 것만 풀고 특정 주파수만 가져오면 input으로 활용할 수 있는거지.

dhkim0225 / 1day_1paper

[1일차] Learning in the Frequency domain #1

Example