Closed sujeongim closed 2 years ago
multi-scale training 이라고 불리는 기법으로, [256, 480] 사이에서 입력 이미지 크기를 다양하게 설정하는 방식입니다. (예를 들어 32씩 커지도록)
입력 이미지 크기가 다르면 feature map의 크기가 달라지지만, adaptive pooling을 사용해 feature map크기가 동일하게 맞출 수 있습니다. 추가적으로 입력 이미지 크기를 다양하게 만든 후에, random crop을 적용해 동일하게 맞춰주는 경우도 있습니다. 이런 경우 random crop을 통해 모델이 하나의 이미지에서 다양한 곳을 바라보는 효과를 얻을 수 있습니다.
논문 설명을 보면 scale augmentation [256, 480]에서 더 짧은 변을 랜덤하게 샘플링하여 이미지의 크기를 조정한다고 이해했습니다. 다만 scale을 다양하게 하면 input의 크기가 달라지는 게 아닌가? 하는 생각이 들어서 질문을 하게 되었습니다.
scale augmentation을 한다는 것의 의미가 무엇이고, 이 방식이 여러 scale로 여러번 실험을 했다는 것인지, 아니면 scale을 다양하게 하여 이미지의 input 크기를 다르게 넣었다는 것인지 궁금합니다. 또 후자가 맞다면 모델의 input 크기를 어떻게 정하는지 궁금합니다.