ReLU is the preferred choice in this case as it highlights features having positive influence on the class of interest. Regions of interest implicitly refer to those pixels whose intensity varies directly with the gradient yc. Without the use of ReLU, it is observed that localisation maps sometimes might include more information than the desired class like negative pixels that probably belong to other categories in the image hence affecting localization performance.
negative 부분이라고 표시하면, 다른 부분에 부정 영향을 주기 때문!
원하는 부분을 좀 더 잘 구분해낸다.
(7강) Instance/Panoptic segmentation
(7-1) Mask R-CNN과 Faster R-CNN은 어떤 차이점이 있을까요? (ex 풀고자 하는 task, 네트워크 구성 등)
head의 구조가 변경됨(Mask FCN predictor 추가)
faster-RCNN: object detection(ROI pooling, box안에 들어오게), mask-RCNN: instance segmentation(ROI align을 사용해서 선으로 구분하고, 클래스를 구분)
Focal loss는 object detection 뿐만 아니라 classification task에도 자주 활용되고 있습니다. 결국 cross entropy를 확장하여 class imbalance가 심한 경우를 대비한 추가 parameter가 존재하는 loss이기 때문에 기존에 cross entropy를 활용하는 많은 task에 쓰일 수 있습니다.
(2) CornerNet/CenterNet은 어떤 형식으로 네트워크가 구성되어 있을까요?
결국 object detection을 통해 얻고자 하는 bounding box는 left top and right bottom의 2가지 점으로 얻어낼 수 있고 CornetNet은 이러한 방식으로 detection task를 풀고자 하였습니다. 또한 bounding box는 center point와 물체의 크기의 조합으로도 표현될 수 있으며 CenterNet은 이와 같은 방식으로 해결하고자 한 시도입니다.
6강
(1) 왜 filter visualization에서 주로 첫번째 convolutional layer를 목표로할까요?
CNN Filter의 경우 첫번째 convolutional layer의 input이 RGB 채널로 이루어진 이유로 직관적인 해석이 가능하고, 그 뒤부터는 사람이 해석하기 어렵다는 특징이 있습니다. 과제 코드로 더 확인해보시면 직접 확인 가능합니다.
(2) Occlusion map에서 heatmap이 의미하는 바가 무엇인가요?
각 픽셀이 결과값에 얼마만큼의 중요도를 갖는지를 나타낸다고 해석할 수 있습니다. 확률값으로 계산하기 때문에 heatmap으로 visualize를 할 수 있습니다.
(3) Grad-CAM에서 linear combination의 결과를 ReLU layer를 거치는 이유가 무엇인가요?
표면적으로는 양수값만을 취해주기 위해 그렇지만, QnA세션 때 @김종하(오태현님_교육조교) 말씀대로, 실험적으로 결정한 사항이기도 합니다.
7강
(1) Mask R-CNN과 Faster R-CNN은 어떤 차이점이 있을까요? (ex. 풀고자 하는 task, 네트워크 구성 등)
Faster R-CNN의 RoI pooling을 개선하여 RoI align을 적용함과 동시에 mask branch를 추가하여 instance segmentation task를 풀고자 하는 모델이 Mask R-CNN입니다. 결국 두 모델의 큰 차이점은 RoI align과 mask branch에 있습니다.
(2) Panoptic segmentation과 instance segmentation은 어떤 차이점이 있을까요?
Instance segmentation은 object detection과 같이 개별 물체를 인식함과 동시에 해당 물체에 대한 segmentation까지 풀고자 하는 task입니다. Panoptic segmentation은 이러한 instance segmentation을 semantic segmentation과 결합하여 thing과 stuff를 모두 구분하고자 한 task입니다.
(3) Landmark localization은 human pose estimation 이외의 어떤 도메인에 적용될 수 있을까요?
Landmark localization은 RoI extraction, face alignment 등 굉장히 다양한 분야에 적용될 수 있는 task입니다.
9강
(1) Multi-modal learning에서 feature 사이의 semantic을 유지하기 위해 어떤 학습 방법을 사용했나요?
Joint embedding에서 semantic을 유지할 수 있도록 loss 를 설정하여 metric learning을 진행합니다. @김성빈(오태현님_교육조교) 메트릭 러닝 로스들 몇 가지 더 설명 추가해주실 수 있으실까요??
(2) Captioning task를 풀 때, attention이 어떻게 사용될 수 있었나요?
대표적으로 Show, attend, and tell 모델에서는 captioining의 visual referencing을 얻어내기 위해 attention을 활용했습니다. Reasoning의 일부라고 생각하셔도 좋을 것 같습니다.
(3) Sound source localization task를 풀 때, audio 정보는 어떻게 활용되었나요?
Sound source localization에서는 sound embedding을 얻어낸 뒤 context를 학습할 수 있도록 global average pooling을 진행했습니다. 그리고 visual embedding과 내적하여 localize를 할 수 있도록 정보를 조합했습니다. Audio가 visual task에 활용될 수 있는 방안은 강의에서 소개된 것 이외에도 더 많은 방법이 있을 수 있으니, 다양한 프로젝트를 구상해서 실험 진행해보시는 것도 추천드리는 학습 방향입니다.
오늘 배운 것
Further Question
(5강) Object detection
(6강) CNN visualization
(6-3) Grad-CAM에서 linear combination의 결과를 ReLU layer를 거치는 이유가 무엇인가요?
(7강) Instance/Panoptic segmentation
(7-1) Mask R-CNN과 Faster R-CNN은 어떤 차이점이 있을까요? (ex 풀고자 하는 task, 네트워크 구성 등)
(7-2) Panoptic segmentation과 instance segmentation은 어떤 차이점이 있을까요?
(7-3) Landmark localization은 human pose estimation 이외의 어떤 도메인에 적용될 수 있을까요?
(9강) Multi-modal: Captioning and speaking
질문
후기