8월: YOLOv4 논문읽기

minji-o-j commented 4 years ago

방학 목표: YOLO의 최신 모델인 YOLO v4에 대한 논문을 읽고 분석한다.
[x] 8월 12일까지 해와야 할 것
- 용어 위주로 정리해보기
- 요점 간단하게 한국어로 적어오기
- 흐름 이해 해오기
[x] 8월 14일 금
- 2-2까지 읽어오기
[x ] 9월 10일 목
- 3-4까지 읽어오기
- 6까지 읽어오기
  
  논문 링크
https://arxiv.org/abs/2004.10934

참고자료

minji-o-j commented 4 years ago

< Abstract >

CNN 정확도를 개선시키는 많은 feature들이 존재.
이러한 feature에 대하여 대규모 데이터셋을 이용한 실제적인 테스트와 결과에 대한 이론적 정당화가 요구됨.
몇몇 feature들은 특정 모델, 특정한 문제에 혹은 소규모 데이터셋에 한해서만 작동됨
반면에 batch-normalization과 residual connection 과 같은 몇몇 feature들은 대다수의 모델, 문제, 데이터셋에 대해서 적용 가능함. 이러한 보편적 feature들이 WRC, CSP, CmBN,SAT, Mish-activation을 포함하고 있을 것이라 추정됨
(그래서) WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, DropBlock regularization, CIoU loss와 같은 새로운 feature를 적용하고 이중 몇개를 조합해서 결과 도출.
MS COCO dataset 기준 43.5%AP, (65.7% AP_50)
실시간 속도 ~65FPS(Tesla V 100)

< Introduction >

대부분 CNN 기반 object detector들은 주로 추천 시스템에만 적용 가능
Ex)
- 빈 주차 공간: 도심 내 비디오 카메라 이용, 느리지만 정확한 모델 적용
- 차량 충돌 경고: 빠르지만 부정확한 모델 적용 --> 속도와 정확도 둘다 충족되지 않았다는 의미
실시간 물체 인식 정확도를 늘린다면 추천시스템, stand-alone process 관리, 인력 투입 감소 에도 사용 가능
실시간 물체 인식을 GPU에서 수행하는 대량 사용을 저렴한 비용에 가능하게끔 한다.
하지만 더 정확한 최신 neural network들은 실시간으로 동작하지 않으며, training 위해 GPU를 여러개 사용해야함
따라서 기존 GPU에서 실시간으로 동작하며, training시 1개의 기존 GPU만 있으면 되는 CNN 을 만들어 이러한 문제를 해결하고자 함
본 논문의 주요 목적: 빠르게 동작하는 objec detector를 디자인하고 병렬계산을 최적화 하는것(BFLOP (연산량)을 줄이는 것 보다는)
저자는 Data가 쉽게 훈련되고 사용되길 원하며, 누구나 YOLOv4를 이용하여 기존의 GPU를 가지고 그림과 같은 결과를 실시간으로 얻을 수 있을 것이라고 함.
YOLOv4의 작업 요약
1. 효율적이고 강력한 object detection 모델을 1080Ti 2080Ti와 같은 환경에서도 매우 빠르고 정확하게 Train 가능
2. detector의 훈련 과정에서 최신식의 Bag-of-Freebies, Bag-of-Specials 기법들이 주는 영향력에 대해 검증
3. 단일 GPU training에 적합하도록 최신의 기법을 더 효율적이고 적합하도록 수정함.(CBN, PAN, SAM 등 포함)