negative 페어에 의존하지 않는 것이 향상된 robustness의 가장 큰 이유일 것으로 추측한다.
이전에 bootstrapping 기반 방법은 pseudo-labels [16], cluster indices [17] or a handful of labels [18, 19, 20] 등의 방법을 사용했지만 여기서는 직접적으로 representations을 bootstrap 하는 것을 제안한다
(bootstrap이 뭘까... 통계에서의 bootstrap은 아니라고 한다)
BYOL에서는 2개의 네트워크 : target & online 을 사용해서 서로에게 배우며 상호작용한다.
image와 augmented view가 있으면 하나는 target 에 넣어서 이 representation을 다른 view를 인풋으로 받은 online이 예측하도록 학습한다.
이 objective가 모든 image를 하나로 output하는 collapsed solution을 허용하지만 경험적으로 그러지는 않음을 보인다.
이 이유는 1) addition of a predictor to the online network 2) use of a slow-moving average of the online parameters 라고 추측한다.
2. Related Works
representation learning을 위한 unsupervised method는 generative method와 discriminative method로 나뉨
generative 방법은 데이터와 latent embedding 에 대한 분포를 만들고 학습된 임베딩을 이미지의 representation으로 쓴다. auto-encoding, GAN, data와 representation 같이 모델링 같은 방법들을 사용한다. generative 방법들은 보통 pixel space에서 직접적으로 작동하는데, computationally expensive하고 image generation에 필요한 높은 레벨의 detail은 representation learning에 사실 필요하지 않을지도 모른다.
discriminative 방법에서는 self-supervised 방법 중 contrastive method가 sota를 찍고 있다. 근데 많은 경우 다른 sample들과 비교해야 하는데 과연 negative pair를 이용하는게 필요한가라는 의문을 제기한다.
DeepCluster 에선 부분적으로 의문에 대한 답을 한다. 여기서는 다음 representation에 대한 target을 만들기 위해 representation의 이전버전에 bootstrapping을 사용한다: 이전 representation을 사용해서 clustering 한 다음에 cluster index를 classification target으로 사용한다. negative pair를 안쓰긴 하지만 갑비싼 clustering phase가 필요하다는 단점이 있고, trivial solution으로 collapse하는걸 막기위해 특별한 주의가 필요하다.
어떤 self-supervised 방법들은 contrastive 하진 않지만 부가적인 태스크를 해서 학습한다. 퍼즐, colorizing 등등. 근데 이 방법들은 contrastive 방법에 비해 성능이 떨어짐.
RL에서 사용되는 PBL(Predictions of Bootstrapped Latents)와 우리 방법은 비슷한 면이 있다. agent의 history representation과 future observation의 encoding을 jointly 학습한다.
3. Method
하나의 이미지의 다른 view를 representation space에서 직접 예측하는 것은 collapsed representation을 야기할 수 있다.
contrastive 방법은 이것을 prediction 문제에서 discrimination 문제로 reformulate함으로써 우회한다. 이렇게 하면 collapse 문제는 해결할 수 있지만 discrimination task를 충분히 어렵게 해주기 위해 보통 많은 negative example과 비교를 해줘야 한다.
이 연구는 그래서 과연 이 negative example이 필수 불가결한 것인지를 묻는 연구이다.
collapse를 방지 하기 위해 단순한 방법은 고정된 random init 네트워크를 사용해서 target을 생산하는 것이다. 이 방법은 collapse를 안하긴하지만 별로 좋은 representation을 생산하지 않는다. 그래도 이 방법으로 학습된 representation이 처음의 고정된 representation보다는 좋다는 것은 흥미롭다. 학습 전에는 1.4% -> 학습 후에는 18.8% 정확도가 나온다. 이것이 BYOL의 핵심 모티베이션이다.
given representation, target이 주어졌을때 개선된 representation, online을 target을 예측함으로써 새로 학습한다.
근데 이 과정을 반복하면 더 좋은 representation을 생산할 수 있지 않을까? subsequent online network를 새로운 target network로 사용하는 것이다. 실제로 적용할때는 BYOL에서는 이것을 slowly moving exponential average of the online network를 target network로 사용함으로써 적용한다.
3.1 Description of BYOL
BYOL의 goal = downstream task에 사용할 수 있는 representation $y_\theta$ 를 학습한다.
online에다가만 prediction 을 apply (linear 한번더)함으로써 asymmetric 아키텍처를 만든다.
그리고 online과 target의 Mean Squared Error 를 적용.
3.2 Intuitions on BYOL's behavior
loss가 $\theta$ 와 e? 를 jointly minimize하는것처럼 보일수도 있다. 하지만 실제로는 아니다. GAN에서처럼 jointly minimized 되는 것은 없다. 따라서 전체의 minimum으로 수렴할 선험적인 이유는 없다.
BYOL의 dynamics가 바람직하지 않은 평형점을 허용하기는 하지만 실제 실험에서 그런 경우는 관측하지 못했다. 또한 그런 바람직하지 않은 평형점은 unstable하다고 가설을 세운다.
Conference : NIPS 2020 Link : https://arxiv.org/abs/2006.07733 Authors' Affiliation : DeepMind TL;DR : Better than SimCLR w/o negative pairs.
Summary :
1. Introduction
기존 방법들은 negative pair들을 매우 잘 다뤄야만 한다.
또한 성능이 image augmentations 성능에 크게 좌우된다.
제안하는 BYOL은 negative pair 없이한다.
BYOL contrastive methods보다 choice of image augmentations에 robust하다. (+ bsz의 변화에도 resilient)
negative 페어에 의존하지 않는 것이 향상된 robustness의 가장 큰 이유일 것으로 추측한다.
이전에 bootstrapping 기반 방법은 pseudo-labels [16], cluster indices [17] or a handful of labels [18, 19, 20] 등의 방법을 사용했지만 여기서는 직접적으로 representations을 bootstrap 하는 것을 제안한다
(bootstrap이 뭘까... 통계에서의 bootstrap은 아니라고 한다)
BYOL에서는 2개의 네트워크 : target & online 을 사용해서 서로에게 배우며 상호작용한다.
image와 augmented view가 있으면 하나는 target 에 넣어서 이 representation을 다른 view를 인풋으로 받은 online이 예측하도록 학습한다.
이 objective가 모든 image를 하나로 output하는 collapsed solution을 허용하지만 경험적으로 그러지는 않음을 보인다.
이 이유는 1) addition of a predictor to the online network 2) use of a slow-moving average of the online parameters 라고 추측한다.
2. Related Works
representation learning을 위한 unsupervised method는 generative method와 discriminative method로 나뉨
generative 방법은 데이터와 latent embedding 에 대한 분포를 만들고 학습된 임베딩을 이미지의 representation으로 쓴다. auto-encoding, GAN, data와 representation 같이 모델링 같은 방법들을 사용한다. generative 방법들은 보통 pixel space에서 직접적으로 작동하는데, computationally expensive하고 image generation에 필요한 높은 레벨의 detail은 representation learning에 사실 필요하지 않을지도 모른다.
discriminative 방법에서는 self-supervised 방법 중 contrastive method가 sota를 찍고 있다. 근데 많은 경우 다른 sample들과 비교해야 하는데 과연 negative pair를 이용하는게 필요한가라는 의문을 제기한다.
DeepCluster 에선 부분적으로 의문에 대한 답을 한다. 여기서는 다음 representation에 대한 target을 만들기 위해 representation의 이전버전에 bootstrapping을 사용한다: 이전 representation을 사용해서 clustering 한 다음에 cluster index를 classification target으로 사용한다. negative pair를 안쓰긴 하지만 갑비싼 clustering phase가 필요하다는 단점이 있고, trivial solution으로 collapse하는걸 막기위해 특별한 주의가 필요하다.
어떤 self-supervised 방법들은 contrastive 하진 않지만 부가적인 태스크를 해서 학습한다. 퍼즐, colorizing 등등. 근데 이 방법들은 contrastive 방법에 비해 성능이 떨어짐.
RL에서 사용되는 PBL(Predictions of Bootstrapped Latents)와 우리 방법은 비슷한 면이 있다. agent의 history representation과 future observation의 encoding을 jointly 학습한다.
3. Method
하나의 이미지의 다른 view를 representation space에서 직접 예측하는 것은 collapsed representation을 야기할 수 있다.
contrastive 방법은 이것을 prediction 문제에서 discrimination 문제로 reformulate함으로써 우회한다. 이렇게 하면 collapse 문제는 해결할 수 있지만 discrimination task를 충분히 어렵게 해주기 위해 보통 많은 negative example과 비교를 해줘야 한다.
이 연구는 그래서 과연 이 negative example이 필수 불가결한 것인지를 묻는 연구이다.
collapse를 방지 하기 위해 단순한 방법은 고정된 random init 네트워크를 사용해서 target을 생산하는 것이다. 이 방법은 collapse를 안하긴하지만 별로 좋은 representation을 생산하지 않는다. 그래도 이 방법으로 학습된 representation이 처음의 고정된 representation보다는 좋다는 것은 흥미롭다. 학습 전에는 1.4% -> 학습 후에는 18.8% 정확도가 나온다. 이것이 BYOL의 핵심 모티베이션이다.
근데 이 과정을 반복하면 더 좋은 representation을 생산할 수 있지 않을까? subsequent online network를 새로운 target network로 사용하는 것이다. 실제로 적용할때는 BYOL에서는 이것을 slowly moving exponential average of the online network를 target network로 사용함으로써 적용한다.
3.1 Description of BYOL
BYOL의 goal = downstream task에 사용할 수 있는 representation $y_\theta$ 를 학습한다.
online에다가만 prediction 을 apply (linear 한번더)함으로써 asymmetric 아키텍처를 만든다.
그리고 online과 target의 Mean Squared Error 를 적용.
3.2 Intuitions on BYOL's behavior
loss가 $\theta$ 와 e? 를 jointly minimize하는것처럼 보일수도 있다. 하지만 실제로는 아니다. GAN에서처럼 jointly minimized 되는 것은 없다. 따라서 전체의 minimum으로 수렴할 선험적인 이유는 없다.
BYOL의 dynamics가 바람직하지 않은 평형점을 허용하기는 하지만 실제 실험에서 그런 경우는 관측하지 못했다. 또한 그런 바람직하지 않은 평형점은 unstable하다고 가설을 세운다.
3.3 Implementation details