목적 : 하나는 distorted image, 하나는 그냥 image가 동일한 네트워크에 들어가서 cross-correlation matrix를 구해서 최대한 identity matrix로 만들어서 collapse를 피하는 방식.
Distorted version의 샘플이 유사해지면, 이 두 벡터 사이의 redundancy가 최소화될 것.
이 방식은 큰 배치 사이즈가 필요하지도 않음.
C는 두 output vector 간 cross-correlation matrix(2)를 의미함.
Invariance term: cross-correlation matrix에서 diagonal 값이 1이 되게끔
Redundancy reduction term: off-diagonal elements 값이 0이 되게(베딩에서 서로 다른 components에 해당하는 애들은 decorrelate) 학습하면서 distortion에 invariant하게 됨. 이렇게 decorrelation하면 output간의 redundancy를 줄일 수 있어서 output값은 non-redundant information을 갖게 됨.
Redundancy reduction term을 soft-whitening operation으로 볼수 있으며 hard-whitening method보다도 잘 한다고 함.
이 redundancy reduction term이 마치 InfoNCE loss의 역할을 하게 됨.
이 두 Loss를 보면 distoration에 invariant한 임베딩을 만들려고 학습하고 학습한 임베딩 사이의 variability를 최대화한다는 점임.
또 batch statistics에 의존해서 variability를 measure한다는 점임.
하지만 InfoCNE loss의 경우 모든 pair sample 간 거리를 다 측정해서 이 거리를 최대화함으로써 variability를 최대화하는 object인데, - 본 방식의 경우 임베딩 벡터의 components를 decorrelating함으로써 똑같은 역할을 하고 있음.
또 InfoNCE는 임베딩 분포의 엔트로피에 대한 non-parametric estimation으로 볼 수 있어서 차원의 저주로 이어지기 때문에 low-dimensional setting에서만 유효함. 반면 본 방식은 proxy emtropy estimator로 볼 수 있음.