[2022 ICLR Under Review] Masked-attention Mask Transformer for Universal Image Segmentation

메트릭 러닝이란, Embedding Vector 간의 거리가, 의미론적 유사성과 매핑되도록 만드는 것입니다. 그렇기에, DML(Deep Metric Learning)이란 간단하게 말하면 Neural Net이 사람의 생각과 유사한 것들을 학습하도록 만들자는 것입니다.

그동안 여러 논문들에서 DML의 일반화 성능을 개선하기 위해 여러가지 작업들을 진행하였지만, 이런 실험들이 정말로 네트워크의 공정성을 향상시켰는지에 대한 연구들은 진행되지 않았습니다.

해당 논문에서는 공정성의 정의를 하기 위해서, Representation Space 내부에서 Inter-class alignment, intra-class alignment, uniformity 분석을 사용합니다.

일반적으로 DML은 유사성은 잘 학습하지만, 공정성을 학습 하는데에는 문제가 있습니다. 이를 증명하기 위해 다양한 실험을 진행했습니다. 또한, 기존의 DML들은 불균형 데이터에 영향을 크게 받는다는 문제점들이 있었습니다. 학습 방법 자체에 문제가 있는 경우, 데이터를 잘 넣어준다고, 편향이 해결이 되지는 않습니다. 이는 여러가지 실험을 통해서 확인을 할 수가 있으며, 데이터가 아무리 균형 잡혔다고 하더래도 다운스트림 과정에서 마지막으로, Downstream Classification task에서 bias가 발생하는데(?), 이를 해결하기 위해 zero-shot generalization 기반의 PARADE(PARtial Attribute DEcorrelation)을 제안했다.

gusdlf93 / Paper_Survey

[2022 ICLR Under Review] Masked-attention Mask Transformer for Universal Image Segmentation #11