[Model] Transformer (MiT or SwinT) + Lawin

Dongwoo-Im commented 2 years ago

Background

Cityspace dataset에서 좋은 성능을 보이고 있는 Lawin Transformer를 mmseg 기반으로 학습시켜 보고자 합니다.

Backbone : Transformer (MiT or SwinT) Encoder > Decoder : LawinASPP (이 부분은 github에 없는것 같기는 합니다.) Decoder : Lawin Head (Multi)

hyoseok1223 commented 2 years ago

제가 확인해본게 저 MiT인데, 꽤나 무겁고 weight load가 잘 안되는 것 같습니다. Segformer Weight Issue참고하셔도 도움이 될 것 같습니다.

Dongwoo-Im commented 2 years ago

우선 위에 첨부한 github의 custom head를 추가하려 했는데, build 에러가 생겨서 이 방법은 포기했습니다. 지금 시도중인 방법은 semseg 라이브러리를 사용하는 것인데, 일단은 한 번 돌려보는 것을 목표로 하고 있습니다!

제가 생각한 장점은 다음과 같습니다.

최신 모델 다수 보유
편리한 config (이걸 진작에 봤으면 torch config를 훨씬 잘 만들 수 있었을 것 같네요.)
pytorch base로 작성되어서 custom 하기 수월할 것으로 예상
mmseg와 유사한 메커니즘으로 setup 가능 (mmseg data 폴더 복붙해서 이름만 바꿔주면 됩니다.)
pytorch & torchvision version 문제가 있었는데, 규범 캠퍼님 글 참고해서 cuda 버전 & pytorch 버전 바꾸는 것으로 해결
그런데 이제 와서 이걸 쓰자니 조금 고민되기도 하네요.. 내일 15시에 한 번 보여드리겠습니다.

Dongwoo-Im commented 2 years ago

semseg 쓰면서 CUDA Error가 계속 뜨는데, 이걸 하나하나 뜯어보는게 맞나 싶어서 나중에 여유있을 때 다시 해보곘습니다..!

결론은 Lawin 폐기입니다.