boostcampaitech3 / level2-semantic-segmentation-level2-cv-17

[2022.04.25 ~ 2022.05.12] Recycle Trash Semantic Segmentation Competition - 부스트캠프 AI Tech 3기
4 stars 2 forks source link

[Model] Transformer (MiT or SwinT) + Lawin #42

Open Dongwoo-Im opened 2 years ago

Dongwoo-Im commented 2 years ago

Background

image Cityspace dataset에서 좋은 성능을 보이고 있는 Lawin Transformer를 mmseg 기반으로 학습시켜 보고자 합니다.

Content

Backbone : Transformer (MiT or SwinT) Encoder > Decoder : LawinASPP (이 부분은 github에 없는것 같기는 합니다.) Decoder : Lawin Head (Multi) image

Details

paper : https://arxiv.org/pdf/2201.01615.pdf github : https://github.com/yan-hao-tian/lawin/blob/main/lawin_head.py

hyoseok1223 commented 2 years ago

제가 확인해본게 저 MiT인데, 꽤나 무겁고 weight load가 잘 안되는 것 같습니다. Segformer Weight Issue참고하셔도 도움이 될 것 같습니다.

Dongwoo-Im commented 2 years ago

우선 위에 첨부한 github의 custom head를 추가하려 했는데, build 에러가 생겨서 이 방법은 포기했습니다. 지금 시도중인 방법은 semseg 라이브러리를 사용하는 것인데, 일단은 한 번 돌려보는 것을 목표로 하고 있습니다!

제가 생각한 장점은 다음과 같습니다.

semseg : https://github.com/sithu31296/semantic-segmentation

Dongwoo-Im commented 2 years ago

semseg 쓰면서 CUDA Error가 계속 뜨는데, 이걸 하나하나 뜯어보는게 맞나 싶어서 나중에 여유있을 때 다시 해보곘습니다..!

결론은 Lawin 폐기입니다.