Closed jungwoo-ha closed 2 years ago
Arxiv (Audio and Speech Processing)
Music2Video: Automatic Generation of Music Video with fusion of audio and text
MR-SVS: Singing Voice Synthesis with Multi-Reference Encoder
FAIR + BAIR
ViT, Swin Transformer와 같은 computer vision 분야의 transformer 계열 network에 대한 CNN의 반격(?)
ConvNet의 현대화라는 이름으로 여러가지 테크닉들을 적용하여 ConvNeXt라는 새로운 network을 제안
ViT, Swin, RegNet, EffNet 등등보다 classification, detection, segmentation에서 모두 동등 혹은 우월한 성능을 보여주었음
ResNet에 새롭게 적용한 기술들
Twitter에서 fair comparison이 아니라는 비난을 일부 받고 있음
Arxiv
News
Structure and position-aware graph neural network for airway labeling Arxiv: https://arxiv.org/abs/2201.04532 GitHub: https://github.com/DIAGNijmegen/spgnn (아직 없음).
흉부 의료영상에서 저명하신 네덜란드의 Bram van Ginneken 교수님의 연구를 공우해드립니다.
Segmentation이 되어 있는 Lung CT 영상에서 각 airway가 구체적으로 폐의 어떤 airway인지 classification하는 연구에 CNN과 Graph Transformer를 사용한 연구입니다.
Airway의 구조는 큰 가지와 작은 가지의 구조에서 큰 차이가 존재하는데 작은 가지는 개인마다 차이가 크지만 대체로 큰 가지를 비슷합니다. 이때 해당 가지가 어떤 segment인지 분류하는 것을 하기 위해 기존에는 순수 CNN classification 방식이나 segmentation 방식을 적용했었으나 본 논문에서는 구조 정보와 위치 정보를 혼합한 구조를 사용합니다.
조금 아쉬운 점은 segmentation map ground truth가 미리 제공되어야 한다는 점인 것 같습니다.
https://www.nec.go.kr/site/vt/ex/bbs/View.do?cbIdx=1231&bcIdx=156972&relCbIdx=1084
https://analyticsindiamag.com/absurd-happenings-in-the-world-of-ai-in-china/
https://www.weforum.org/agenda/2022/01/we-re-failing-at-the-ethics-of-ai-here-s-why/
어떤 분이 흥미로운 논문을 발견(?)해서 1월 5일 Reddit에 공유를 했네요. Time-series anomaly detection (TAD) 문제의 evaluation 과정에서 후처리로 쓰는 point adjustment (PA)라는 프로세스가 있는데, PA만 있으면 random prediction도 SOTA를 찍는 놀라운 변신 능력(?)을 보여준다고 합니다. 즉, 성능평가에 있어 PA를 적용한 여러 TAD 연구들의 성능이 매우 과장되어 있다는 것이죠.
원 논문은 (흥미롭게도) 한국에서 나온 논문입니다. (will appear in AAAI-22) Towards a Rigorous Evaluation of Time-series Anomaly Detection Siwon Kim, Kukjin Choi, Hyun-Soo Choi, Byunghan Lee, Sungroh Yoon
PA는 "ground truth 입장에서 보았을 때 하나라도 point-wise prediction에 걸렸다면 모두를 맞춘 것으로 친다"라고 하는 '하나만 걸려라' 식 후처리입니다. 아래 그래프에서처럼 딱 하나만 point prediction이 threshold를 넘어도 GT를 참고해 모든 point를 맞춘것처럼 prediction을 수정해 주는거죠.
우습게도(?) PA를 적용하면 현존하는 최고의 TAD 알고리즘은 random prediction이 된다고 하네요.
Reddit의 댓글에는 time-series prediction에서 꾸준히 재기되어왔던 성능평가에 대한 이슈를 비판하며 "오늘의 날씨 = 어제의 날씨"와 같은 냉소적인 댓글이 달리고 있네요.
[Terry의 의견] 학계에서 말하는 '벤치마크에서 높은 성능을 찍었다'라는 것과 실제 현장에서 '이 알고리즘이 정말 쓸만하다'라는 것과 차이가 날 때가 많습니다. 때로는 데이터의 가정이 현실적이지 않아서, 때로는 현실에선 논문처럼 문제가 명확하게 정의되지 않아서, 때로는 evaluation이 현실문제와는 동떨어져서 등의 이유로 현실에선 못쓰이는 경우가 많죠. 하지만 여전히 많은 연구자들은 "쓸모없는 문제"에서 SOTA를 찍으려 노력합니다.
현실에서 가장 어려운 문제 중 하나가 '이 문제를 잘 풀었다는 것을 어떻게 evaluation 하는가?'에 대한 답을 내는 것입니다. 현실문제를 수학적으로 모델링하고, 그 성능을 하나의 숫자로 표현 한다는 건 정말 어려운 일이죠 (그것만으로도 AI에서 큰 업적을 냈다고 할만합니다.) 하지만 TAD 문제가 어렵단 이유로 이렇게 관대한 metric을 2018년에 제안하고 아직까지도 써왔다는 것에 대해선 유감입니다. 아마도 논문의 우수성을 증명하고 싶었겠지만, 어려운 문제는 과장없이 '어렵다'는 결론으로 두는게 맞지 않을까 싶습니다.
[Reference] PA를 처음 evaluation에 사용한 논문: Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications, H. Su et al.
ArXiv
A ConvNet for the 2020s by 이진원님
Detecting Twenty-thousand Classes using Image-level Supervision
기존 Detector보다 훨씬 많은 object vocabulary를 커버하는 신개념 detector from Meta AI
Detection 데이터도 image-level label 데이터도 둘다 학습 가능 (Open vocabulary detector 위해 CLIP embedding 활용)
GT label + box 개념이 아니라 GT label을 포함하는 전체 큰 박스를 활용
LVIS, Openvoc COCO, Openimages, Object365 등 평가해서 상당한 개선
https://github.com/facebookresearch/Detic
Contrastive Fine-grained Class Clustering via Generative Adversarial Networks
GAN 기반의 Fine-graind image class clustering 기법
기존 연구는 box annotation supervision이 필요했고 없으면 성능이 별로 였음.
배경, 물체 분리해서 cluster 와 latent sampling으로 컨트롤 해서 다양한 이미지가 생성되면서 미세한 detail feature 학습되도록 generator 와 discriminator 학습
입력되는 이미지는 D를 통과해서 나오는 feature를 가장 가까운 cluster centroid에 매핑
그래서 클러스터링도 되면서 이미지 생성도 잘되는 모델
https://github.com/naver-ai/c3-gan