[20220116] Weekly AI ArXiv 만담 - 36회차

News
- Conference 소식
- ACL commitment + rebuttal + NAACL 제출 수고 많으셨습니다.
- ICML 2022 abs deadline 은 20일 입니다.
- NAVER Webtoon AI Video Webtoon!: https://webtoon.github.io/WebtoonMe/
- https://user-images.githubusercontent.com/11782739/149538436-c2410e54-9082-406d-b58e-e4a10a2ba96b.mp4
ArXiv
- A ConvNet for the 2020s by 이진원님
- Detecting Twenty-thousand Classes using Image-level Supervision
- 기존 Detector보다 훨씬 많은 object vocabulary를 커버하는 신개념 detector from Meta AI
- Detection 데이터도 image-level label 데이터도 둘다 학습 가능 (Open vocabulary detector 위해 CLIP embedding 활용)
- GT label + box 개념이 아니라 GT label을 포함하는 전체 큰 박스를 활용
- LVIS, Openvoc COCO, Openimages, Object365 등 평가해서 상당한 개선
- https://github.com/facebookresearch/Detic
- Contrastive Fine-grained Class Clustering via Generative Adversarial Networks
- GAN 기반의 Fine-graind image class clustering 기법
- 기존 연구는 box annotation supervision이 필요했고 없으면 성능이 별로 였음.
- 배경, 물체 분리해서 cluster 와 latent sampling으로 컨트롤 해서 다양한 이미지가 생성되면서 미세한 detail feature 학습되도록 generator 와 discriminator 학습
- 입력되는 이미지는 D를 통과해서 나오는 feature를 가장 가까운 cluster centroid에 매핑
- 그래서 클러스터링도 되면서 이미지 생성도 잘되는 모델
- https://github.com/naver-ai/c3-gan

Arxiv (Audio and Speech Processing)
- Music2Video: Automatic Generation of Music Video with fusion of audio and text
  1. Summary
    - 코드 URL : https://github.com/joeljang/music2video
    - 샘플 URL : https://www.youtube.com/watch?v=CaS-ruEiUcg
    - multi-modal representation 모델을 기반으로 text와 audio 소스로부터 이미지를 생성하여 뮤직비디오처럼 만들어주는 재밌는 연구
  2. Problem
    - 기존의 CLIP [1]에서는 text와 이미지 representation을 Wav2CLIP [2]에서는 audio를 추가하여 공통된 representation을 이용하는 모습을 보여주었지만 단순히 audio representation을 text 기반 생성 프로세스에 합치는 것은 텍스트로부터의 시각화를 방해하는 경향이 있음
    - [1] Learning Transferable Visual Models From Natural Language Supervision
    - [2] Wav2CLIP: Learning Robust Audio Representations From CLIP
  3. Proposed method
    - 그림의 위쪽과 같이 music에서 onset의 강도를기반으로 dynamic interval을 가지는 segment로 music을 분리
    - segment된 music을 mel-spectrogram으로 바꾼 뒤 VQ-GAN으로 이미지를 생성
    - 이미지넷 송을 이용해서 이미지넷 클래스들에 해당하는 그림들을 생성
    - 그림의 아래쪽과 같이 audio segment를 넣거나 가사가 있는 경우에만 가사로 CLIP vector를 생성
    - 시간 연속성을 유지하기 위해 CLIP vector 사이의 평균 값을 guidance로 주었다고 함
  4. Results
- MR-SVS: Singing Voice Synthesis with Multi-Reference Encoder
  1. Summary
    - 샘플 URL : https://mr-svs.github.io/
    - Multi-speaker singing voice synthesis 모델 제안
    - 제안하는 모델의 이름은 the multi-reference encoder based singing voice synthesis (MR-SVS)
  2. Problem
    - 기존의 zero-shot singing adaptation 방법은 single reference audio로부터 고정된 크기의 embedding을 이용하였음
    - 이 방식은 1) 고정된 target speaker의 embedding vector는 detail에 대한 정보가 없고 2) 하나의 reference audio로는 충분한 정보를 얻기 힘들며 3) speaker 별 pitch의 범위가 다르므로 음성 품질이 저하됨
  3. Proposed method
    - 그림이 약간 이상 / reference audio의 output을 일렬로 붙이는 것도 이상
    - multi-head multi-reference embedding encoder에서는 reference audio를 여러 개(실험에서는 8개) 선택하여 Bi-LSTM을 거쳐 vector를 만들고 이를 flat하게 만든 뒤 encoder output과 attention을 취해서 speaker embedding을 만듦
    - speaker encoder에서는 speaker verification 모델을 이용하여 reference audio의 representation을 구함
    - 남자와 여자 등 speaker 별 pitch의 range가 다르기 때문에 normalize를 해줌
  4. Results
    - 결과는 제안하는 방법(MR-SVS)이 가장 좋았고, pitch shift를 사용하는 것에 대한 결과도 좋아짐을 확인
    - 비평을 하자면
      1. reference audio를 representation을 일렬로 붙이고 attention을 취하는게 이상하다고 생각됨
      2. 이 논문에서 취한 방법이 singing을 위해서라고는 볼 수 없고 일반적인 TTS에 대한 내용으로 보임
      3. pitch shift와 speaker encoder의 사용은 적절하다고 보여지지만 이것도 singing voice를 위한 것은 아님

A ConvNet for the 2020s
- FAIR + BAIR
- ViT, Swin Transformer와 같은 computer vision 분야의 transformer 계열 network에 대한 CNN의 반격(?)
- ConvNet의 현대화라는 이름으로 여러가지 테크닉들을 적용하여 ConvNeXt라는 새로운 network을 제안
- ViT, Swin, RegNet, EffNet 등등보다 classification, detection, segmentation에서 모두 동등 혹은 우월한 성능을 보여주었음
- ResNet에 새롭게 적용한 기술들
  - modern training techniques: AdamW, longer training, various augmentations, stochastic depth, label smoothing, etc.
  - changing stage compute ratio: (3, 4, 6, 3) -> (3, 3, 9, 3)
  - patchifying stem network: 4x4 conv w/ stride 4
  - ResNextify: using depthwise convolution(group conv, # of groups = # of channels)
  - inverted bottleneck: like mobilenet v2
  - moving up detphwise conv layer: depthwise conv위치를 1x1 위로 올림(먼저 수행)
  - increasing the kernel size: 3x3 -> 7x7
  - ReLU -> GELU
  - fewer activation functions: single GELU activation in each block
  - fewer normalization layers, layer norm: single layer norm layer in each block
  - separate downsampling layers
- Twitter에서 fair comparison이 아니라는 비난을 일부 받고 있음

Arxiv
- AI that understands speech by looking as well as hearing
  - 사람이 기계보다 대화를 더 잘 인식할 수 있는 이유는 귀로만 듣는 것이 아니라 눈으로 상대방을 보고 있기 때문
  - 그래서 음성 인식 + 화자 입술 인식을 더해서 Audio-Visual Speech Recognition을 실시
  - self supervised learning을 활용해서 레이블된 데이터가 적을 때에도 꽤 잘 작동한다고 합니다
  - Robust Self-Supervised Audio-Visual Speech Recognition
  - https://arxiv.org/abs/2201.02184?fbclid=IwAR3kJaVQyhd-_wAWPjuGyZCohW-4zEgIJ_dI8LL7cLsYGvGcbwra4vzDZ54
  - 향후 Multilingual으로도 연구할 예정이고, 언어 장애가 있는 사람을 위한 도구로도 잘 작동할 것으로 전망
News
- Chinese scientists develop AI ‘prosecutor’ that can press its own charges
  - 중국에서 기소까지 가능한 AI '검사'를 개발
  - 사건에 대한 구두 설명 데이터로 97% 정확도를 기록
  - 15년부터 20년까지 총 17,000건 이상의 사건 사례를 학습
  - credit card fraud, running a gambling operation, dangerous driving, intentional injury, obstructing official duties, theft, fraud (신용카드 사기, 도박판 운영, 난폭 운전, 고의적인 상해, 공무집행 방해, 절도, 사기) 등을 구분할 수 있음
- We’re one step closer to self-farming farms
  - 또다른 자율 주행 센세이션은 자율 주행 농기계?!
  - John Deere라는 미국의 농기계 회사가 John Deere 8R tractor를 올해 가을 수확철에 판매 개시할 예정
  - 스마트폰으로 제어하고 360도를 관찰하는 스테레오 카메라가 6개가 달려있음
  - 아래 이미지의 다른 존 디어 농기계에는 운전석이 있지만 새로 나오는 자율주행 트랙터에는 운전석도 없다고 함
  - 미국도 농업 인력이 부족하여 예상 60만 달러가 넘는 고가의 장비임에도 많은 구매가 이루어질 것 같다는 전망
  - 단순한 수확이나 재배, 밭갈기 뿐만 아니라 지속적으로 데이터를 수집하고 농장 생산량 최적화 등의 기능도 제공할 예정
- 과기정통부, 2022년 인공지능·소프트웨어 분야 인재...3,285억 투자해 총 21,500명 양성한다
  - 2022년 인공지능·소프트웨어 분야 인재양성에 지난해보다 660억원이 늘어난 3,285억을 투자하여 총 21,500명을 양성
  - 메타버스 융합대학원?!

Arxiv
- face analysis in the wild using synthetic data alone
- 얼굴쪽 컴퓨터비전 작업에 3D 얼굴 모델(obj)을 사용한 라벨링을 제안
- 사람의 수작업으로는 불가능한 영역까지 라벨링을 확장, SOTA에 가까운 결과도 얻음

Structure and position-aware graph neural network for airway labeling Arxiv: https://arxiv.org/abs/2201.04532 GitHub: https://github.com/DIAGNijmegen/spgnn (아직 없음).

흉부 의료영상에서 저명하신 네덜란드의 Bram van Ginneken 교수님의 연구를 공우해드립니다.

Segmentation이 되어 있는 Lung CT 영상에서 각 airway가 구체적으로 폐의 어떤 airway인지 classification하는 연구에 CNN과 Graph Transformer를 사용한 연구입니다.

Airway의 구조는 큰 가지와 작은 가지의 구조에서 큰 차이가 존재하는데 작은 가지는 개인마다 차이가 크지만 대체로 큰 가지를 비슷합니다. 이때 해당 가지가 어떤 segment인지 분류하는 것을 하기 위해 기존에는 순수 CNN classification 방식이나 segmentation 방식을 적용했었으나 본 논문에서는 구조 정보와 위치 정보를 혼합한 구조를 사용합니다.

조금 아쉬운 점은 segmentation map ground truth가 미리 제공되어야 한다는 점인 것 같습니다.

Screenshot (10)

Screenshot (11)

선관위, 딥페이크 영상 기반 선거운동에 대한 법규 해석 발표

https://www.nec.go.kr/site/vt/ex/bbs/View.do?cbIdx=1231&bcIdx=156972&relCbIdx=1084

딥페이크 영상을 이용해 선거운동을 할 수는 있음. 그러나 딥페이크영상(AI○○○)임을표시하지않는경우「공직 선거법」(이하‘법’이라함)제250조(허위사실공표죄)에위반됨
방송연설에서의 딥페이크 영상 활용은 원천 금지. 선관위는 “방송연설의 주체는 후보자 본인이기 때문에 후보자를 대신해 딥페이크 영상을 방영할 수는 없다"고

중국 AI 세계에서 벌어지는 일들

https://analyticsindiamag.com/absurd-happenings-in-the-world-of-ai-in-china/

사회적 반대, 비판, '도발' 문제를 포함한 범죄 혐의를 식별하고 기소하기 위한 "AI 검사"
97%의 정확도라면 3%에 대해서는 누가 책임을 져야 하는가 ?
중국의 인공 지능 거버넌스 체제에 대한 일련의 정책들을 발표 (2021년 하반기)
- 중국 사이버 공간 관리국(CAC)은 인터넷 추천 알고리즘을 규제하기 위한 30가지 규칙 초안을 발표 - http://www.cac.gov.cn/2021-08/27/c_1631652502874117.htm
- 모든 인터넷 알고리즘을 관리하기 위한 3년 로드맵 을 발표 - http://www.cac.gov.cn/2021-09/29/c_1634507915623047.htm
- ' 신뢰할 수 있는 AI' 시스템 의 테스트 및 인증을 위한 도구 - https://cset.georgetown.edu/publication/white-paper-on-trustworthy-artificial-intelligence/
- 기업 및 연구기관 내 AI 윤리 원칙 수립 및 기술 윤리 심의위원회 신설 - http://www.most.gov.cn/tztg/202107/t20210728_176136.html

우리는 AI의 윤리에 실패하고 있다

https://www.weforum.org/agenda/2022/01/we-re-failing-at-the-ethics-of-ai-here-s-why/

글로벌 COVID-19 위기는 AI 확산을 가속화시켰음. 5년에 걸쳐 일어났을 기술이 6개월 에 걸쳐 일어남
대유행이 AI를 우리 삶에 광속으로 포함시켰지만, AI와 관련된 규칙과 윤리를 이해해야 하는 시급함도 증폭. 예를 들어, 생체 인식 추적 및 추적 응용 프로그램을 담당하는 기술 회사는 현재 엄청난 양의 개인 생체 데이터를 소유하고 있으며 이를 어떻게 처리하고 어떻게 보호할지에 대한 명확한 규칙이 없음. 1) AI 윤리 및 규칙에 대한 기존 대화 확장이 필요 2) '윤리'에 대한 이야기가 의미 있는 행동으로 옮겨지지 않고 있음 3) AI와 윤리에 대한 대화는 상아탑에 국한

"Most Time Series Anomaly Detection Papers are Wrong" (Reddit)

어떤 분이 흥미로운 논문을 발견(?)해서 1월 5일 Reddit에 공유를 했네요. Time-series anomaly detection (TAD) 문제의 evaluation 과정에서 후처리로 쓰는 point adjustment (PA)라는 프로세스가 있는데, PA만 있으면 random prediction도 SOTA를 찍는 놀라운 변신 능력(?)을 보여준다고 합니다. 즉, 성능평가에 있어 PA를 적용한 여러 TAD 연구들의 성능이 매우 과장되어 있다는 것이죠.

원 논문은 (흥미롭게도) 한국에서 나온 논문입니다. (will appear in AAAI-22) Towards a Rigorous Evaluation of Time-series Anomaly Detection Siwon Kim, Kukjin Choi, Hyun-Soo Choi, Byunghan Lee, Sungroh Yoon

PA는 "ground truth 입장에서 보았을 때 하나라도 point-wise prediction에 걸렸다면 모두를 맞춘 것으로 친다"라고 하는 '하나만 걸려라' 식 후처리입니다. 아래 그래프에서처럼 딱 하나만 point prediction이 threshold를 넘어도 GT를 참고해 모든 point를 맞춘것처럼 prediction을 수정해 주는거죠.

우습게도(?) PA를 적용하면 현존하는 최고의 TAD 알고리즘은 random prediction이 된다고 하네요.

Reddit의 댓글에는 time-series prediction에서 꾸준히 재기되어왔던 성능평가에 대한 이슈를 비판하며 "오늘의 날씨 = 어제의 날씨"와 같은 냉소적인 댓글이 달리고 있네요.

[Terry의 의견] 학계에서 말하는 '벤치마크에서 높은 성능을 찍었다'라는 것과 실제 현장에서 '이 알고리즘이 정말 쓸만하다'라는 것과 차이가 날 때가 많습니다. 때로는 데이터의 가정이 현실적이지 않아서, 때로는 현실에선 논문처럼 문제가 명확하게 정의되지 않아서, 때로는 evaluation이 현실문제와는 동떨어져서 등의 이유로 현실에선 못쓰이는 경우가 많죠. 하지만 여전히 많은 연구자들은 "쓸모없는 문제"에서 SOTA를 찍으려 노력합니다.

현실에서 가장 어려운 문제 중 하나가 '이 문제를 잘 풀었다는 것을 어떻게 evaluation 하는가?'에 대한 답을 내는 것입니다. 현실문제를 수학적으로 모델링하고, 그 성능을 하나의 숫자로 표현 한다는 건 정말 어려운 일이죠 (그것만으로도 AI에서 큰 업적을 냈다고 할만합니다.) 하지만 TAD 문제가 어렵단 이유로 이렇게 관대한 metric을 2018년에 제안하고 아직까지도 써왔다는 것에 대해선 유감입니다. 아마도 논문의 우수성을 증명하고 싶었겠지만, 어려운 문제는 과장없이 '어렵다'는 결론으로 두는게 맞지 않을까 싶습니다.

[Reference] PA를 처음 evaluation에 사용한 논문: Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications, H. Su et al.

jungwoo-ha / WeeklyArxivTalk