[20211010] Weekly AI ArXiv 만담

News
- ICLR Submission: 모두들 수고하셨습니다. - 3700편 (40% 증가)
- 정리된 구글닥
- NeurIPS 2021 Notification 축하드립니다.
- ICCV 2021: 10.11 ~ 17
- Facebook 사태
- 한국판 DARPA 첫발, '국방과학' 부처·출연연 다 모였다
ArXiv
- StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis
- ICLR 2022 제출 버전 중 단연 화제작
- NeRF를 이용한 이미지 생성이 대세로 넘어오고 있음
- 2D 이미지로부터 고해상도 실사 이미지 생성과 multi view의 3d consistency 맞추기 둘다 가능하게 만든 최초의 모델
- 전체적으로 NeRF + StyleGAN2 + Progressive upsampling 구조
- Volume rederer 는 low-resolution feature map 생성까지만 씀
- 그 이후 개선된 upsampler 를 이용해서 해상도를 끌어올리고 regularization term으로 3d consistency 보존
- Camera pose가 없는 2D 이미지 데이터로 부터 학습하기 위해 camera predictor도 self-supervised 스타일로 학습
- Efficient Self-supervised Vision Transformers for Representation Learning
- ICLR 2022 제출버전
- ViT를 ImageNet-1k 훈련데이터만으로 매우 효율적으로 self-supervised로 학습하는 기법 (DINO나 MoCo-v3는 헤비하다고)
- Multi-stage architecture with sparse SA --> complexity는 줄여도 region간 fine-grained correspondence 표현 감소
- 그래서 image region matching하는 pretraining task 추가해서 둘을 결합
- DINO (self-distill) 스타일의 non-contrastive
- ImageNet-1k validset linear probling 기준 81.3% 달성
- Scale Efficiently: Insights from Pretraining and Finetuning Transformers
- ICLR 2022 제출버전 (Double blind 하지만 구글냄새 솔솔)
- Pretraining scaling law가 downstream에서 그대로 먹히지 않을 수도 있음.
- 작은 스케일의 모델에서 찾은 scaling 전략이 큰 모델에서 먹히지 않을 수 있음.
- 그래서 DeepNarrow라는 전략을 소개함
- T5 5M ~ 30B까지 활용 LM 뿐 아니라 Vision Transformer에도 실험해봄.
- 100 개 넘는 T5 체크포인트를 release 하겠다고 (우와 ViT 몇만개 이후 완전 기대)
- VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
- Facebook + UW (EMNLP 2021)
- video 와 자막을 활용하여 pretraining, downstream task에 대해서는 annotation 필요없는 zeroshot.
- InfoNCE loss + positive pair + hard negative pair
- Positive: text 고르고 --> 근처 video clip 고르고 --> random 길이, Negative: Retrieval-based sampling
- Text-to-Video Retrieval, VideoQA, Action segmentation, Action step localization
- Pretraining HowTo100M 으로부터 추출해서 사용
- https://github.com/pytorch/fairseq/tree/main/examples/MMPT
- Audio Lottery: Speech Recognition Made Ultra-Lightweight, Noise-Robust, and Transferable
- Lottery ticket for on-device ASR
- Wining ticket의 경우 충분히 작은 크기로도 noisy에 robust하고 개인화도 되고
- CTC, RNN-Trasnducer, Conformer 각각에 대해 실험했을 때 21%, 11%, 8%만 non-zero weight 남겨도 좋은 성능 https://openreview.net/group?id=ICLR.cc/2022/Conference

Arxiv : Speech & Singing & Music Synthesis

A Survey on Recent Deep Learning-driven Singing Voice Synthesis Systems
- Singing Voice Syntehsis (SVS) 분야의 대표적인 딥러닝 모델 소개
- SVS 모델 구현 시 참고할만한 내용들이 잘 정리 되어 있음
- SVS에서는 모델도 모델이지만, 데이터 수집이 어렵고 음악적인 것 뿐만 아니라 감정 표현을 조절하는 것이 어려움
Neural Pitch-shifting and Time-stretching with Controllable LPCNET
- Problem
  - pitch-shifting, time-stretching을 위한 digital signal processing (DSP) 기반 방법들을 사용하면 오디오 퀄리티가 떨어짐
  - LPCNet은 1) pitch representation에 한계가 있고 2) pitch와 acoustic feature를 잘 분리하지 못하였고 3) 높고 낮은 pich의 데이터 셋이 부족했음
  - LPCNet은 WaveRNN 기반의 모델로 frame-rate network와 sample-rate network로 구성
- Method
  - 이 논문에서는 Controllable LPCNet (CLPCNet)을 제안
  - Pitch quantization 방식을 바꿈 / pitch 추출 알고리즘은 YIN에서 CREPE로 바꿈 / Data augmentation을 함
- Sample : https://main.d3ee4zjxcj59ad.amplifyapp.com/
Hierarchical Prosody Modeling and Control in non-Autoregressive Parallel Neural TTS
- Apple 의 논문! ICASSP 2022에 제출
- Problem
  - 기존의 TTS 모델의 합성음은 prosody의 다양성을 학습하지 못하고 데이터셋의 평균 prosody 스타일을 가진다.
- Method
  - FastSpeech2와 비슷한 구조를 가지되 utterance-level의 feature를 먼저 예측하고 그 값을 phone-level의 feature를 예측
  - utterance-wise feature는 5개로 log-pitch, log-pitch range, log-phone duration, log-energy, spectral tilt
  - hierarchical prosody modeling을 하는 non-autoregressive parallel neural TTS 를 제안하였고 단어별 control이 가능

Yann LeCun Paper Rejected – Power Of Double-Blind Review

“I’m happy to report that the article has been rejected from NeurIPS 2021.”

https://analyticsindiamag.com/yann-lecun-paper-rejected/

북한, 7개 국어 AI 번역프로그램 개발…”정확성이 전문가 수준”

북한 기계번역봉사체계 '룡마'

https://www.mk.co.kr/news/politics/view/2021/10/937592/

구글 AI 개발사 딥마인드, 사상 첫 흑자 달성

2019년 에는 6억 4,900만 달러의 손실

지난 몇 년 동안 수억 달러의 손실을 기록한 후 2020년에 4,380만 파운드(5,960만 달러)의 이익을 기록

회사의 매출은 2019년 2억 6550만 파운드에서 2020년 8억 2620만 파운드로 3배 이상 증가

매출 급증에 대한 구체적인 이유를 밝히지 않음

https://www.dongascience.com/news.php?idx=49709

Andrew Ng Launches Data-Centric AI Competition

Andrew Ng 주관의 Data-Centric AI 대회 의 우승자 발표 (6/17 ~ 9/4)

KAIST-AIPRLab 도 hornorable mentions에 포함
https://https-deeplearning-ai.github.io/data-centric-comp/ https://analyticsindiamag.com/andrew-ng-announces-data-centric-ai-competition-winners-who-are-they/

The EU Is Regulating Your AI. Five Ways To Prepare Now.

GDPR과 마찬가지로 EU에서 나오는 AI 규정은 거의 모든 글로벌 기업에 영향을 미칠 것

EU는 "허용할 수 없는 위험"으로 간주되는 AI와 "높은 위험"으로 간주되는 AI를 규제할 예정

새로운 규정은 AI 시스템을 구축 및 판매하는 AI 회사이든 AI 공급업체로부터 AI 시스템을 구매하는 회사이든 관계없이 적용

https://www.forbes.com/sites/glenngow/2021/10/10/the-eu-is-regulating-your-ai-five-ways-to-prepare-now/?sh=67ea61903b29

중국 - "인공지능의 차세대 윤리강령(新一代人工智能伦理规范)" 발표 (9/25)

국가 신세대 인공지능 거버넌스 전문위원회는 인공지능과 인공지능의 전 생애주기에 윤리를 통합하는 것을 목표로 하는 '신세대 인공지능 윤리강령'을 발표

인간 복지 증진, 공정성과 정의 증진, 개인 정보 보호 및 보안 보호, 통제 가능성 및 신뢰성 보장, 책임 강화, 윤리적 품질 향상과 같은 6가지 기본 윤리적 요구 사항을 제시

동시에 인공 지능 관리, 연구 개발, 공급 및 사용과 같은 특정 활동에 대한 18가지 특정 윤리적 요구 사항 제시

http://www.most.gov.cn/kjbgz/202109/t20210926_177063.html [비교] 사람이 중심이 되는 인공지능 윤리기준 ('20.12, 4차산업혁명위원회) https://www.4th-ir.go.kr/article/download/744 [비교] (3대 기본원칙-8개)-인간 존엄성 원칙, 사회의 공공선 원칙, 기술의 합목적성 원칙
[비교] (10대 핵심요건-22개)

PyTorch Universal Docker Template: A Universal PyTorch Source-Build Docker Template

오늘은 ~~논문을 준비하지 못해서~~ 제 개인 프로젝트를 하나 공유하고자 합니다. GitHub: https://github.com/veritas9872/PyTorch-Universal-Docker-Template

Deep Learning을 하면서 대다수의 연구자들이 PyTorch를 사용하고 있습니다. 하지만 pip과 conda로 설치하는 PyTorch package는 호환성을 위해서 여러 시스템에서 사용할 수 있는 버전으로 packaging이 되어 있고 사용하는 기계에 최적화되어 있지 않습니다.

물론 PyTorch official Docker image와 NVIDIA NGC PyTorch image 등 여러 source build image가 있지만 실제로 사용해보면 CUDA version 호환성 및 기존 패키지와 사용하고자 하는 패키지가 호환되지 않는 등 여러가지 문제가 발생합니다.

그런 불편함을 해소하고자 제가 이번에 모든 PyTorch version, CUDA version, cuDNN version, Ubuntu version에 대해서 각 사용자가 PyTorch를 원하는 장비에 최적화되도록 source build를 할 수 있는 template을 만들었습니다.

또한, 연구실에서 특히, Docker를 사용하지 않으시는 분들이 많기 때문에 pip install 가능한 wheel을 추출할 수 있도록 만들었습니다. Windows에서도 WSL을 통해서 사용할 수 있습니다.

학교와 산업체 모두에서 매우 유용하게 사용할 수 있다고 생각됩니다. 실제로 benchmarking을 했을 때 4배 가량 빨라졌는데 대학원에서 상당 수의 deep learning project는 pip/conda install 한 PyTorch에서 fp32bit으로 학습을 진행하고 있습니다. 만약 이 template을 사용한다면 연산 속도가 10배 이상 빨라질 수 있을 것으로 기대됩니다.

jungwoo-ha / WeeklyArxivTalk

[20211010] Weekly AI ArXiv 만담 #26

Arxiv : Speech & Singing & Music Synthesis