Closed jungwoo-ha closed 2 years ago
A Survey on Recent Deep Learning-driven Singing Voice Synthesis Systems
Neural Pitch-shifting and Time-stretching with Controllable LPCNET
Hierarchical Prosody Modeling and Control in non-Autoregressive Parallel Neural TTS
Yann LeCun Paper Rejected – Power Of Double-Blind Review
- “I’m happy to report that the article has been rejected from NeurIPS 2021.”
- https://analyticsindiamag.com/yann-lecun-paper-rejected/
북한, 7개 국어 AI 번역프로그램 개발…”정확성이 전문가 수준”
- 북한 기계번역봉사체계 '룡마'
- https://www.mk.co.kr/news/politics/view/2021/10/937592/
구글 AI 개발사 딥마인드, 사상 첫 흑자 달성
- 2019년 에는 6억 4,900만 달러의 손실
- 지난 몇 년 동안 수억 달러의 손실을 기록한 후 2020년에 4,380만 파운드(5,960만 달러)의 이익을 기록
- 회사의 매출은 2019년 2억 6550만 파운드에서 2020년 8억 2620만 파운드로 3배 이상 증가
- 매출 급증에 대한 구체적인 이유를 밝히지 않음
- https://www.dongascience.com/news.php?idx=49709
Andrew Ng Launches Data-Centric AI Competition
- Andrew Ng 주관의 Data-Centric AI 대회 의 우승자 발표 (6/17 ~ 9/4)
- KAIST-AIPRLab 도 hornorable mentions에 포함
https://https-deeplearning-ai.github.io/data-centric-comp/ https://analyticsindiamag.com/andrew-ng-announces-data-centric-ai-competition-winners-who-are-they/
The EU Is Regulating Your AI. Five Ways To Prepare Now.
- GDPR과 마찬가지로 EU에서 나오는 AI 규정은 거의 모든 글로벌 기업에 영향을 미칠 것
- EU는 "허용할 수 없는 위험"으로 간주되는 AI와 "높은 위험"으로 간주되는 AI를 규제할 예정
- 새로운 규정은 AI 시스템을 구축 및 판매하는 AI 회사이든 AI 공급업체로부터 AI 시스템을 구매하는 회사이든 관계없이 적용
- https://www.forbes.com/sites/glenngow/2021/10/10/the-eu-is-regulating-your-ai-five-ways-to-prepare-now/?sh=67ea61903b29
중국 - "인공지능의 차세대 윤리강령(新一代人工智能伦理规范)" 발표 (9/25)
- 국가 신세대 인공지능 거버넌스 전문위원회는 인공지능과 인공지능의 전 생애주기에 윤리를 통합하는 것을 목표로 하는 '신세대 인공지능 윤리강령'을 발표
- 인간 복지 증진, 공정성과 정의 증진, 개인 정보 보호 및 보안 보호, 통제 가능성 및 신뢰성 보장, 책임 강화, 윤리적 품질 향상과 같은 6가지 기본 윤리적 요구 사항을 제시
- 동시에 인공 지능 관리, 연구 개발, 공급 및 사용과 같은 특정 활동에 대한 18가지 특정 윤리적 요구 사항 제시
- http://www.most.gov.cn/kjbgz/202109/t20210926_177063.html [비교] 사람이 중심이 되는 인공지능 윤리기준 ('20.12, 4차산업혁명위원회) https://www.4th-ir.go.kr/article/download/744 [비교] (3대 기본원칙-8개)-인간 존엄성 원칙, 사회의 공공선 원칙, 기술의 합목적성 원칙
[비교] (10대 핵심요건-22개)
PyTorch Universal Docker Template: A Universal PyTorch Source-Build Docker Template
오늘은 논문을 준비하지 못해서 제 개인 프로젝트를 하나 공유하고자 합니다.
GitHub: https://github.com/veritas9872/PyTorch-Universal-Docker-Template
Deep Learning을 하면서 대다수의 연구자들이 PyTorch를 사용하고 있습니다. 하지만 pip과 conda로 설치하는 PyTorch package는 호환성을 위해서 여러 시스템에서 사용할 수 있는 버전으로 packaging이 되어 있고 사용하는 기계에 최적화되어 있지 않습니다.
물론 PyTorch official Docker image와 NVIDIA NGC PyTorch image 등 여러 source build image가 있지만 실제로 사용해보면 CUDA version 호환성 및 기존 패키지와 사용하고자 하는 패키지가 호환되지 않는 등 여러가지 문제가 발생합니다.
그런 불편함을 해소하고자 제가 이번에 모든 PyTorch version, CUDA version, cuDNN version, Ubuntu version에 대해서 각 사용자가 PyTorch를 원하는 장비에 최적화되도록 source build를 할 수 있는 template을 만들었습니다.
또한, 연구실에서 특히, Docker를 사용하지 않으시는 분들이 많기 때문에 pip install 가능한 wheel을 추출할 수 있도록 만들었습니다. Windows에서도 WSL을 통해서 사용할 수 있습니다.
학교와 산업체 모두에서 매우 유용하게 사용할 수 있다고 생각됩니다. 실제로 benchmarking을 했을 때 4배 가량 빨라졌는데 대학원에서 상당 수의 deep learning project는 pip/conda install 한 PyTorch에서 fp32bit으로 학습을 진행하고 있습니다. 만약 이 template을 사용한다면 연산 속도가 10배 이상 빨라질 수 있을 것으로 기대됩니다.
ArXiv
StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis
ICLR 2022 제출 버전 중 단연 화제작
NeRF를 이용한 이미지 생성이 대세로 넘어오고 있음
2D 이미지로부터 고해상도 실사 이미지 생성과 multi view의 3d consistency 맞추기 둘다 가능하게 만든 최초의 모델
전체적으로 NeRF + StyleGAN2 + Progressive upsampling 구조
Volume rederer 는 low-resolution feature map 생성까지만 씀
그 이후 개선된 upsampler 를 이용해서 해상도를 끌어올리고 regularization term으로 3d consistency 보존
Camera pose가 없는 2D 이미지 데이터로 부터 학습하기 위해 camera predictor도 self-supervised 스타일로 학습
Efficient Self-supervised Vision Transformers for Representation Learning
ICLR 2022 제출버전
ViT를 ImageNet-1k 훈련데이터만으로 매우 효율적으로 self-supervised로 학습하는 기법 (DINO나 MoCo-v3는 헤비하다고)
Multi-stage architecture with sparse SA --> complexity는 줄여도 region간 fine-grained correspondence 표현 감소
그래서 image region matching하는 pretraining task 추가해서 둘을 결합
DINO (self-distill) 스타일의 non-contrastive
ImageNet-1k validset linear probling 기준 81.3% 달성
Scale Efficiently: Insights from Pretraining and Finetuning Transformers
ICLR 2022 제출버전 (Double blind 하지만 구글냄새 솔솔)
Pretraining scaling law가 downstream에서 그대로 먹히지 않을 수도 있음.
작은 스케일의 모델에서 찾은 scaling 전략이 큰 모델에서 먹히지 않을 수 있음.
그래서 DeepNarrow라는 전략을 소개함
T5 5M ~ 30B까지 활용 LM 뿐 아니라 Vision Transformer에도 실험해봄.
100 개 넘는 T5 체크포인트를 release 하겠다고 (우와 ViT 몇만개 이후 완전 기대)
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
Facebook + UW (EMNLP 2021)
video 와 자막을 활용하여 pretraining, downstream task에 대해서는 annotation 필요없는 zeroshot.
InfoNCE loss + positive pair + hard negative pair
Positive: text 고르고 --> 근처 video clip 고르고 --> random 길이, Negative: Retrieval-based sampling
Text-to-Video Retrieval, VideoQA, Action segmentation, Action step localization
Pretraining HowTo100M 으로부터 추출해서 사용
https://github.com/pytorch/fairseq/tree/main/examples/MMPT
Audio Lottery: Speech Recognition Made Ultra-Lightweight, Noise-Robust, and Transferable
Lottery ticket for on-device ASR
Wining ticket의 경우 충분히 작은 크기로도 noisy에 robust하고 개인화도 되고
CTC, RNN-Trasnducer, Conformer 각각에 대해 실험했을 때 21%, 11%, 8%만 non-zero weight 남겨도 좋은 성능 https://openreview.net/group?id=ICLR.cc/2022/Conference