[20220206] Weekly AI ArXiv 만담 - 38회차

News
- ICLR 2022 익명해제! https://openreview.net/group?id=ICLR.cc/2022/Conference
- KDD 2022, COLT 2022 모두들 파이팅!
- AI를 활용한 생산성 증가의 시대의 도래 와 대비
- GPT-Neo-20B
- 공공데이터리더
ArXiv
- AlphaCode
- Deepmind 에서 공개한 코딩 경진대회 문제 풀이 AI
- Pretraining: Github 코드 715GB / Finetuning: Codecontests (Codeforce, CodeNet 문제 + 솔루션)
- 기본 구조는 Transformer seq2seq (Decoder (LM) >> Encoder (MLM)), 임의로 잘라서 앞은 encoder, 뒤는 decoder
- CODEX 대비 기능 전체를 구현한다는 측면에서 상이함. 인간 참가자 상위 54%정도 달성
- CODEX와 마찬가지로 개발시 유용한 도구로 활용 가능할듯
- mSLAM: Massively multilingual joint pre-training for speech and text
- Google에서 나온 다국어(101개 언어) 음성-언어 멀티모달 러닝 모델
- w2v-BERT 과 Span-BERT 로 MLM기반의 Self-supervised, 그리고 speech-text aligned 데이터로는 CTC로스로 학습
- 음성인식과 다양한 NLP태스크 그리고 일부 Zero-shot 태스크 성능 보여줌
- 이제 vision-text 뿐 아니라 audio-text pretraining 후 zero-shot 류도 트렌드가 될 듯
- UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning
- Video 인식을 위해 3d conv 와 ViT의 장점을 취한 새로운 모델 (from SenseTime, ICLR 2022)
- Dynamic position encoding + MHRA (multi-head relation aggregation) + FFNN 조합
- 낮은 layer에선 local detail 을 보도록, 상위 layer에서는 global dependancy 를 보도록 MHRA 의 Affinity 연산을 다르게 적용
- 그래서 동일한 구성이지만 전체적으로는 아래쪽은 Conv 유사 위쪽은 SA와 유사 기능하는 구조
- 기존 Video Trasnformer나 3D Conv류 보다 훨씬 적은 연상량으로 더 정확한 성능을 보인다고..
- ImageNet-1k 에서도 좋은 성능, K-400, K-600, SSv1/v2 모두에서 성능 좋음.
- https://github.com/Sense-X/UniFormer
- IMO solver by Open AI (다음 주에 정현님에게)

Arxiv (Speech, Singing Voice, Music)
- Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker Classifier Joint Training
  - Audio samples : https://jingy308.github.io/JointSpk/
  - Summary
    - multilingual TTS에서 cross-lingual speech의 speaker similarity가 낮은 것을 개선하기 위한 연구
    - cross-lingual speech란, monoglot speaker가 다른 나라의 언어로 합성한 speech를 의미
  - Method
    - 이전 연구[12]의 transformer-based autoregressive multilingual TTS를 사용 (reconstruction loss)
    - MTL framework 적용 : speaker와 language network를 이용한 representation을 두 개의 classifier를 이용하여 학습 (cross entropy loss) - Figure 1. 참조
    - jointly training with an x-vector speaker classifier : recording audio와 cross-lingual speech의 x-vector 사이의 cosine distance를 계산 (L2 loss) - Figure 2. 참조
      $L_{cross}=\sum_l\sum_{l'\neq l}\sum_{\textbf{o}_s^l, \textbf{o}_s^{l'}}f_{\text{dist}}\left ( f_{\text{xvec}}\left ( \mathbf{o}_s^l \right ), f_{\text{xvec}}\left ( \mathbf{o}_s^{l'} \right ) \right )$
    - Data
      - multilingual TTS : 700시간, 14개의 언어, 각 언어당 최소 3명 이상의 화자
      - x-vector system : Vox-Celeb 1, 2 데이터, 2794시간, 7363화자
    - Results
      - speaker similarity, naturalness는 MOS, objective evaluation은 x-vector들의 평균 cosine distance
      - multilingual, multispeaker TTS 이므로 각 언어 마다 2명씩 선택하고 전체 남녀 밸런스를 고려해서 평균을 계산
      - MTL + Joint 모델이 naturalness가 많이 떨어지지 않으면서도 화자 유사도가 높음
    - Limitations of this paper
      - speaker classifier나 x-vector는 여러 개의sequence를 하나의 대표값을 이용하여 학습하기 때문에 다양한 스타일의 발화체에서는 운율이 그렇게 좋지 못할 것으로 예상
      - 기본적으로 cross-lingual speech를 얻으려면 합성 단계가 필요한데 autoregressive model이라 합성 시간이 김
      - 식(1)의 값을 구하려면 각각의 언어로 많은 speech를 추출해야 함
      - 이를 현실적으로 해결하기 위하여 teacher forcing 방법을 쓰거나 랜덤하게 언어를 랜덤하게 선택하여 사용하는 등의 방법을 사용하지만 그런 방법 자체가 깔끔하게 느껴지지 않음
      - 평가 방법에서도 각 sequence마다 x-vector가 조금씩 다르게 나올텐데 어떻게 x-vector끼리 cosine distance를 구한 것인지 의문
- Improving Lyrics Alignment through Joint Pitch Detection
  - Code : https://github.com/jhuang448/LyricsAlignment-MTL
  - Summary
    - 새로운 automatic lyric alignment method를 제안한 논문
    - audio에 맞게 word level로 가사를 정렬해주기 위해서 phoneme과 pitch note에 대한 loss를 결합하여 모델을 학습
  - Method
    - acoustic model은 residual convolutional block과 bi-LSTM을 사용
    - CTC loss, boundary(가사 line의 경계) loss, pitch loss(cross entropy)를 이용
    - CTC loss 와 pitch loss를 사용하는 것이 MTL, 여기에 boundary loss를 추가한 것이 MTL + BDR
  - Data
    - DALI v2 데이터셋에서 영어 데이터 사용 (train : 4,224, validation: 1,056)
  - Result
    - 테이블에 있는 객관적인 평가 값들이 신뢰하기 어려움 ;;;
    - Figure 4를 보면 제안하는 모델이 pitch와 같이 학습하기 때문에 word의 시작을 잘 맞추는 것으로 보임
  - Limitations of this paper
    - CTC loss, pitch loss, boundary loss를 사용한 것을 좋은데 결과들이 신뢰하기 어려움
    - YOHO (You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection) 논문과 같이 보면 좋을 듯
- Removing Distortion Effects in Music Using Deep Neural Networks
  - Audio Samples : https://joimort.github.io/distortionremoval/
  - 전자 기타 등에서 울림이나 잔향으로 인하여 뭉개진 소리에서 깨끗하게 음을 추출하는 연구
- [FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control]()
  - Audio Samples : https://soundcloud.com/user-751999449/sets/figaro-generating-symbolic-music-with-fine-grained-artistic-control
  - Melody generation 분야로 target sequence 에서 high-level의 description을 추출하고 이를 이용하여 새로운 sequence를 생성하는 모델을 제안하였으며 description으로부터 새로운 sequence를 만드는 방법 자체가 새로운 연구
- ItôWave: Itô Stochastic Differential Equation Is All You Need For Wave Generation
  - ICASSP 2022
  - Audio Samples : https://wushoule.github.io/ItoAudio/
  - Vocoder 논문으로 forward and reverse-time lienar stochastic differential equations (SDE) 기반으로 한 새로운 방식의 모델을 제안한 것이 특징이며, tractable한 distribution을 가지는 모델이 목표여서 인지 normalizing flow와 diffusion 기반의 보코더와만 비교한 것이 아쉬운 점
- DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs
  - Audio Samples : https://anonym-demo.github.io/diffgan-tts/
  - Denoising diffusion probabilistic model (DDPM) 기반의 모델과 speaker ID를 조건으로 하는 joint conditional and unconditional( JCU) discriminator를 이용한 모델로 diffusion 모델의 장점 (ill-posed 문제 해결)을 살리면서 denoising step을 줄여 합성 속도를 빠르게하고, multi-speaker 학습이 가능한 TTS 모델을 제안하였음

Winter is coming ? AI 및 ML 전문가 급여 하락

https://spectrum.ieee.org/software-engineer-salary
- 2021년에는 기계 학습, 자연어 처리 및 AI 전문가 평균 급여가 각각 2.1%, 7.8%, 8.9% 하락
- "더 많은 기술자가 이러한 기술을 배우고 숙달하고 있다는 점" ...

ar5iv - arXiv의 PDF를 브라우저에서 HTML5로 보여주는 사이트

URL에서 x만 5로 바꿔주면 바로 동작
실시간 프리뷰는 아님
Rust 오픈소스 : https://github.com/dginev/ar5iv
여러개의 리비전이 있는 경우 첫번째 v1만 표시됨
좋은 예제 - https://ar5iv.org/pdf/2105.09680

Deep physical neural networks trained with backpropagation

Nature paper : https://www.nature.com/articles/s41586-021-04223-6.pdf?fbclid=IwAR2aFHTasDUrVSWcyyKB0ozkhhWGHabR5Kfp_lCRyBDk3K3iv2zV8iz1jXQ
arXiv - https://arxiv.org/abs/2104.13386
https://github.com/mcmahon-lab/Physics-Aware-Training
- Nature에 실린 코넬대와 NTT 연구자들이 함께 한 Deep Physical Neural Networks 연구.
- 세가지 물리적 시스템(기계, 공학 및 전기)을 신경망 모델처럼 변경해 BP 알고리즘으로 학습이 가능한지를 실험
- 시뮬레이션 환경이 아닌 실제 물리적 하드웨어 상에서 수행
- 수학 기능을 먼저 훈련시킨 다음 물리적 프로세스가 이를 실행하도록 설계하는 기존 방식과 달리 물리적 프로세스를 직접 훈련한다는 점을 강조
- 최종 정확도는 광학 기반, 전자 및 기계 PNN에 대해 각각 97%, 93% 및 87%

OpenAI, RLHF(Reinforcement Learning From Human Feedback)을 사용하는 InstructGPT model

blog : https://openai.com/blog/instruction-following/
paper : https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf
https://www.marktechpost.com/2022/02/05/openai-team-introduces-instructgpt-model-developed-with-reinforcement-learning-from-human-feedback-rlhf-to-make-models-safer-helpful-and-aligned/?fbclid=IwAR0h_my9_gYGUYxRHfgGmF2oRx-jon0wOBNlL14Ph79d9LqV0C4puV3plyk
- GPT-3과 같은 사전 훈련 언어 모델은 NLP 작업에서 탁월했지만 의도하지 않은 출력이나 사용자의 지시를 따르지 않는 출력 생성 이슈가 있음
- 이에 RLHF(인간 피드백에서 강화 학습) 방법론을 사용하여 큰 언어 모델을 사용자의 목표에 더 잘 맞추도록 시도
- 시사점
  - InstructGPT 모델은 정확성 측면에서 GPT-3보다 성능이 우수
  - RLHF 미세 조정 기술을 조정하여 공개 NLP 데이터 세트에서 성능 회귀를 줄일 수 있음
  - InstructGPT는 계속해서 사소한 오류를 범함

News
- 인공지능 은행원이 점점 보급되고 있습니다
- 국방에도 AI의 물결이
  - 인공지능 기술 활용한 사이버 전장...'국방 AI 기술로드맵' 나와
  - 육군, 군사용 인공지능 안전성 검증 나선다
  - [군사대로]'킬러 로봇시대' 개막…軍 인공지능, 전쟁 촉발 우려
  - 킬러로봇은 아직 과한 표현인 듯하고 탐지, 정찰, 위협 식별 등 보조도구로서 우선 사용될 듯합니다. 국방 분야도 국제적으로 인공지능 윤리와 제도의 범위 안에서 잘 연구개발 되었으면 좋겠습니다.
- 의료 AI 효시 왓슨 역사속으로…토종 인공지능 미래는?
- 재미있게 본 글
  - ruDALL-e, or From Russia with AI
  - 모델이 더 작아서 OpenAI의 DALL-e 처럼 잘 나오지는 않지만.. 러시아에서 만든 러달리의 데모를 써보세요! https://rudalle.ru/
  - The FLOPs Calculus of Language Model Training
    - seq2seq, attention mechanism 연구로 유명한 bahdanau가 작성한 medium post입니다. LM학습할 때 연산량을 계량하는 방법에 대한 친절한 설명입니다!
    - 흥미롭게도 HyperCLOVA를 예시로 설명!
    - Quiz : 한국의 GPT-3 HyperCLOVA는 820억 개의 파라미터의 모델이고 1500억 개의 토큰을 학습했습니다. 이 때 Nvidia의 A100 1024 클러스터를 사용했는데, 학습 시간이 얼마나 걸렸을까요?
    - 추정 시간은 2.67일 이지만 실제로는 13일입니다. 왜 그런지는 링크와 HyperCLOVA 논문에서!

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

NVIDIA에서 15초만에 1920x1080 영상을 생성하도록 학습 가능한 Nerf 모델을 개발했습니다.

https://user-images.githubusercontent.com/33523965/152681624-e2876b9d-1cc6-4f71-9d8a-2aa72bd70578.mp4

영상에서 보시듯이 기존에 하나의 영상을 학습하기 위해 매우 시간이 오래 걸린 Nerf 모델을 고해상도에서 짧은 시간 내로 학습하여 video 형태로 inference를 진행했습니다.

Screenshot (12)

Blog: https://nvlabs.github.io/instant-ngp

GitHub: https://github.com/NVlabs/instant-ngp

Paper: https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf

Awesome 인증 GitHub repository 공유해드립니다. https://github.com/sindresorhus/awesome

중국, 딥페이크 및 기타 AI 합성 시스템에 대한 규제 강화 제안

https://www.unite.ai/china-proposes-increased-regulation-of-deepfakes-and-other-ai-synthesis-systems/
http://www.cac.gov.cn/2022-01/28/c_1644970458520968.htm
- 제2조 중화인민공화국 영역 내에서 인터넷 정보 서비스(이하 "심층 합성 서비스"라 함) 제공 및 심층 합성 서비스에 대한 기술 지원 제공은 이 규정을 적용한다. 법령 및 행정법규에 달리 규정하는 경우에는 그에 따릅니다. -이 규정에서 언급하는 "딥 합성 기술"이라는 용어는 딥 러닝 및 가상 현실로 대표되는 생성 합성 알고리즘을 사용하여 텍스트, 이미지, 오디오, 비디오, 가상 장면 및 기타 정보를 생성하는 기술을 의미합니다. : -(1) 챕터 생성, 텍스트 스타일 변환, 질의응답 대화와 같은 텍스트 콘텐츠를 생성하거나 편집하는 기술; -(2) 텍스트-음성 변환, 음성 변환 및 음성 속성 편집과 같은 음성 콘텐츠 생성 또는 편집 기술; -(3) 음악 생성 및 장면 사운드 편집과 같은 비음성 콘텐츠를 생성하거나 편집하는 기술; -(4) 얼굴 생성, 얼굴 교체, 문자 속성 편집, 얼굴 조작, 제스처 조작 및 이미지 및 비디오 콘텐츠의 얼굴과 같은 생체 특징을 생성하거나 편집하기 위한 기타 기술 -(5) 이미지 향상 및 이미지 복원과 같은 이미지 및 비디오 콘텐츠의 비생물학적 특징을 편집하는 기술; -(6) 3D 재구성과 같은 가상 장면을 생성하거나 편집하는 기술.
심층 합성 제공업체는 감독 및 검사 측면에서 자유롭게 협력하고 요청 시 '필요한 기술 및 데이터 지원 및 지원'을 제공해야
제공자는 불만을 위한 사용자 친화적인 포털을 구축하고 그러한 불만 처리에 대한 예상 시간 제한을 게시해야 할 뿐만 아니라 '루머 반박 메커니즘'을 제공
위반 시 10,000~100,000위안(1,600~16,000달러)의 벌금이 부과될 수 있을 뿐만 아니라 위반 회사를 민사 및 형사 소송에 노출

jungwoo-ha / WeeklyArxivTalk

[20220206] Weekly AI ArXiv 만담 - 38회차 #38

ar5iv - arXiv의 PDF를 브라우저에서 HTML5로 보여주는 사이트

Deep physical neural networks trained with backpropagation

OpenAI, RLHF(Reinforcement Learning From Human Feedback)을 사용하는 InstructGPT model

중국, 딥페이크 및 기타 AI 합성 시스템에 대한 규제 강화 제안