[20220123] Weekly AI ArXiv 만담 - 37회차

News
- ICLR 2022 결과가 나왔습니다. 덧 ICLR 는 어떤 학회인가?
  - 올해로 10년차
  - ICML, NeurIPS가 너무 커짐에 따라 Representation learning에 집중해서 Bengio, LeCun 옹 중심으로 창설
  - 초창기 학회부터 VGG, Adam, Seq2seq with attention 등 어마무시한 연구들이 쏟아져 나옴
  - 이후 GCN, NAS, PGGAN, SNGAN, Lottery Ticket, Electra, Albert 등 한 시대를 풍미하는 연구들이 계속 쏟아져 나오고 있음.
  - 딥러닝중 Representation 중심으로 중소규모로 운영되어 (발표 200-400개 내외) 전체 프로그램 소화가 무리가 없어서 많은 ML연구자들의 최애 학회로 등극 (저도 ICLR는 2018부터 꼬박꼬박 참석)
  - 초창기부터 되게 특이한 장소에서 열리는 것으로 유명 (AI의 대중화라는 Bengio 포함 시니어 연구자들의 의지)
  - 그 정점이 ICLR 2020 에티오피아 아디스아바바 였으나 코로나로 패스...
  - 제출하는 연구자 관점에서는 Openreview라는 신선한(?) 시스템이 매력,
  - 익명처리 통해 모든 논문들이 제출과 동시에 공개. 그래서 리뷰어 아니어도 코멘트와 질문 달 수 있음.
  - 리뷰의 퀄리티도 상대적으로 좋고 interactive 한 discussion 도 상대적으로 활발함 (다른 학회 오버헤드의 1.5배 이상은 되는 느낌)
  - 반대로 디시전이 나오거나 withdraw하면 박제가 되고 리뷰또한 박제 되기 때문에 상대적으로 부담스러워 하는 연구자들도 있었음.
  - 그러나 제출편수가 많아짐에따라 이런 부담감도 조금씩 줄어는 상태.
  - 특히 타 ML학회보다 diversity & inclusion, 과학문제, 세계문제에 관심이 많음.
  - 작년엔 오혜연 교수님, 올해는 최예진 교수님이 Program Chair로 활동 중
  - 이에 따라 학회 인지도도 급상승 해서 현재 Google Scholar ML 전체 1위, CS&Engineering Ranking 3위(참고로 1위는 CVPR), 전분야 10위. h5-mean 값 기준으로는 6위에 해당.
  - 그러다보니 이젠 ICLR도 너무 커짐. 발표논문 건수가 1천편 이상으로.
- ICASSP 취합중... (설명은 정현님이)
- ICML 2022 데드라인이 28일 밤 9시 입니다 (27일 AOE, Supple 없음)
- CVPR 2022 리뷰가 월 or 화에 나올 것 같습니다. --> 설명절은 저 멀리.....
Arxiv
- Data2Vec
- The first high-performance self-supervised algorithm that works for multiple modalities (?)
- 음성, 이미지, 텍스트 인식에서 모두 뛰어난 성능이라고
- Self-distill 처럼 student mode가 teacher mode의 layer feature representation을 복원토록 --> 그래서 modaility agnostic가능
- 그냥하면 잘 안되서 normalization technique을 잘써야한다고 (Speech는 Instance Norm, Vision/NLP는 Layernorm)
- 전반적으로 iBOT 과 유사한 scheme이나 hidden representatino prediction이란 차이가 있는 듯
- 단.. 멀티모달 모델은 아님. 동일한 아키텍처로 여러 모달리티를 학습가능한 모델(물론 feature 정의 미세 customizing 필요) 이 구조를 기반으로 멀티모달로 확장해 나가는 연구가 중요할듯
- 논문은 여기
- 코드는 https://github.com/pytorch/fairseq/tree/main/examples/data2vec
- Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks
- KAIST-NAVER Hypercreative AI Center 연구 from 신진우 교수님 연구실 + AI Lab
- 기존 Video 생성의 문제는 RGB의 3d grid로 모델링 하다보니 긴 sequence 생성이 어려웠음(VideoGPT, MocoGAN-HD)
- 최초로 Implicit neural representation을 활용하여 연속적인 Spatio / temporal coordinate 조절해서 motion dynamics를 모델링하도록 하여 Video를 생성하는 GAN (DIGAN)
- D가 motion의 자연스러움으로 구분토록 학습하면서 더 긴 시퀀스를 학습토록, INR기반으로 속도도 훨씬 빠름
- 128x128의 128 프레임 시퀀스 생성 가능, extrapoloation도 가능, FVD SOTA기록
- 프로젝트 페이지 (여러가지 샘플은 여기): https://sihyun-yu.github.io/digan/
- LaMDA: Language Models for Dialog Applications
- Google IO 2021 에서 공개한 LaMDA의 논문
- 최대 137B Dialog model를 1.56T 공개 대화 및 웹텍스트 단어학습
- Safety와 팩트 grounding (hallucination 문제) 문제해결을 위해 BlenderBot2.0과 마찬가지로 Information Retrieval System 활용하고 annotated data에 대하여 finetuning을 했음
- SSI metric 제안 (SSA + Interestingneses by crowdworker)

Arxiv (Audio and Speech Processing)
- MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis
  - Sample URL : https://leiyi420.github.io/MsEmoTTS/
    1. Goal : expressive emotion speech synthesis 를 위한 TTS 모델을 제안
    2. Problem : 기존의 emotion TTS 들은 explicit label 혹은 reference audio로부터 고정된 길이의 style embedding을 사용하였는데 이는 각 감정 카테고리 내의 샘플들의 평균 스타일만 학습하게 되어 표현력이 제한됨
    3. Method : Tacotron encoder와 Tacotron2 decoder를 사용하고 3개의 모듈을 제안
    4. Global-level emotion presenting module (GM)
      - 학습 시에는 label을 이용하여 감정에 대한 global embedding을 넣음
      - 합성 시에는 text를 입력으로 하는 Emotion classifier를 사용
      - Emotion classifier는 BERT 기반 모델에 softmax를 추가하였음
      - text로 emotion을 예측하는데는 한계가 있어서 softmax output을 이용한 weighted emotional embedding을 사용
    5. Utterance-level emotion presenting module (UM)
      - UM이 Table V, Fig. 5의 결과를 통해 억양의 경향을 학습할 수 있는 것으 보여줌
    6. Local-level emotion presenting module (LM)
      - 감정의 강도를 배우기 위한 모듈로 unsupervised 방식으로 학습
      - ranking function을 이용하여 syllable 단위의 감정 강도를 학습
      - 이 부분이 전체 논문에서 가장 특이한 부분이라고 생각
    7. DataSet
    8. 여자 전문 성우 한 명의 목소리로 neutral, 6가지 감정(happiness, anger, sadness, surprise, fear, disgust)로 이루어져 있음
    9. 총 10,000 발화 (약 10시간 분량)의 neutral voice와 각 2,000발화(약 2시간) 분량의 emotion 데이터가 있음
    10. BERT 기반의 classifier는 추가적으로 3,500(happy), 2,600(angry), 3300(sad), 1100(surprise), 400(fear), 4,100(disgust), 38,000(neutral)을 사용하였음
    11. Results
- Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis
  - Dataset URL : - https://wenet.org.cn/opencpop/
    1. Goal : Singing Voice Synthesis (SVS) task를 위한 고품질의 중국어 가창 음성 데이터셋
    2. Method
    3. 300개의 노래 중에서, 1) 중국어가 아닌 문자가 포함된 노래는 제거 2) BPM을 계산하여 상대적으로 낮은 빈도의 BPM음 노래를 선택 3) 나머지 노래에서 음소의 빈도가 낮은 노래를 선택 4) 최대한 많은 음소가 포함된 곡을 선택
    4. 위와 같은 방법으로 총 100곡을 선택하고 젊은 전문 여성 가수를 섭외하였음
    5. MIDI annotation은 Logit Pro를 사용
    6. TextGrid는 praat을 이용하여 중국어 글자, 음절, 미디 노트, duration, 음소 등을 전사하였음
    7. Results

News
- AISTATS 2022 결과들도 나왔습니다!
- ICASSP 2022 결과들도 나왔습니다!
- COLT 2022 deadline: 02/10 아침 9시 (abstract, main, supp 모두 함께)
Discussion - 현재 Deep Learning은 "과학"인가요? 아님 단순히 "공학"인가요?
- CIF Town Hall on Machine Learning
- CIF: Communications and Information Foundations: "supports research activities that address the theoretical underpinnings for information acquisition, transmission, and processing in communications and information processing systems." (sponsored/under NSF)
- 이렇게 theory-application이 만나는 기회를 제공하고, 무엇보다 foundational research에 대한 중요성을 인식하고 funding을 국가차원에서 많이 해주어서 매우 부럽습니다,,
- "Deep Learning Needs More Science" (Tom Goldstein, 28:00부터!)
- 발표가 매우 깔끔하여 한번씩 들어보는것을 추천!
- (물론 거의 자신이 참여한 논문들 위주로 예제를 보여주었지만, point taken)
- 'theorem이 있어야 accept이 된다'는 풍조는 아주 anti-scientific!
- 과연 제가 생각하는 그런 연구 방향이 옳은건지, 꿈나무 theoretician인 제게 많은 생각을 하게 주었습니다.
- 반대로 성능뽑기 (a.k.a. 공학)에만 너무 치중하면 수학의 foundational crisis처럼 그런 사태가 벌어질 수 있다고 생각됩니다.
- i.e. deep learning은 수학, 공학, 그 이상인 과학으로 생각하는게 맞다고 동의합니다.
- cf. Mathematical theory of deep learning: Can we do it? Should we do it? (Sebastian Bubeck, Microsoft Research)
- cf. Towards an Empirical Theory of Deep Learning - Preetum Nakkiran (deep double descent 저자)의 PhD thesis

News
- 제2회 인공지능 최고위 전략대화
  - 인공지능 학습용 데이터, 수준 높이고 범위 넓힌다
  - 'PIM'에 4000억원 쏟고 '데이터 수집' 허들 낮추고…'K-인공지능' 드라이브
  - AI 반도체,인프라 투자 및 지원 + 데이터 규제 완화 & 추가 수집 및 개방 + 중소기업 및 연구조직 혜택
- IBM, 4조원 쏟고도 '의료 AI' 손 떼나…'왓슨 헬스' 매각 결정
  - What Ever Happened to IBM’s Watson?
  - Today, instead of being a shorthand for technological prowess, Watson stands out as a sobering example of the pitfalls of technological hype and hubris around A.I.
  - 충분하지 않은 성능의 AI를 비즈니스에 적용하고 또 과한 투자를 하고 지나치게 마케팅한 실패한 AI 제품 사례

AI Bias에 대한 조사 보고서

https://artificialintelligence-news.com/2022/01/20/ai-bias-harms-over-a-third-of-businesses-81-want-more-regulation/

산업 전반에 걸쳐 350개가 넘는 조직의 응답이 포함 (State of AI Bias report by DataRobot)
AI 편향은 기업의 3분의 1 이상에 해를 끼치며 81%는 더 많은 규제를 원함
응답자의 절반 이상(54%)이 AI 편향의 위험에 대해 "깊은 우려"를 갖고 있고, 심지어 81%는 Bias 방지를 위해 더 많은 정부 규제를 원함
- 오해의 소지가 있을 수 있어 좀더 정확하게 워딩을 옮기면 "81%는 정부 규제가 AI 편향을 정의하고 예방하는 데 도움이 될 것이라고 생각합니다."
거의 모든 응답자(97%)가 "표준화된 워크플로와 자동화된 편향 감지 기능을 갖춘 플랫폼이 사람의 편향과 오류를 줄일 수 있다"는데 동의
응답자의 77%는 표준화된 워크플로와 자동화된 편향 감지 기능이 있는 플랫폼이 사람의 편향과 오류를 상당히 또는 매우 줄일 수 있다고 동의

AI 윤리 전문가 7인, 2022년 현장의 기회와 도전 전망

https://www.morningbrew.com/emerging-tech/stories/2022/01/17/seven-ai-ethics-experts-predict-2022-s-opportunities-and-challenges-for-the-field

Mozilla, Twitter, Montreal AI Ethics, Partnership on AI, MIT, IBM 등
제기한 질문: "올해 AI 윤리 분야에서 가장 큰 발전이 예상되는 것은 무엇입니까? 반대로 가장 중요한 과제는 무엇입니까?”
사용자를 위한 알고리즘 선택의 개선 등등

Google 연구: 2021년 이후의 주제

https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html https://analyticsindiamag.com/google-ais-plan-for-2022-and-beyond/

Google Research의 선임 연구원이자 SVP인 Jeff Dean
- 트렌드 1: 더 많은 기능을 갖춘 범용 ML 모델
- 트렌드 2: ML의 지속적인 효율성 개선
- 트렌드 3: ML은 점점 더 개인적으로나 공동체적으로 유익해지고 있습니다.
- 트랜드 4: 과학, 건강 및 지속 가능성에서 ML의 이점 증가
- 트렌드 5: ML에 대한 더 깊고 폭넓은 이해
Jeff Dean 이 TED에서 비슷한 내용으로 발표한 것도 있네요 - https://www.youtube.com/watch?v=J-FzHIQ7SOs&t=66s
사족: AI ethics 연구했던 직원의 해고 건도 직접적인 원인은 Jeff Dean과의 갈등이었는데, 이 부분은 계속 주홍글씨로 따라다닐 것 같네요.
- https://www.cnet.com/news/google-ai-chief-says-reputation-hit-to-unit-is-real-after-turmoil/

https://github.com/cresset-template/cresset

PyTorch 프로젝트에서 Reproducibility 및 CUDA environment setup 이슈를 모두 해결해주는 Cresset Project 다시 공유해드립니다.

기존 PyTorch Universal Docker Template를 기억하기 쉽도록 이름을 Cresset으로 바꾸었습니다.

여러 Performance enhancement 뿐만 아니라 UI와 UX를 인공지능 연구원 및 개발자를 위해 최적화했습니다.

여러분의 성원에 힘입어 star 560개를 달성해서 version 0.2를 release했습니다. 많은 사용 부탁드립니다!

조금 전에 링크 추가하는 것을 잊어버렸네요 ^^;;

jungwoo-ha / WeeklyArxivTalk

[20220123] Weekly AI ArXiv 만담 - 37회차 #37

AI Bias에 대한 조사 보고서

AI 윤리 전문가 7인, 2022년 현장의 기회와 도전 전망

Google 연구: 2021년 이후의 주제