Closed jungwoo-ha closed 2 years ago
Arxiv (Audio and Speech Processing)
MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis
News
Discussion - 현재 Deep Learning은 "과학"인가요? 아님 단순히 "공학"인가요?
CIF: Communications and Information Foundations: "supports research activities that address the theoretical underpinnings for information acquisition, transmission, and processing in communications and information processing systems." (sponsored/under NSF)
이렇게 theory-application이 만나는 기회를 제공하고, 무엇보다 foundational research에 대한 중요성을 인식하고 funding을 국가차원에서 많이 해주어서 매우 부럽습니다,,
"Deep Learning Needs More Science" (Tom Goldstein, 28:00부터!)
발표가 매우 깔끔하여 한번씩 들어보는것을 추천!
(물론 거의 자신이 참여한 논문들 위주로 예제를 보여주었지만, point taken)
'theorem이 있어야 accept이 된다'는 풍조는 아주 anti-scientific!
과연 제가 생각하는 그런 연구 방향이 옳은건지, 꿈나무 theoretician인 제게 많은 생각을 하게 주었습니다.
반대로 성능뽑기 (a.k.a. 공학)에만 너무 치중하면 수학의 foundational crisis처럼 그런 사태가 벌어질 수 있다고 생각됩니다.
i.e. deep learning은 수학, 공학, 그 이상인 과학으로 생각하는게 맞다고 동의합니다.
cf. Mathematical theory of deep learning: Can we do it? Should we do it? (Sebastian Bubeck, Microsoft Research)
cf. Towards an Empirical Theory of Deep Learning - Preetum Nakkiran (deep double descent 저자)의 PhD thesis
News
IBM, 4조원 쏟고도 '의료 AI' 손 떼나…'왓슨 헬스' 매각 결정
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html https://analyticsindiamag.com/google-ais-plan-for-2022-and-beyond/
https://github.com/cresset-template/cresset
PyTorch 프로젝트에서 Reproducibility 및 CUDA environment setup 이슈를 모두 해결해주는 Cresset Project 다시 공유해드립니다.
기존 PyTorch Universal Docker Template를 기억하기 쉽도록 이름을 Cresset으로 바꾸었습니다.
여러 Performance enhancement 뿐만 아니라 UI와 UX를 인공지능 연구원 및 개발자를 위해 최적화했습니다.
여러분의 성원에 힘입어 star 560개를 달성해서 version 0.2를 release했습니다. 많은 사용 부탁드립니다!
조금 전에 링크 추가하는 것을 잊어버렸네요 ^^;;
News
ICLR 2022 결과가 나왔습니다. 덧 ICLR 는 어떤 학회인가?
ICASSP 취합중... (설명은 정현님이)
ICML 2022 데드라인이 28일 밤 9시 입니다 (27일 AOE, Supple 없음)
CVPR 2022 리뷰가 월 or 화에 나올 것 같습니다. --> 설명절은 저 멀리.....
Arxiv
Data2Vec
The first high-performance self-supervised algorithm that works for multiple modalities (?)
음성, 이미지, 텍스트 인식에서 모두 뛰어난 성능이라고
Self-distill 처럼 student mode가 teacher mode의 layer feature representation을 복원토록 --> 그래서 modaility agnostic가능
그냥하면 잘 안되서 normalization technique을 잘써야한다고 (Speech는 Instance Norm, Vision/NLP는 Layernorm)
전반적으로 iBOT 과 유사한 scheme이나 hidden representatino prediction이란 차이가 있는 듯
단.. 멀티모달 모델은 아님. 동일한 아키텍처로 여러 모달리티를 학습가능한 모델(물론 feature 정의 미세 customizing 필요) 이 구조를 기반으로 멀티모달로 확장해 나가는 연구가 중요할듯
논문은 여기
코드는 https://github.com/pytorch/fairseq/tree/main/examples/data2vec
Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks
KAIST-NAVER Hypercreative AI Center 연구 from 신진우 교수님 연구실 + AI Lab
기존 Video 생성의 문제는 RGB의 3d grid로 모델링 하다보니 긴 sequence 생성이 어려웠음(VideoGPT, MocoGAN-HD)
최초로 Implicit neural representation을 활용하여 연속적인 Spatio / temporal coordinate 조절해서 motion dynamics를 모델링하도록 하여 Video를 생성하는 GAN (DIGAN)
D가 motion의 자연스러움으로 구분토록 학습하면서 더 긴 시퀀스를 학습토록, INR기반으로 속도도 훨씬 빠름
128x128의 128 프레임 시퀀스 생성 가능, extrapoloation도 가능, FVD SOTA기록
프로젝트 페이지 (여러가지 샘플은 여기): https://sihyun-yu.github.io/digan/
LaMDA: Language Models for Dialog Applications
Google IO 2021 에서 공개한 LaMDA의 논문
최대 137B Dialog model를 1.56T 공개 대화 및 웹텍스트 단어학습
Safety와 팩트 grounding (hallucination 문제) 문제해결을 위해 BlenderBot2.0과 마찬가지로 Information Retrieval System 활용하고 annotated data에 대하여 finetuning을 했음
SSI metric 제안 (SSA + Interestingneses by crowdworker)