jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20220703] Weekly AI ArXiv 만담 - 57회차 #57

Closed jungwoo-ha closed 1 year ago

ghlee0304 commented 2 years ago

Arxiv (Audio and Speech Processing)

이번 주 arxiv는 거의 INTERSPEECH2022에 accept된 논문이 쏟아져 나와서 concept 별로 빠르게 훑어봤습니다.

  1. Flow를 사용한 TTS 논문 (VITS 인용)
    • SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech
      1. multilingual TTS
      2. 샘플URL: https://mindslab-ai.github.io/sane-tts/
      3. Problem
        • autoregressive multilingual TTS model들은 주로 Tacotron을 기반으로 하고 있는데 Tacotron 기반의 모델을 attention을 이용하기 때문에 wrong alignment 때문에 word skipping과 repeating이 일어날 수 있음
        • non-autoregressive model의 경우 duration predictor를 이용해서 학습을 하는데 이 논문에서는 VITS를 backbone으로 선택하였음
      4. Method saneTTS0
        • domain adversarial training (DAT) : text representation과 speaker identity를 distentangle하기 위하여 text encoder output에 speaker classifier를 달고 gradient reversal layer를 달아서 학습
        • speaker regularization loss : $L{reg}=||\mathbb{E}{k \in K}[\text{conv}(S_k)]||_2$ 로 loss를 주는데 이 방법은 hidden speaker representation들의 평균을 zero vector가 되도록 함
        • cross lingual에서는 zero vector를 넣어주어서 보통의 duration 을 예측하고, intralingual inference 시에는 speaker embedding을 넣어주는 방법을 취하여 duration predictor의 안정성을 높일 수 있음
        • 기존의 VITS에서는 stochastic duration predictor (SDP)를 사용하였는데 불안정하다는 연구 결과가 있어서 deterministic duration predictor (DDP)를 사용하였음
      5. Dataset
        • 영어 (EN), 한국어 (KO), 일본어 (JA), 중국어 (ZH) 를 사용
          sane_tts1
      6. Result sane_tts2
    • End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue
  2. Self-supervised learning + Supervised learning
    • BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping
      • BYOL-A 처럼 audio 데이터 셋을 이용한 BYOL을 구현하되 speech에 대해서 학습한 논문
      • BYOL-A에서 데이터 셋을 바꾸고 encoder 등에 다양한 구조를 실험을 해서 가장 좋은 구조를 찾음
      • 추가적으로 DSP를 통하여 representation을 만들어 supervised learning을 함
      • 결론적으로 supervised learning과 SSL 방법을 하이브리드로 하는 것이 좋다
        byols1
    • Comparing supervised and self-supervised embedding for ExVo Multi-Task learning track
      • ICML Expressive Vocalizations (ExVo) Multi-task challenge 2022 는 non-linguistic vocalizations (vocal bursts (VB))로부터 10개의 감정의 강도, 화자의 나이를 예측 (regression)하고 나라를 예측(classification)하는 챌린지
      • 이 논문에서는 SSL based embedding과 task-specific supervised learning based embedding 을 비교
      • 결론은 두 개를 하이브리드로 사용하는 것이 좋다
      • ExVo dataset은 59,201개의 recording, 1,702 화자, 36시간, USA, China, Venezuela, South Africa, 18 ~ 39세 범위 comparing1
  3. Emotion and Intensity prediction
veritas9872 commented 2 years ago

Minerva: Solving Quantitative Reasoning Problems with Language Models

구글에서 기존 Problem Solving Model을 능가하는 Minerva를 발표하였습니다.

Arxiv 및 여러 블로그에서 기존에는 제거되었던 $LaTeX$를 text input에 사용하도록 하고 structured prompting을 이용해서 계산을 위한 코드나 계산기 등을 이용하지 않았음에도 불구하고 문제의 약 1/3 가량을 맞출 수 있는 모델을 개발하였습니다.

MIT OpenCourseware 수업의 문제에 대해 evaluation을 진행했을 때에도 과학, 경제학 등 여러 분야에서 robust한 성과를 보였는데 교육 분야 등에서 많은 도움이 될 수 있다고 생각됩니다.

Blog: http://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

Arxiv: https://arxiv.org/pdf/2206.14858.pdf

image

image

HuggingFace Diffusers

image

GitHub: https://github.com/huggingface/diffusers

HuggingFace에서 Diffusion model을 PyTorch에서 구현하기 편리하도록 Diffusers 라이브러리를 오픈소스했습니다. Google Imagen 등 Diffusion에서 유명한 SOTA 모델이 이미 여럿 구현되어 있고 데이터 파이프라인을 작성하는데 등 많은 도움이 될 것 같습니다.

PyTorch 1.12: TorchArrow, Functional API for Modules and nvFuser, are now available New library updates in PyTorch 1.12

PyTorch 1.12가 Release 되었습니다! 새로운 DataLoader, nvFuser compiler, Complex Number support 등등 major feature addition및 update가 있어 많은 도움이 될 것 같습니다.

https://pytorch.org/blog/pytorch-1.12-released/

https://pytorch.org/blog/pytorch-1.12-new-library-releases/

terryum commented 2 years ago

스타트업얼라이언스에서 내놓은 AI생태계 레포트

한국의 스타트업 생태계를 돕는 스타트업 얼라이언스에서 AI생태계 관련 두 개의 자료를 공개했습니다. 스타트업얼라리언스 리포트 사이트

하나는 "AI생태계, 스타트업이 말하다"라는 레포트이고(pdf), 다른 하나는 해당 레포트 저자 등의 토론회 발표자료인데요(pdf), 오늘은 첫번째 자료의 주요 내용과 이에 대한 저의 생각을 공유해 보겠습니다.

image

우리나라의 AI스타트업 현황을 보면 의료와 엔터테인먼트에 집중되어 있는 것을 알 수 있습니다. (참고로 이 자료에서 "엔터테인먼트"는 쇼핑, 패션, 뷰티, 여행, 컨텐츠, 게임 등 라이프스타일과 커머스를 포함한 카테고리입니다.) 의료 쪽은 이상하게도 AI 스타트업이 많습니다. 한국은 규제가 많은 나라인데도 말이죠... 아마도 시장 생태계의 선호보단, 여러 지원 속에 R&D 중심의 성장과 상장이 가능한 환경이었기 때문이 아닐까 싶습니다.

엔터테인먼트/라이프스타일/커머스/게임의 경우 스타트업이 가장 많이 발생하는 분야 중 하나로 여기에 "AI"란 점 하나를 찍어서 AI스타트업으로 포지셔닝 하는 스타트업이 많은 것 같습니다.

image

한가지 특징적인 점은 많은 AI스타트업이 초기투자단계(Pre-A 이전)인 경우가 많고, B2B 비즈니스를 단독/병행해 운영하는 경유가 많다는 점입니다. 시리즈A 이후부터는 Product-market fit을 찾은 이후의 성장단계에서의 펀딩이라 할 수 있습니다. 따라서 AI스타트업이 초기투자단계에 머물고 있다는 뜻은, 아직 시장에서 필요한 니즈를 제공하는 AI스타트업이 그리 많지 않다는 것을 뜻합니다.

image

B2C에서 제대로 된 AI의 효용을 찾지 못할 경우 할 수 있는 일 중 하나는 (정부지원사업의 가호 하에) 대기업/중소기업에게 AI 용역서비스를 제공하거나, 제품화 된 AI솔루션을 공급하는 일일 것입니다. 후자의 경우 시리즈A 정도가 되어야 가능한 일이기 때문에, 아직까지는 많은 AI스타트업들이 (젖과 꿀이 흐르는) 기존 대기업의 손길 하에 그 안에서의 협업을 도모하며 생존하고 있는 것으로 보입니다. 하지만 국내대기업을 고객으로 하는 B2B 성장이 과연 큰 AI비즈니스를 만들 수 있을지는 의문입니다.

image image

위는 'AI생태계 활성화를 위해 무엇이 중요한지'를 조사한 자료인데요 (from 13개 AI스타트업 관계자의 심층인터뷰), 다음을 가장 해결해야 할 일로 꼽았습니다. 1) 시장 수요 2) 개발 인력 3) 데이터 4) 제도/규제 정비

근데 이거 빼면 뭐가 남나.. 다 문제란 소리 아닌가...

일단 시장에서 AI에 대한 수요를 창출하기 힘듭니다. 비록 이 보고서에서는 "AI시장 수요 확보와 사회적 수용을 장려하기 위해 1) 스타트업과 대기업 연계가 필요하고 2) 해외진출에 대한 정부지원이 필요하다"라고 했지만, 저는... 흠... 시장의 수요는 누가 만들어 주는게 아니기 때문에, 그게 안되면 스타트업이 아니라 R&D과제를 해야하는 것 아닌가요...

개발인력과 데이터 부족 역시 많은 스타트업들이 겪는 문제인데요, 결국 어떻게 하면 고급 개발 인력의 생산성과 영향력을 극대화 할지, 그리고 신규데이터 수집과 기존데이터 공유를 어떻게 활성화 해서 "두 번 데이터 수집 일을 안해도 되게"할 수 있을지에 대해 진지한 고민이 필요하지 않을까 싶습니다. 개발 인력과 데이터, 모두 한정적인 자원인만큼 이들의 효율을 극대화 할 방안이 필요합니다.

image

AI스타트업의 핵심은 AI가 아니라 스타트업입니다. "시장의 문제를 해결하는 스타트업이어야 한다"는 생존의 필수조건이지만, "AI를 써야한다"는 선택적 조건이기 때문이죠. 이런 차원에서 단지 "AI"를 붙였다고 시드투자를 받는 시대는 지나가고, 점점 더 시장성에 대한 검증이 철저해지는 시기가 아닌가 싶습니다. AI스타트업들 모두 화이팅! (ART Lab도 화이팅!)

kimyoungdo0122 commented 2 years ago
ghlee0304 commented 2 years ago