jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230702] Weekly AI ArXiv 만담 시즌2 - 22회차 #88

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

상반기 회고 1마디씩

News

ArXiv

veritas9872 commented 1 year ago

오늘은 인공지능과 생물학 관련 내용이 많이 나와서 정리합니다.

Research

HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution

ArXiv: https://arxiv.org/abs/2306.15794 Blog: https://hazyresearch.stanford.edu/blog/2023-06-29-hyena-dna GitHub: https://github.com/HazyResearch/hyena-dna

image

Flash Attention 및 State Space Model 연구로 유명한 Stanford의 Hazy Research에서 1 million long sequence의 DNA 분석을 pre-training하여 Protein-binding site 등 유전자 정보를 분석하는 것으로 위치 및 결합 방법 등을 예측하는 것을 pre-training 기반으로 진행했습니다.

연구 자체로 발견한 것은 이미 기존 방법으로 빠르게 찾을 수 있지만 LLM Pre-training 방법론으로 매우 noise가 많은 DNA 데이터를 분석하고 유의미한 정보를 추출할 수 있는데에 큰 의의가 있다고 생각됩니다.

특히 며칠 전에 동물에서도 CRISPR-Cas9과 같은 RNA 표적 기반 DNA 절단 효소가 발견되면서 지금까지는 원하는 표현형을 만들기 위해 유전형을 작성하는 것이 매우 어려워 많은 시행착오를 거쳐야 했던 과정이 LLM 방법과 유사한 Large Genetic Model을 통해 작성할 수 있을 것으로 예상됩니다.

기사: https://news.mit.edu/2023/fanzor-system-in-animals-can-edit-human-genome-0628

이러한 가능성에 대해 부정적인 견해가 일반적인데 아래 블로그를 읽어보면 옹호적인 견해도 확인해보실 수 있습니다.

유전자 조작 생물 옹호론 (한국어입니다): https://brunch.co.kr/@libertas1/5

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing

ArXiv: https://arxiv.org/abs/2306.12929

image

Qualcomm에서 Transformer Model의 알려진 한계점인 outlier activation을 해결하기 위한 분석 및 해결방안을 제시했습니다. Activation의 pattern 분석 및 다양한 실험을 확인해본 결과 상당 수 outlier는 no-update operation을 실행하기 위해 진행된다고 주장합니다. Low-precision training의 가장 큰 걸림돌 중 하나가 Transformer에서 outlier의 발생이었는데 추후 FP8과 같은 low-precision 방법론을 적용하는데 도움이 될 수도 있다고 생각됩니다 (물론 해봐야지만 알 수 있습니다).

또한, no-update를 가능하게 하기 위해 clipped softmax 방법을 적용해 exact zero가 가능하도록 하는 방법과 gated softmax 방법을 통해 outlier를 축소하는 방법 또한 제시합니다.

단점은 주로 Vision Transformer와 BERT 모델에 집중했고 OPT에서 좋은 결과를 내지 못했다는 점입니다. Autoregressive model의 중요성이 커지고 있는 것과 OPT 학습의 문제점으로 인해 추가 실험이 필요하다고 생각됩니다. 또한, scaling 실험을 진행하지 않았는데 7B 모델 가량의 언어 모델에서 실험해보는 것 또한 좋은 연구 방향으로 생각됩니다.

image image image image
ghlee3401 commented 1 year ago

News

Arxiv

Paper The Singing Voice Conversion Challenge 2023
URL 1. https://github.com/svc-develop-team/so-vits-svc : 유명한 SVC 프로젝트
2. https://github.com/lesterphillip/SVCC23_FastSVC/tree/main/egs/generate_dataset : 데이터셋
3. https://github.com/lesterphillip/SVCC23_FastSVC : task2에 대한 베이스라인
4. https://huggingface.co/espnet/ftshijt_espnet2_asr_dsing_hubert_conformer : CER 측정을 위한 ASR 모델
Abstract 1. Voice Conversion Challenge를 진행해오다가 올해 처음 Singing Voice Conversion Challenge(SVCC)를 개최
2. in-domain & cross-domain SVC 로 두 가지 task에 대해서 데이터베이스를 구성
3. 두 달 동안 진행을 했고 baseline 2팀을 포함하여 총 26팀이 참가하였음
4. 두 task 모두 사람 수준의 자연스러움을 달성하였지만 target singer 만큼의 유사성 점수를 얻지는 못하였음
Task 1. In-domain SVC : target speaker의 가창 음성(singing voice)를 이용하여 가창 음성 변환
2. Cross-domain SVC : target speaker의 음성 데이터(speech) 를 이용하여 가창 음성 변환
Datasets 1. SVCC 2023의 데이터셋은 NUS-HLT Speak-Sing(NHSS) dataset의 subset
2. 기존의 NHSS 는 speech와 singing data가 parallel하게 만들어져 있음
3. SVCC에서는 각 speaker별로 20개의 노래에서 10개의 노래를 선택하게 하여 semi-parallel하게 수집
4. 두 task에 대하여 각 speaker의 6개를 학습으로 4개를 평가 데이터셋으로 함
- "ID" : Task1에 대한 target singer
- "CD" : Task2에 대한 target speaker
- "S" : source speakers

Results 1. Participants : task1에 25개, task2에 24개의 시스템이 제안됨


2. Systems
2-1. B01 (DiffSVC System) : baseline으로 DiffSVC paper 의 system과 비슷하게 구성 (PPG 기반)
2-2. B02 (Decomposed FastSVC System) : baseline으로 FastSVC와 유사하지만 acoustic model과 vocoder를 분리
2-3. 총평
- 대부분 encoder를 이용하여 content와 prosodic feature를 따로 추출
- decoder를 multi-speaker/singer dataset으로 학습 후 target으로 fine-tuning,
- T15, T19를 제외하고 encoder, decoder를 따로 학습
- 새로운 기술을 개발하여 사용하지 않은 것들을 확인

Evaluations 1. Subjective Evaluation
- Naturalness와 Similarity를 기준으로 평가
- T02, T07 모델이 두 task 모두에 대하여 좋은 성능을 내는 것으로 보임
- 두 모델 모두 content feature로 HuBERT를 사용한다는 점이 특징
- T03과 T12를 비교해보면 VAE를 사용하는 것이 나을 수 있음
- T20을 보면 T03과 보코더 차이 뿐인데 성능이 떨어지는 것을 볼 수 있음
- 학습 방법이나 네트워크 구성이 달라 직접적인 비교는 어렵지만 참고로 볼 수 있을 듯


2. Objective Evaluation
-아래의 표는 objective metric들과 MOS와의 correlation을 보여주고 있음
- 가창 음성은 주관적인 기준이 워낙 달라서 objective metric과 MOS의 상관관계가 떨어짐

Date Keyword Paper Name
23.06.18 Voice Conversion DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model
23.06.18 Voice Conversion LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models
23.06.20 Cross-lingual Cross-lingual Prosody Transfer for Expressive Machine Dubbing
23.06.25 Cross-lingual DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech
23.06.27 Cross-lingual GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech
23.06.23 DB DISCO-10M: A Large-Scale Music Dataset