jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
972 stars 41 forks source link

[20230910] Weekly AI ArXiv 만담 시즌2 - 25회차 #91

Open jungwoo-ha opened 9 months ago

jungwoo-ha commented 9 months ago

Zoom: https://navercorp.zoom.us/j/92208940283

페이스북: https://www.facebook.com/weeklyaiarxivpage

News

ArXiv

ghlee3401 commented 9 months ago

Arxiv

Paper A Survey of AI Music Generation Tools and Models
URL 1. 구글의 마젠타 프로젝트 : https://github.com/magenta
2. OpenAI의 Jukebox : https://github.com/openai/jukebox
3. 구글 브레인의 Music Transformer : https://github.com/jason9693/musictransformer-pytorch
4. Riffusion : https://www.riffusion.com/
5. Noise2Music :https://google-research.github.io/noise2music/
6. Mousai : Text-to-Audio with Long-Context Latent Diffusion
7. MusicLM : https://google-research.github.io/seanet/musiclm/examples/
8. MusicGen : https://huggingface.co/spaces/facebook/MusicGen
Abstract - 음악 생성 (Music Generation) 분야에서 나온 연구를 모델 중심으로 정리한 survey 논문
- A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions 이 survey 논문과 같이 보면 좋을 듯
- prompt 기반 생성 모델을 한 축으로 추가한 것이 이전 survey 논문들과 다른 점
- 단순하게 모델 소개와 장단점을 간단히 적어두었기 때문에 참고 시 좋을 듯
Task Music Generation
Figures


Paper InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models
URL - 샘플 URL : https://musicedit.github.io/
Abstract - ByteDance에서 나온 논문
- an Instruction guided Music Editing and remixing Frame work (InstructME)
- 음악을 생성하는 것이 아니라 편집하는 것에 초점을 맞춘 논문
- 악기를 추가하거나 넣거나 할 수 있음
- instruction을 가이드로 하는 music editing framework를 처음으로 제안하는 것이라고 함 (Audio쪽은 AUDIT 논문이 존재)
Task - Music Editing and Remixing
Proposed Method - 미리 정의 된 명령어들을 이용하여 음악을 편집


- T5를 이용하여 text instruction을 embedding vector로 만들고 audio segment는 VAE를 이용하여 latent embedding으로 변화
- audio segment embedding 값을 입력으로 text embedding 값을 조건으로 넣되, source와 editing 된 음악 사이의 일관성과 하모니를 위하여 chord progression을 조건으로 넣어줌

Datasets - 410시간의 음악 데이터를 수집
- 각 audio file을 여러 개의 음악 트랙으로 구성이 되어 있고 24kHz로 re sampling 시켜놓음
- overlap 없이 10초 단위로 잘라서 사용
- 학습을 위해서 triplet data로 구성(instruction, source music, target music) 총 1M (adding 0.3, replacement 0.3, extracting 0.2, removing 0.2

Results

kimyoungdo0122 commented 9 months ago

- News


terryum commented 9 months ago

IFA Berlin 2023 소식

국내 스타트업 투자 관련 동향