Open jungwoo-ha opened 9 months ago
Paper | A Survey of AI Music Generation Tools and Models |
---|---|
URL |
1. 구글의 마젠타 프로젝트 : https://github.com/magenta 2. OpenAI의 Jukebox : https://github.com/openai/jukebox 3. 구글 브레인의 Music Transformer : https://github.com/jason9693/musictransformer-pytorch 4. Riffusion : https://www.riffusion.com/ 5. Noise2Music :https://google-research.github.io/noise2music/ 6. Mousai : Text-to-Audio with Long-Context Latent Diffusion 7. MusicLM : https://google-research.github.io/seanet/musiclm/examples/ 8. MusicGen : https://huggingface.co/spaces/facebook/MusicGen |
Abstract |
- 음악 생성 (Music Generation) 분야에서 나온 연구를 모델 중심으로 정리한 survey 논문 - A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions 이 survey 논문과 같이 보면 좋을 듯 - prompt 기반 생성 모델을 한 축으로 추가한 것이 이전 survey 논문들과 다른 점 - 단순하게 모델 소개와 장단점을 간단히 적어두었기 때문에 참고 시 좋을 듯 |
Task |
Music Generation |
Figures |
Paper | InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models |
---|---|
URL |
- 샘플 URL : https://musicedit.github.io/ |
Abstract |
- ByteDance에서 나온 논문 - an Instruction guided Music Editing and remixing Frame work (InstructME) - 음악을 생성하는 것이 아니라 편집하는 것에 초점을 맞춘 논문 - 악기를 추가하거나 넣거나 할 수 있음 - instruction을 가이드로 하는 music editing framework를 처음으로 제안하는 것이라고 함 (Audio쪽은 AUDIT 논문이 존재) |
Task |
- Music Editing and Remixing |
Proposed Method |
- 미리 정의 된 명령어들을 이용하여 음악을 편집 - T5를 이용하여 text instruction을 embedding vector로 만들고 audio segment는 VAE를 이용하여 latent embedding으로 변화 - audio segment embedding 값을 입력으로 text embedding 값을 조건으로 넣되, source와 editing 된 음악 사이의 일관성과 하모니를 위하여 chord progression을 조건으로 넣어줌 |
Datasets |
- 410시간의 음악 데이터를 수집 - 각 audio file을 여러 개의 음악 트랙으로 구성이 되어 있고 24kHz로 re sampling 시켜놓음 - overlap 없이 10초 단위로 잘라서 사용 - 학습을 위해서 triplet data로 구성(instruction, source music, target music) 총 1M (adding 0.3, replacement 0.3, extracting 0.2, removing 0.2 |
Results |
새로운 AI 비디오 생성 앱
오픈 소스 이미지와 영상을 활용해서 그런지, 코비 브라이언트 하이라이트를 만들어 달라고 했는데 농구 영상이면 아무거나 가져옴
자막은 마치 코비 브라이언트 나무위키를 읽는 듯한..
다양한 주제의 영상이 제작 가능하니 재미있게 활용해보실 수 있을 듯합니다
Robot Waiters Delight Korea's Restaurants but Not Its Robotics Firms
ChatGPT scores equal to or better than students in 9 out of 32 university courses
세계 3대 가전전시회(CES, MWC, IFA) 중 하나로 불리는 IFA Berlin이 지난 9/1-6 열렸습니다 [종합 기사]
최근 미중 관계로 인해 중국의 CES 참가가 제한됐던만큼, IFA에는 반대로 중국의 물량 공세가 엄청 났습니다
가전의 꽃인 TV, Display 관련해서도 중국의 추격이 매서워 보였습니다. 첨단 기술에서 보편 기술로 내려온지 꽤 된 모습입니다.
TV 중에선 초고화질/저전력으로 예술을 감상하게 하는 제품들이 눈길을 끌었습니다 [관련기사1] [관련기사2]
우리나라에선 삼성이 건물 하나 전체를 빌리며 가장 큰 전용관으로 눈길을 끌었고, LG 역시 큰 공간을 차지했습니다.
크고 많은 부스들로 위용을 과시한 중국과 삼성 월드(+ LG)를 보여준 한국과 달리, 일본은 전용관 없이 비교적 소규모로만 참여했습니다 [관련기사]
한국에선 서울경제진흥원, 부산창조경제혁신센터, 대전테크노파크, NIPA, ETRI, KOTRA 등 다양한 정부지원기관들이 중소기업들의 참여를 지원하여 많은 기업들이 참여했습니다.
하지만 위치한 곳은 (CES 한국관과 마찬가지로) 가장 외딴 곳이라 참여 효과보단 참여 실적 자체가 목적인 것 같아 아쉬운 부분이 있었습니다
[서울관에 참여한 ART Lab의 모습]
주로 한국 기업만 AI가 있었고 대부분은 가전제품에 치중한 모습이었습니다 (AI는 보조 피처)
삼성에선 AI를 활용한 "삼성 푸드"를 선보이며, 개인화 된 레시피 저장과 이에 맞춘 삼성 가전기기들의 연동, 그리고 미래엔 삼성 헬스와의 연동을 밝혔습니다 [관련 보도자료]
삼성전자는 빅스비 보이스를 모든 가전에 도입한다고 합니다 [관련기사]
친환경, 신소재 등이 점점 강조되는 모습이었으며 AI 역시 전력 최적화에 기본적으로 쓰이는 모습입니다
중소벤처기업부와 금융위원회의 "2023년 상반기 국내 벤처투자 및 펀드결성 동향"에 따르면 [관련기사] 2023년 상반기 벤처투자액 = 4.4조 (2022년 -42%, 2021년 -33%, 2020년 +40%, 2019년 +25%) 2023년 상반기 펀드결성액 = 4.6조 (2022년 -47%, 2021년 -22%, 2020년 +105%, 2019년 +35%)
스타트업 얼라이언스에 따르면
2023년 상반기 투자기업 수 = 583건 (2022년 -40%, 2021년 +14%)
IPO시장 축소에 따라 후기 대규모 투자는 줄었지만 초기 기업에 투자하는 경우가 많아졌음
이 뜻은 '큰 기업가치로 IPO 하기는 힘들어져 (확실한 Pre-IPO를 제외하곤) 시리즈 B,C 투자는 어려운 반면, 경기회복이 3~7년은 걸릴 것이라 생각하기에 장기적인 미래를 보고 시리즈A 이전 기업에 투자가 많이 이루어 지고 있음
상반기 가장 많은 투자를 받은 기업은 다음과 같음 비욘드뮤직(2000억), 토스뱅크(2000억), 컬리(1200억), 대영채비(1200억), IPX(1200억), ...
상반기 AI스타트업들 투자 [관련기사]
KT, 업스테이지와 콴다에 200억 규모 전략적 투자 & 파트너십 [관련 기사]
Zoom: https://navercorp.zoom.us/j/92208940283
페이스북: https://www.facebook.com/weeklyaiarxivpage
News
ArXiv