Open AkihikoWatanabe opened 1 year ago
https://arxiv.org/abs/2304.12995
text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム
マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい
https://arxiv.org/abs/2304.12995