本项目旨在通过模型生成适合影视作品的配乐,以丰富视听体验。模型效果可以在以下Hugging face网站上的结果对比页面中查看,并了解如何为视频创作背景音乐。
如遇到huggingface无法正常显示,可能是网络原因,请稍等一段时间重新访问或更换浏览器访问
可从以下链接下载准备好的数据集: Google Drive数据集下载
如果需要从头开始准备数据集,请参阅 dataset 文件夹下的 README.md
文件。
使用预处理后的数据集进行训练,您需要在 main_cp.py
中更改以下超参数:
mode
:使用 train
进行训练阶段,使用 inference
进行推断阶段。gid
:设置所用GPU的序号。data_parallel
:训练阶段设置为 1
,推断阶段设置为 0
。data_root
:设置训练数据目录。videos
:推断阶段待配乐视频目录。num_songs
:为每个视频创作背景音乐的数量。out_dir
:创作背景音乐的输出目录。设置好各参数后,执行以下命令进行训练:
python main_cp.py
在推断阶段,首先需要提取视频的节奏信息,并转换成模型可以识别的数据格式。按照以下步骤操作:
python video2metadata.py --video 输入视频地址 --meta_data 输出节奏信息文件地址 --is_tempo 1 --my_tempo 若使用用户指定节奏,在此设定 --is_path 1
python metadata2numpy_mix.py --video 输入视频地址 --meta_data 输入节奏信息文件地址 --is_path 1 --out_dir 视频节奏输出目录
python main_cp.py
访问以下存储库了解更多关于双视角评估平台的信息:双视角评估平台GitHub存储库
此平台基于BMT开发,简化了为视频创作背景音乐的流程。更多信息和操作指南,请参阅下方链接:用户友好型背景音乐配乐平台GitHub存储库