binghuang21 / BM-Transformer

A Generative Model for Film and Television Soundtracks Enriched with Tune Elements
MIT License
1 stars 0 forks source link

面向丰富曲调要素的影视配乐生成模型

本项目旨在通过模型生成适合影视作品的配乐,以丰富视听体验。模型效果可以在以下Hugging face网站上的结果对比页面中查看,并了解如何为视频创作背景音乐。

如遇到huggingface无法正常显示,可能是网络原因,请稍等一段时间重新访问或更换浏览器访问

数据集准备

使用预制数据集

可从以下链接下载准备好的数据集: Google Drive数据集下载

从头准备数据集

如果需要从头开始准备数据集,请参阅 dataset 文件夹下的 README.md 文件。

模型训练

使用预处理后的数据集进行训练,您需要在 main_cp.py 中更改以下超参数:

设置好各参数后,执行以下命令进行训练:

python main_cp.py

模型推断

在推断阶段,首先需要提取视频的节奏信息,并转换成模型可以识别的数据格式。按照以下步骤操作:

  1. 提取视频节奏信息:
python video2metadata.py --video 输入视频地址 --meta_data 输出节奏信息文件地址 --is_tempo 1 --my_tempo 若使用用户指定节奏,在此设定 --is_path 1
  1. 将节奏信息转化为模型可用的数据格式:
python metadata2numpy_mix.py --video 输入视频地址 --meta_data 输入节奏信息文件地址 --is_path 1 --out_dir 视频节奏输出目录
  1. 完成上述步骤后,调整 main_cp.py 中的推断相关超参数。接着执行下面的命令进行推断::
python main_cp.py

双视角评估平台

访问以下存储库了解更多关于双视角评估平台的信息:双视角评估平台GitHub存储库

用户友好型背景音乐配乐平台

此平台基于BMT开发,简化了为视频创作背景音乐的流程。更多信息和操作指南,请参阅下方链接:用户友好型背景音乐配乐平台GitHub存储库