open-mmlab / FoleyCrafter

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds. AI拟音大师,给你的无声视频添加生动而且同步的音效 😝
https://foleycrafter.github.io/
Apache License 2.0
471 stars 40 forks source link

有关训练 T.D 的一些疑问 #21

Open lym0302 opened 1 month ago

lym0302 commented 1 month ago

您好,想请教一下关于训练 T.D 的一些问题。论文中提到用AVSync15 数据集来训练T.D, 这个数据没有时间戳信息,只有分类和视频(命名类似于:6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4), 请问怎么用来训练 timestamp detector,按道理训练数据应该有目标时间标记(音频每一帧是 1(有声) 还是0(无声) 的标记),这个时间标记怎么获取?

个人推测例如视频名称为: 6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4, 则首先对应 训练数据是 vggsound 数据中的 6wHFhrAqt5Q_000023.mp4, 然后时间标记为1 的是 6wHFhrAqt5Q_000023.mp4中的 5.5~8.5, 其余的时间段的目标时间标记为0,是这样的吗?

请大佬们指教,感激不尽~~~

Basums commented 1 week ago

但是说实话6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4里面的3s标签也很粗糙

Basums commented 1 week ago

一般来说是要用librosa.onset