有关训练 T.D 的一些疑问

lym0302 commented 1 month ago

您好，想请教一下关于训练 T.D 的一些问题。论文中提到用AVSync15 数据集来训练T.D, 这个数据没有时间戳信息，只有分类和视频（命名类似于：6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4），请问怎么用来训练 timestamp detector，按道理训练数据应该有目标时间标记（音频每一帧是 1（有声）还是0（无声）的标记），这个时间标记怎么获取？

个人推测例如视频名称为： 6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4，则首先对应训练数据是 vggsound 数据中的 6wHFhrAqt5Q_000023.mp4，然后时间标记为1 的是 6wHFhrAqt5Q_000023.mp4中的 5.5~8.5，其余的时间段的目标时间标记为0，是这样的吗？

请大佬们指教，感激不尽~~~

Basums commented 1 week ago

但是说实话6wHFhrAqt5Q_000023_000033_5.5_8.5.mp4里面的3s标签也很粗糙

Basums commented 1 week ago

一般来说是要用librosa.onset

open-mmlab / FoleyCrafter

有关训练 T.D 的一些疑问 #21