mli / autocut

用文本编辑器剪视频
Apache License 2.0
6.72k stars 676 forks source link

字幕出现大量重复内容 #56

Closed zvg closed 1 year ago

zvg commented 1 year ago

docker 安装 gpu版本

测试过 默认和 large, 都是一样的结果.

视频中一直在对话, 1-7 分钟都是正常的.之后就基本都错了,只有少量正确.

此处省略两百行,都是 我会发现
- [ ] [823,28:11] 我会发现
- [ ] [824,28:13] 我会发现
- [ ] [825,28:15] 我会发现
- [ ] [826,28:17] 我会发现
- [ ] [827,28:19] < No Speech >
- [ ] [828,28:47] 不好意思
- [ ] [829,28:49] < No Speech >
- [ ] [830,28:51] 我是回家的
- [ ] [831,28:53] 蔡阿嫂
- [ ] [832,28:55] 欢迎回家
- [ ] [833,28:57] 你喝醉了吗
- [ ] [834,28:59] 我喝醉了
- [ ] [835,29:01] 真厉害
- [ ] [836,29:03] 还有什么细胞
- [ ] [837,29:05] 还有什么细胞
- [ ] [838,29:07] 嗯
- [ ] [839,29:09] 嗯
- [ ] [840,29:11] 嗯
- [ ] [841,29:13] 嗯
- [ ] [842,29:15] 嗯
- [ ] [843,29:17] 嗯
- [ ] 此处省略 1988行,都是 嗯.
mli commented 1 year ago

这个是whisper会可能触发的的bug

你可以试下最新版本,我默认开了 vad。你会在log里面看到这样类似的话。

INFO Done voice activity detection in 24.0 sec

作用是把视频切成多个片段,让whisper分别去转录。

zvg commented 1 year ago

万分感谢. 新版本测试没有出现类似问题.