Closed zvg closed 1 year ago
docker 安装 gpu版本
测试过 默认和 large, 都是一样的结果.
视频中一直在对话, 1-7 分钟都是正常的.之后就基本都错了,只有少量正确.
此处省略两百行,都是 我会发现 - [ ] [823,28:11] 我会发现 - [ ] [824,28:13] 我会发现 - [ ] [825,28:15] 我会发现 - [ ] [826,28:17] 我会发现 - [ ] [827,28:19] < No Speech > - [ ] [828,28:47] 不好意思 - [ ] [829,28:49] < No Speech > - [ ] [830,28:51] 我是回家的 - [ ] [831,28:53] 蔡阿嫂 - [ ] [832,28:55] 欢迎回家 - [ ] [833,28:57] 你喝醉了吗 - [ ] [834,28:59] 我喝醉了 - [ ] [835,29:01] 真厉害 - [ ] [836,29:03] 还有什么细胞 - [ ] [837,29:05] 还有什么细胞 - [ ] [838,29:07] 嗯 - [ ] [839,29:09] 嗯 - [ ] [840,29:11] 嗯 - [ ] [841,29:13] 嗯 - [ ] [842,29:15] 嗯 - [ ] [843,29:17] 嗯 - [ ] 此处省略 1988行,都是 嗯.
这个是whisper会可能触发的的bug
你可以试下最新版本,我默认开了 vad。你会在log里面看到这样类似的话。
INFO Done voice activity detection in 24.0 sec
作用是把视频切成多个片段,让whisper分别去转录。
万分感谢. 新版本测试没有出现类似问题.
docker 安装 gpu版本
测试过 默认和 large, 都是一样的结果.
视频中一直在对话, 1-7 分钟都是正常的.之后就基本都错了,只有少量正确.