BingLingGroup / autosub

Command-line utility to transcribe/translate from video/audio/subtitles to subtitles
GNU General Public License v2.0
1.98k stars 244 forks source link

有没有自动打轴功能 #107

Closed lamquan1220 closed 4 years ago

lamquan1220 commented 4 years ago

已经有音频和已经换行的文本文件,AUTOSUB有没有自动打轴功能?把文本和音频自动对齐?这个实现难不难?

BingLingGroup commented 4 years ago

有啊,请你仔细看下readme https://github.com/BingLingGroup/autosub/blob/dev/docs/README.zh-Hans.md#检测语音区域 可以得到时间轴文件

但是你所说的自动打轴比较难受在于一点是,程序划分的时间轴未必和你的文本是一一对应的,所以建议你还是手动校对一下

如果是一一对应的,那么用notepad++的列编辑,或者excel都可以直接把文本批量导入到时间轴上面

lamquan1220 commented 4 years ago

噢,自动生成时码功能我知道。但这个时码只是根据语音间空白生成的吗?不能根据文本断句吗?

BingLingGroup commented 4 years ago

一般来讲语音间空白就是断句了,如果语音间空白不是断句,这种的话需要长语音识别API返回时间戳来判断分句,目前还不支持。 刚看了下,讯飞API是支持这种的,但是只有5小时免费额度,不像短语音识别是每天都有500次免费额度,百度API这方面则是在内测,以后我会添加的。

hxse commented 3 years ago

@BingLingGroup 有个解决 音频和文本匹配问题 的思路: 比如说有些有声书有文本有音频, 但是没有时间戳: 首先用autosub生成一个srt文件, 然后根据srt文件和书籍文本的相似程度, 给书籍文本划分出时间戳 还可以用于, 比如一些演讲稿, 有文本有音频, 但是没有时间戳, 利用这种方式匹配出时间戳 匹配个大概之后再人工校准一下, 这个方法好处是不用api, 本地就能完成

参考资料: https://blog.xulihang.me/parallel-text-alignment/ https://github.com/rsennrich/Bleualign/

BingLingGroup commented 3 years ago

@hxse 谢谢,不过第一个链接似乎无法打开,第二个链接看上去已经是很老的项目了。

hxse commented 3 years ago

@hxse 谢谢,不过第一个链接似乎无法打开,第二个链接看上去已经是很老的项目了。

相关资料: https://www.basiccat.org/zh/new-tool-bitext-aligner/

BingLingGroup commented 3 years ago

@hxse 谢谢,大致知道了这样一个项目,我以后有空会加。 好吧,打不开只是我自己的网络问题,抱歉。