BingLingGroup / autosub

Command-line utility to transcribe/translate from video/audio/subtitles to subtitles
GNU General Public License v2.0
1.97k stars 243 forks source link

字幕能否按照单词来标注时间戳, 而不是句子 #174

Open hxse opened 3 years ago

hxse commented 3 years ago

如果是以单词来标准, 那么这个时间戳粒度比较细, 方便可以用来做进一步处理, 想要长句还是短句都可以通过合并单词来得到 但是, 直接输出长句, 那么想要短句, 就没法再处理了

BingLingGroup commented 3 years ago

目前支持使用油管自动字幕(vtt/json)时间戳进行处理,但我没写到readme里。 大致参数(圆括号中的参数为可选参数,具体看help信息)

autosub -i 字幕文件 (-er 外部音频文件 -aconf auditok配置文件) -of join-events -F ass -jctl man (trim)

这样会在字幕文件同一位置生成一只含txt的字幕文本文件,然后根据自己的需要,对其内容断句。断句的识别方法为换行,即在相应单词后面回车。目前也支持srt和ass等字幕格式,但是因为这些字幕格式自己不带时间戳(好吧,ass的卡拉OK特效标签勉强算,但我还没做支持),所以不太准确。