Closed timzaak closed 2 years ago
https://video-transfer.ts-martech.com/ 算是做了 demo 版本。 对口型这个问题应该归属于伪命题。 语音目前英文和中文长度上相差不大,可以暂时不考虑。 只是每一句话都需要做一次语音合成有点浪费时间,这个正式做,应该是要搞成自建的, bucking bird 之类的语音合成开源项目都算是很成熟了。
由于 Ios 微信打开无法下载视频,所以要做一个小程序版本。叫做:“小源短视频翻译”。 后面可能要为此加上支付。
抖音视频中的中文语音转译成英文。
提取视频中的音频
用 FFmpeg 即可,但目前还未能对环境音做额外的处理。
音频转写
抖音/百度/字节都有平台可以进行转写,转写可获取每段话语甚至每个字的时间点。
翻译
话语可以翻译,但是准确度会有问题。
语音合成
抖音/百度/字节 都有合成接口,但需要每一句都调用一次接口生成单独的语音片段。 然后 FFmpeg 根据音频转写时获取的时间点将语音片段合成一体,最后再和视频合成。 但问题是语音片段不可控,容易出现覆盖的现象,且嘴形会出现无法调和的问题。
如果真要上用,大概率会是在不需要对口型的视频,类似影视解说。在语音合成的基础上,提供翻译再合成。 类似这种: https://yueyin.zhipianbang.com/