【Official】：自动化翻译视频字幕/音频翻译项目开发

veaba / express-nuxt

【开发中……，需要配置mongodb才能使用本项目】Vue.js + express +nuxt.js +node.js + mongodb +websocket，web服务研究站。额外增加了小说爬虫功能（个人喜好）、vue官方样式markdown渲染。(github.io是静态页面，无法使用login等后台服务，后续再换成websocket或者jsonp与后台交互，然而看了GitHub.io 22s才加载完资源，凉凉)

https://veaba.github.io/express-nuxt/

MIT License

15 stars 2 forks source link

【Official】：自动化翻译视频字幕/音频翻译项目开发 #20

Open veaba opened 6 years ago

veaba commented 6 years ago

IDEA和创建日期2018年9月14日22:18:35
需要做一些调研和参考准备

veaba commented 6 years ago

【微软channel9视频调研】：

字幕在视频上的呈现
定时发起一个xhr请求，返回content-type: text/vtt; charset=utf-8,Microsoft-IIS/10.0

xhr

【调研结果】：

数据的传输的选择
1. webscoket 目前项目中比较成熟的技术方案，服务器推送 2.也可以使用SSE (EventSource)，服务器推送 3.也可以选择http2中的推送 4.定时请求数据xhr

veaba commented 6 years ago

【难点和意外】：

因为必须将视频中的音频数据截取下来，才能发给相关的服务器去处理，转为字幕

1.如何实时的拆分音频，储存起来并发给相关的服务去做解析？ 2.如何将视频发给node，node支持将音频数据过滤下来？ 3.如何处理stream视频/音频的数据，node 是什么方案？

veaba commented 6 years ago

【文档储备/参考】：

Node.js 中流操作实践 https://segmentfault.com/a/1190000016328755
A Node.js implementation of RTMP Server https://www.npmjs.com/package/rtmp-server
使用HTML5中的Blob对象实现媒体播放功能 https://blog.csdn.net/SVictorique/article/details/54892701 不会被直接下载
斗鱼直播可以 https://4143591f85921822fbbb32d16de61c24.v.smtcdns.net/tc-tct.douyucdn2.cn/dyliveflv3a/5695747rVVgKz54A.flv?wsAuth=0ec880daa18621c25f9ff9043c74d60b&token=web-douyu-20123226-5695747-d557ee7eca2d25a84861a4f54de2f739&logo=0&expire=0&did=b75cc100c7f3c14d066facc400091501&ver=Douyu_218091301&pt=2&st=0&mix=0&dispatch_from=ztc9.25.22.29&utime=1537008814101 服务是 Content-Type: video/x-flv
搭建node RTMP服务 https://drg1998.cn/archives/91
FFmpeg https://www.jianshu.com/p/7ed3be01228b
从flv 视频文件提取音频MP3文件 https://blog.csdn.net/jcwkyl/article/details/5313297
A fluent API to FFMPEG https://github.com/fluent-ffmpeg/node-fluent-ffmpeg
NODEJS基于FFMPEG视频推流测试 https://segmentfault.com/a/1190000012049916
Node.js调用ffmpeg处理视频 https://blog.csdn.net/dj513dj/article/details/60961970
ffmpeg module for nodejs https://github.com/damianociarla/node-ffmpeg
Node.js发送视频流 https://blog.csdn.net/liuyaqi1993/article/details/76560401
直播技术原理讲解 https://blog.csdn.net/leifukes/article/details/73244012

veaba commented 6 years ago

【斗鱼直播的一些数据】：

wss socket wss://wsproxy.douyu.com:6674/

veaba commented 6 years ago

【直播架构】：

采集

推流协议 RTMP
推流方式，OBS/XSPlit/FMLE/定制SDK等
需要一个推流的设备/基于RTMP推流协议的解码器 这个步骤是干嘛的？

播放

播放协议 RTMP、FLV、HLS三种播流协议
播放方式 SDK、web、VLC
直播拉流 FLV、RTMP 这个是干嘛的？

【问题】：

如何解析RTMP 协议，并解析数据后拿到音频数据？

了解到，可以让解析RTMP并还原数据，提取音频，可以通过http://ai.baidu.com/tech/speech/lsr 百度长语音识别实时转为字幕，但百度对于REST API 只支持60s以下的语音识别！！更多的是支持Android 和ios 的SDK。

得到音频

librtmp获取视频流和音频流1 https://blog.csdn.net/jzjhome/article/details/75270727

veaba commented 6 years ago

【微软认知API】：优先考虑。不过需要解锁visa卡 https://azure.microsoft.com/zh-cn/services/cognitive-services/speech/

可以直接在浏览器上录音并翻译回来，这个吊。
但因为需要信用卡才能接下去使用这项服务，目前因为失业的原因，无法申请visa卡，有点尴尬。
9月17号又在招行申请了visa卡，还是没成功
赶在国庆前的一天，成功激活信用卡，并成功使用了$1600 30天的使用额度，微软认知，我来了。
等我创建了服务，调用了接口。结果发现仅限美国西部使！！！！用！！！！！！ 8102年了！！快点可以？气炸

veaba commented 6 years ago

【百度语音长语音识别】：放弃

场景描述很相符，只是仅仅在android 和ios sdk 支持长语音识别。这个和实际需求不相符。

veaba commented 6 years ago

【阿里云语音识别】：放弃

又是智障的只支持，android/c++/java/ios 客户端

veaba commented 6 years ago

【科大讯飞】：挺符合要求，目前次要选择，等待消息

官网说，新申请用户可以提供限时免费的，结果发了申请之后，还要加客服微信，说是2万/路/一年的费用，是面对企业用户的，放佛吃了苍蝇。。。我感觉自己智障还是对方智障？
后续，我说要注销账号，小沟通下，客服说找下有没有测试的接口。。。
emmmm，等明天，再明天没有的话，gg......
客服收集了我的信息，等明天授权审核，如果可以的话，会提供一个测试的api，但希望很小
客服给了一个测试接口，但demo没有node端的，我卡在前端读取二进制的pcm音频文件这一步，加上玩游戏和一个外部网站的活，给耽误了，应该是在26号到期这个接口了。
中信的visa卡到了，在前公司，周五过去拿，回来再申请绑定信用卡，再去申请微软的服务试试。

veaba commented 6 years ago

【腾讯云】：放弃

文档-辣鸡、控制台-辣鸡、业务相关关系引导-辣鸡，大都REST API+APP客户端，就是找不到可以持续实时的语音识别介绍
还在申请中，申请服务开通下来之后，再仔细看看文档，看能不能用。
已更新成功，下午时候因为获取私钥没办法发短信成功，喷了下他们，晚上时候好了
使用官方提供的在线发送请求，体验结果很！！差！！劲！！
辣鸡，不解释。

veaba commented 6 years ago

【方案】：

浏览器开启录音将录音的通过websocket实时转译字幕

https://developer.mozilla.org/zh-CN/docs/Web/API/MediaDevices/getUserMedia getUserMedia 获取用户设备
通过RTMP 获取音频数据，再转译，这时候需要搭建RTMP服务器，再将解析数据通过websocket传递到前端

veaba commented 6 years ago

【微软语音SDK】： https://docs.microsoft.com/zh-cn/javascript/api/microsoft-cognitiveservices-speech-sdk/recognizer?view=azure-node-latest 用于 JavaScript 的认知服务语音 SDK

https://github.com/MicrosoftDocs/azure-docs