Open veaba opened 6 years ago
【微软channel9视频调研】:
content-type: text/vtt; charset=utf-8
,Microsoft-IIS/10.0
【调研结果】:
【难点和意外】:
因为必须将视频中的音频数据截取下来,才能发给相关的服务器去处理,转为字幕
1.如何实时的拆分音频,储存起来并发给相关的服务去做解析? 2.如何将视频发给node,node支持 将音频数据过滤下来? 3.如何处理stream视频/音频的数据,node 是什么方案?
【文档储备/参考】:
Content-Type: video/x-flv
【斗鱼直播的一些数据】:
【直播架构】:
采集
这个步骤是干嘛的?
播放
这个是干嘛的?
【问题】:
如何解析RTMP 协议,并解析数据后拿到音频数据?
了解到,可以让解析RTMP并还原数据,提取音频,可以通过http://ai.baidu.com/tech/speech/lsr 百度长语音识别 实时转为字幕,但百度对于REST API 只支持60s以下的语音识别!!更多的是支持Android 和ios 的SDK。
得到音频
librtmp获取视频流和音频流1 https://blog.csdn.net/jzjhome/article/details/75270727
【微软认知API】:优先考虑。不过需要解锁visa卡 https://azure.microsoft.com/zh-cn/services/cognitive-services/speech/
【百度语音长语音识别】:放弃
【阿里云语音识别】:放弃
【科大讯飞】:挺符合要求,目前次要选择,等待消息
【腾讯云】:放弃
【方案】:
https://developer.mozilla.org/zh-CN/docs/Web/API/MediaDevices/getUserMedia getUserMedia 获取用户设备