cdfmlr / muvtuber

Makes your AI vtuber
445 stars 75 forks source link

API包从实现代码中独立出来,单独发行,方便新实现引用和更新。 #37

Closed cdfmlr closed 1 year ago

lesnolie commented 1 year ago

我一直在找,可以将live2d利用ffmpeg制作成视频,成为完全的个人助理,然后发现了这个仓库,大佬牛逼,后期我想1.改模型,2.接入 voicevex语音,同时输出日语和中文字幕。

lesnolie commented 1 year ago

另外如果全用API搭建是否就不用显卡了🥺

cdfmlr commented 1 year ago

后期我想1.改模型,2.接入 voicevex语音,同时输出日语和中文字幕。

都可以的,现在每个模型需要写对应的驱动(在 live2ddriver 里)。语音合成可以写新的 sayer 实现,实现 proto 定义的接口即可,如果实现了这个 Issue 的标题 “API包从实现代码中独立出来” 这个过程就可以更容易了,掉一个包就行,不用手写接口了。

另外如果全用API搭建是否就不用显卡了🥺

可以使用显卡。说的 API 是 muvtuber 各组件之间的 gRPC 通信或历史遗留的 HTTP 通信。这些 API 把各个组件之间解耦,不管具体实现是什么,不论调用云服务或在本地用显卡推理,只要实现了接口,就可以无痛接入现有框架中!


这个项目之所以这么复杂就是想要尽可能解耦,以支持各种组件的任意替换、组合。但现在这个项目缺乏文档,基本只有我自己知道这东西是怎么工作的,我会尽快做 #32 提供详细一点的文档。

lesnolie commented 1 year ago

感谢解答,我目前实现了: telegram bot X whispher X chatgpt X MSTTS和语音分析 当我输入音频或者文字时,可以返回音频。 现在我想增加一个,返回的音频+LIVE2D通过FFmpeg合成视频,返回一个视频。 通过搜索资料找到了你在掘金的文章。 文章中,情感分析令我印象深刻,我的也可以情感分析,但是是通过轮询关键字来触发MSTTS的语音Style.您的好像更加科学一点。 LIVE2D我也发现了和您现在使用的同样的仓库,我看到他有api,但因为个人目前在外无法测验。 目前我的程序是全程利用api,只需要http命令和返回内容即可,对于LIVE2D还不是特别熟悉,不知道能否通过直接发送json等直接将语音和画面结合输出视频,最好是带有口型和动作的。 这样就成为了一个个人助理(轻量)。

当然,如果能做成一个实时在线的(可以是web,也可以是app或者小程序)个人助理也不错。在web增加输入口。

今晚回家以后研究一下您的代码。

cdfmlr commented 1 year ago

LIVE2D通过FFmpeg合成视频

这个不太会耶,我最早也想用 ffmpeg 但是,太难了,不如用 web 😂

接将语音和画面结合输出视频,最好是带有口型和动作的。这样就成为了一个个人助理(轻量)。

个人觉得用 web 比较好,灵活一些。通过浏览器直接就访问了,还可以其他设备远程访问,稍微封装一下还可以做成桌面应用,如果需要把视频输出到不支持浏览器的设备也可以用 obs 转化一下 web -> 视频流。

cdfmlr commented 1 year ago

Close by 4044b8dd65cbc55b7d81a934db3c287dfa220fae.