项目启动问题 - Githubissues

Henry-23 / VideoChat

实时语音交互数字人，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。可自定义形象与音色，无须训练，支持音色克隆，首包延迟低至3s。Real-time voice interactive digital human, supporting end-to-end voice solutions (GLM-4-Voice - THG) and cascaded solutions (ASR-LLM-TTS-THG). Customizable appearance and voice, supporting voice cloning, with initial package delay as low as 3s.

https://www.modelscope.cn/studios/AI-ModelScope/video_chat

MIT License

385 stars 50 forks source link

项目启动问题 #6

Closed LuoJianFeng99 closed 1 week ago

LuoJianFeng99 commented 1 week ago

这个启动报错是什么wen问题呢

Henry-23 commented 1 week ago

系统语言是英文吗

LuoJianFeng99 commented 1 week ago

你说的是服务器语言吗

Henry-23 commented 1 week ago

试试把src/tts.py 对应部分的内容改成：

        inputs = {
            "text_lang": self.dict_language[self.i18n(text_lang)],
            "ref_audio_path": ref_audio_path,
            "aux_ref_audio_paths": [item.name for item in aux_ref_audio_paths] if aux_ref_audio_paths is not None else [],
            "prompt_text": prompt_text if not ref_text_free else "",
            "prompt_lang": self.dict_language[self.i18n(prompt_lang)],
            "top_k": top_k,
            "top_p": top_p,
            "temperature": temperature,
            "text_split_method": self.cut_method[self.i18n(text_split_method)],
            "batch_size": self.batch_size,
            "speed_factor": float(speed_factor),
            "split_bucket": split_bucket,
            "return_fragment": return_fragment,
            "fragment_interval": fragment_interval,
            "seed": actual_seed,
            "parallel_infer": parallel_infer,
            "repetition_penalty": repetition_penalty,
        }

这里的self.i18n会根据系统语言做翻译

LuoJianFeng99 commented 1 week ago

或者改服务器系统语言也可以吗

Henry-23 commented 1 week ago

不是很确定，如果是英文的话可以改成中文试试

LuoJianFeng99 commented 1 week ago

我还需要下载什么东西吗

Henry-23 commented 1 week ago

按照提示在代码前面加上下载即可。

LuoJianFeng99 commented 1 week ago

这个得多少配置才能跑得起来啊

LuoJianFeng99 commented 1 week ago

我的服务器是8×16G的GPU

Henry-23 commented 1 week ago

GLM-4-Voice这个端到端LLM很吃显存，可以checkout到cascade_only分支，只有级联方案的代码，刚才看了一下大概7g的显存占用

LuoJianFeng99 commented 1 week ago

我如果想调8×16G全部显存来跑这个，可以通过什么方法来呢，export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 加了这个命令不行

Henry-23 commented 1 week ago

没有做多卡的并行推理哈。目前比较耗时且吃性能的是TTS和THG，代码里使用队列来维护待处理的内容，可以修改这部分的代码，把推理任务分配给不同的GPU

cointfur commented 1 week ago

没有做多卡的并行推理哈。目前比较耗时且吃性能的是TTS和THG，代码里使用队列来维护待处理的内容，可以修改这部分的代码，把推理任务分配给不同的GPU

你好，我需要修改哪些文件

LuoJianFeng99 commented 1 week ago

我切级联方案后，报这个错误 api_key也是填了的是怎么回事的呢

Henry-23 commented 1 week ago

拉取新代码试一下

LuoJianFeng99 commented 1 week ago

1730860114986 生成不了内容报tts模块超时，是哪里的配置有问题吗

Henry-23 commented 1 week ago

TTS用的是哪个选型？

LuoJianFeng99 commented 1 week ago

两个都试了都没办法正常生成出来

Henry-23 commented 1 week ago

我这边是正常的。检查一下user_messages这个变量是否为None

LuoJianFeng99 commented 1 week ago

最新包拉了后报依赖问题了

Henry-23 commented 1 week ago

试试pip install huggingface-hub==0.25.2，可以的话麻烦反馈一下

LuoJianFeng99 commented 1 week ago

可以了

LuoJianFeng99 commented 1 week ago

就是我fang访问模型会失败呢

Henry-23 commented 1 week ago

这个是访问什么模型？麻烦提供具体的信息

LuoJianFeng99 commented 1 week ago

页面选型TTS是CosyVoice 音型 longwan

Henry-23 commented 1 week ago

这个不是在本地推理，调用的是CosyVoice的API，报错信息提示未购买该服务，参考这些文档。本地机器性能足够的话可以用GPT-SoVITS本地推理。你有八张卡的话可以改代码，把GPT-SoVits和Musetalk分别放在两张卡上做推理

LuoJianFeng99 commented 1 week ago

现在级联方案的首包延迟有点偏高，是不是端到端的首包延迟才能到2-3秒

Henry-23 commented 1 week ago

端到端的首包延迟更高，级联方案在A100上是3s左右

LuoJianFeng99 commented 1 week ago

我的GPU是P100首包延迟页面大概10秒多出视频的话可能要30多秒有什么优化方案吗

Henry-23 commented 1 week ago

可以试试把GPT-Sovits和musetalk放在两张卡上推理。Musetalk的开发者也是用V100来实现30fps的处理速度的，P100我不确定具体的速度

LuoJianFeng99 commented 1 week ago

如果放两张卡上推理需要更改哪些模块的代码呢

Henry-23 commented 1 week ago

可以看看tts.py和thg.py的代码，在类的init函数里分配cuda:0, cuda:1等