Henry-23 / VideoChat

实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。可自定义形象与音色,无须训练,支持音色克隆,首包延迟低至3s。Real-time voice interactive digital human, supporting end-to-end voice solutions (GLM-4-Voice - THG) and cascaded solutions (ASR-LLM-TTS-THG). Customizable appearance and voice, supporting voice cloning, with initial package delay as low as 3s.
https://www.modelscope.cn/studios/AI-ModelScope/video_chat
MIT License
385 stars 50 forks source link

项目启动问题 #6

Closed LuoJianFeng99 closed 1 week ago

LuoJianFeng99 commented 1 week ago

image 这个启动报错是什么wen问题呢

Henry-23 commented 1 week ago

系统语言是英文吗

LuoJianFeng99 commented 1 week ago

你说的是服务器语言吗

Henry-23 commented 1 week ago

试试把src/tts.py 对应部分的内容改成:

        inputs = {
            "text_lang": self.dict_language[self.i18n(text_lang)],
            "ref_audio_path": ref_audio_path,
            "aux_ref_audio_paths": [item.name for item in aux_ref_audio_paths] if aux_ref_audio_paths is not None else [],
            "prompt_text": prompt_text if not ref_text_free else "",
            "prompt_lang": self.dict_language[self.i18n(prompt_lang)],
            "top_k": top_k,
            "top_p": top_p,
            "temperature": temperature,
            "text_split_method": self.cut_method[self.i18n(text_split_method)],
            "batch_size": self.batch_size,
            "speed_factor": float(speed_factor),
            "split_bucket": split_bucket,
            "return_fragment": return_fragment,
            "fragment_interval": fragment_interval,
            "seed": actual_seed,
            "parallel_infer": parallel_infer,
            "repetition_penalty": repetition_penalty,
        }

这里的self.i18n会根据系统语言做翻译

LuoJianFeng99 commented 1 week ago

或者改服务器系统语言也可以吗

Henry-23 commented 1 week ago

不是很确定,如果是英文的话可以改成中文试试

LuoJianFeng99 commented 1 week ago

image 我还需要下载什么东西吗

Henry-23 commented 1 week ago

按照提示在代码前面加上下载即可。

image
LuoJianFeng99 commented 1 week ago

image 这个得多少配置才能跑得起来啊

LuoJianFeng99 commented 1 week ago

我的服务器是8×16G的GPU

Henry-23 commented 1 week ago

GLM-4-Voice这个端到端LLM很吃显存,可以checkout到cascade_only分支,只有级联方案的代码,刚才看了一下大概7g的显存占用

LuoJianFeng99 commented 1 week ago

我如果想调8×16G全部显存来跑这个,可以通过什么方法来呢,export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 加了这个命令不行

Henry-23 commented 1 week ago

没有做多卡的并行推理哈。目前比较耗时且吃性能的是TTS和THG,代码里使用队列来维护待处理的内容,可以修改这部分的代码,把推理任务分配给不同的GPU

cointfur commented 1 week ago

没有做多卡的并行推理哈。目前比较耗时且吃性能的是TTS和THG,代码里使用队列来维护待处理的内容,可以修改这部分的代码,把推理任务分配给不同的GPU

你好,我需要修改哪些文件

LuoJianFeng99 commented 1 week ago

image 我切级联方案后,报这个错误 api_key也是填了的 是怎么回事的呢

Henry-23 commented 1 week ago

拉取新代码试一下

LuoJianFeng99 commented 1 week ago

1730860114986 image 生成不了内容报tts模块超时,是哪里的配置有问题吗

Henry-23 commented 1 week ago

TTS用的是哪个选型?

LuoJianFeng99 commented 1 week ago

两个都试了 都没办法正常生成出来

Henry-23 commented 1 week ago

我这边是正常的。检查一下user_messages这个变量是否为None

image
LuoJianFeng99 commented 1 week ago

image 最新包拉了后报依赖问题了

Henry-23 commented 1 week ago

试试pip install huggingface-hub==0.25.2,可以的话麻烦反馈一下

LuoJianFeng99 commented 1 week ago

可以了

LuoJianFeng99 commented 1 week ago

image 就是我fang访问模型会失败呢

Henry-23 commented 1 week ago

这个是访问什么模型?麻烦提供具体的信息

LuoJianFeng99 commented 1 week ago

页面选型TTS是CosyVoice 音型 longwan

Henry-23 commented 1 week ago

这个不是在本地推理,调用的是CosyVoice的API,报错信息提示未购买该服务,参考这些文档。本地机器性能足够的话可以用GPT-SoVITS本地推理。你有八张卡的话可以改代码,把GPT-SoVits和Musetalk分别放在两张卡上做推理

LuoJianFeng99 commented 1 week ago

现在级联方案的首包延迟有点偏高,是不是端到端的首包延迟才能到2-3秒

Henry-23 commented 1 week ago

端到端的首包延迟更高,级联方案在A100上是3s左右

LuoJianFeng99 commented 1 week ago

我的GPU是P100首包延迟页面大概10秒多 出视频的话可能要30多秒 有什么优化方案吗

Henry-23 commented 1 week ago

可以试试把GPT-Sovits和musetalk放在两张卡上推理。Musetalk的开发者也是用V100来实现30fps的处理速度的,P100我不确定具体的速度

LuoJianFeng99 commented 1 week ago

如果放两张卡上推理需要更改哪些模块的代码呢

Henry-23 commented 1 week ago

可以看看tts.py和thg.py的代码,在类的init函数里分配cuda:0, cuda:1等