netease-youdao / EmotiVoice

EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine
Apache License 2.0
6.9k stars 577 forks source link

建议 #15

Open lucasjinreal opened 8 months ago

lucasjinreal commented 8 months ago

生成的phnoeme text 并没有包含说话人,情绪和原始内容,然后直接推理的时候又会切片最后index error。 要么就写一个脚本直接从txt 生成audio,要么分两步就全部生成,不要前后逻辑对不上。

wang-b22 commented 8 months ago

我猜是前端预测模块部分没有放出来,给出的text中有sp2的标注但是转phnoeme不存在,他们给了折中的

lucasjinreal commented 8 months ago

和预测无关,txt里面应该至少hardcodeed几个说话人和情绪,不然使用者比较迷茫,readme也没有相关说明。

syq163 commented 8 months ago

Apologies for any confusion caused. We will proceed by adding additional documentation and potentially making modifications to the code.

shirubei commented 8 months ago

感觉用情感分析自动判断一下也是可以的。