Open Ccj0221 opened 6 months ago
The labels are provided by DataBaker. You can follow steps (G2P + MFA) in https://github.com/netease-youdao/EmotiVoice/tree/main/data/DataBaker.
标签由 DataBaker 提供。您可以按照 https://github.com/netease-youdao/EmotiVoice/tree/main/data/DataBaker 中的步骤 (G2P + MFA) 进行操作。
所以我们准备的文本只需要是“000001 今天讲一个报恩的故事”的形式就可以运行 python data/DataBaker/src/step2_get_phoneme.py --data_dir data/DataBaker --generate_phoneme True 进行数据的标注了?
I think you are right. Could you please verify if it works?
标签由 DataBaker 提供。您可以按照 https://github.com/netease-youdao/EmotiVoice/tree/main/data/DataBaker 中的步骤 (G2P + MFA) 进行操作。
所以我们准备的文本只需要是“000001 今天讲一个报恩的故事”的形式就可以运行 python data/DataBaker/src/step2_get_phoneme.py --data_dir data/DataBaker --generate_phoneme True 进行数据的标注了?
I think you are right. Could you please verify if it works?
标签由 DataBaker 提供。您可以按照 https://github.com/netease-youdao/EmotiVoice/tree/main/data/DataBaker 中的步骤 (G2P + MFA) 进行操作。
所以我们准备的文本只需要是“000001 今天讲一个报恩的故事”的形式就可以运行 python data/DataBaker/src/step2_get_phoneme.py --data_dir data/DataBaker --generate_phoneme True 进行数据的标注了?
请问一下这个#1 #2 #3 #4符号如何生成的
@syq163 请问一下,这里面的拼音和韵律停顿,是用什么Python模块得到的呢?
The labels are provided by DataBaker. You can follow steps (G2P + MFA) in https://github.com/netease-youdao/EmotiVoice/tree/main/data/DataBaker.
As I mentioned earlier, the labels were provided by DataBaker, who employs professional individuals to carry out the labeling process.
我来回答这个问题 参考项目| https://www.modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary 可以解答以上所有疑问
您好,我注意到官方演示数据集之中的数据集的标注方式类似于: “000001 卡尔普#2陪外孙#1玩滑梯#4。 ka2 er2 pu3 pei2 wai4 sun1 wan2 hua2 ti1 000002 假语村言#2别再#1拥抱我#4。 jia2 yu3 cun1 yan2 bie2 zai4 yong1 bao4 wo3 000003 宝马#1配挂#1跛骡鞍#3,貂蝉#1怨枕#2董翁榻#4。 bao2 ma3 pei4 gua4 bo3 luo2 an1 diao1 chan2 yuan4 zhen3 dong3 weng1 ta4 000004 邓小平#2与#1撒切尔#2会晤#4。 deng4 xiao3 ping2 yu3 sa4 qie4 er3 hui4 wu4”
那么请问现在有什么方法对数据集进行该形式的批量标注,谢谢