FunAudioLLM / SenseVoice

Multilingual Voice Understanding Model
https://funaudiollm.github.io/
Other
2.61k stars 249 forks source link

AED 能力较差时训练数据不足吗 #91

Closed wuhongsheng closed 1 month ago

gaochangfeng commented 1 month ago

模型在训练时只使用了ASR的数据和少量的负样本噪声数据,没有专门在aed任务上训练

wuhongsheng commented 1 month ago

模型在训练时只使用了ASR的数据和少量的负样本噪声数据,没有专门在aed任务上训练

那我可以基于开源数据做微调训练来扩充事件类型吗

gaochangfeng commented 1 month ago

sensevoice预留了未使用的token,可以使用这些token进行事件类别扩展

wuhongsheng commented 1 month ago

sensevoice预留了未使用的token,可以使用这些token进行事件类别扩展

预留词表在哪里看

gaochangfeng commented 1 month ago

调用tokenizer的成员函数,具体方式请查看源码

wuhongsheng commented 1 month ago

调用tokenizer的成员函数,具体方式请查看源码 看了接口没有发现可以获取unused 的ids image

gaochangfeng commented 1 month ago

[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ], 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

wuhongsheng commented 1 month ago

[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ] 好的,感谢

wuhongsheng commented 1 month ago

[tokenizer.ids2tokens(idx) for idx in range(tokenizer.get_vocab_size()) ], 未使用的token被命名为SPECIAL_TOKEN_X, 建议使用SPECIAL_TOKEN_15之后的token进行扩展

我用ESC-50 微调AED能力的话,训练数据里面target和target_len应该怎么设

gaochangfeng commented 1 month ago

与asr格式相同,语种设为nospeech,情感是为emo_unk, 事件设为目标事件对应的token 文本设为空

wuhongsheng commented 1 month ago

与asr格式相同,语种设为nospeech,情感是为emo_unk, 事件设为目标事件对应的token 文本设为空

训练报错 image

训练数据如下 {"key": "3-187549-A-6", "text_language": "<|nospeech|>", "emo_target": "<|EMO_UNKNOWN|>", "event_target": "<|Event_UNK|>", "with_or_wo_itn": "<|woitn|>", "target": "", "source": "/home/zhibo/whs/audio_16K/3-187549-A-6.wav", "target_len": 1, "source_len": 500}

wuhongsheng commented 1 month ago

已解决,有个token 写错了

wuhongsheng commented 3 weeks ago

在ESC-50数据集上扩展7个事件类型,验证精度明显提升 image