Tele-AI / TeleSpeech-ASR

388 stars 37 forks source link

推理数据准备 #16

Open ShiyuRaymond opened 1 month ago

ShiyuRaymond commented 1 month ago

如果想用python脚本实现数据准备,数据的格式什么呢?

TTTdas commented 1 month ago

数据还是需要参考data.list的格式,其中输入模型的特征暂时只支持kaldi的ark格式。最好的方式还是利用kaldi来提取特征,kaldi提特征所需的脚本已经上传

youthhn commented 1 month ago

推理流程示例里,make_datalist.py里的data路经应该设置为什么?

TTTdas commented 1 month ago

推理流程示例里,make_datalist.py里的data路经应该设置为什么?

这个路径下需要有测试音频的答案文本,便于统计CER。另外准备的data.list会默认保存在这个路径下,之后的训练或者解码,是需要给这个路径下的data.list

youthhn commented 1 month ago

推理流程示例里,make_datalist.py里的data路经应该设置为什么?

这个路径下需要有测试音频的答案文本,便于统计CER。另外准备的data.list会默认保存在这个路径下,之后的训练或者解码,是需要给这个路径下的data.list

那是不是意味着目前已有的脚本没办法直接在无答案情况下做音频识别测试?依旧类似训练一样得把问答数据都准备好。另外,测试音频的答案文本内容格式和文件名是什么样的?utt、token之类是自动生成的吗?

TTTdas commented 1 month ago

那是不是意味着目前已有的脚本没办法直接在无答案情况下做音频识别测试?依旧类似训练一样得把问答数据都准备好。另外,测试音频的答案文本内容格式和文件名是什么样的?utt、token之类是自动生成的吗?

现成的脚本是按照有答案进行CER统计来做的,如果无答案的情况下,data.list(.tsv)文件中的text、token相关内容可以随便给个文本,只要保证有内容就可以进行识别,不需要准备问答数据。相应的需要修改make_datalist.py里的代码,或者可以自己构造符合data.list格式的文件。答案文本内容格式和文件名仿照data.list的例子就好,utt是根据wav.scp生成的,也可以自己定义,token是根据答案文本的text生成的。

另外如果只是需要推理测试的话, @lovemefan 大佬提供了一个直接推理的版本,支持音频直接输入,而不用准备data.list:https://github.com/lovemefan/telespeech-asr-python