Closed JanusTida closed 1 year ago
但是识别效果不理想,是采样率有问题吗?
至少有3个问题,其中,有两个是致命的
第3个问题是,你选择了 ffmpeg 这个工具。它会在 wave header 44 字节后面,再加一些 metadata, 这些 metadata 被当作了 audio samples (至少目前代码是这样处理的)。
你把前面两个 fix 了,应该可以看到识别结果。第三个不是那么致命,但也是不完美。
十分感谢大佬的帮助,问题完美解决!第三个问题确实不受影响。-ac这个确实是我没有理解参数的含义导致的。另外采样率这个要求一般人可能不太容易注意到,可以考虑把它加到ReadMe中。
可以试试sherpa-ncnn和sherpa-onnx,里面有最先进的模型,而且支持会更好 @JanusTida
我使用了油管上的一个中文视频,用ffmpeg将音频从其中分离出来导出成wav.但是识别效果不理想,是采样率有问题吗?
https://github.com/chenkui164/FastASR/assets/29449156/f1ec2005-aadd-40dc-9a68-3904e68cfdc7
这是下载下来的原视频,因为github只能上传mp4文件,所以我直接上传了mp4文件,可使用如下命令将其转化为wav文件(需安装ffmpeg): ./ffmpeg -i .\1.mp4 -vn -acodec pcm_s16le -ar 44100 -ac 2 -b:a 128k 1.wav 非常期待您的帮助