SpeechColab / GigaSpeech2

An evolving, large-scale and multi-domain ASR corpus for low-resource languages with automated crawling, transcription and refinement
Apache License 2.0
107 stars 5 forks source link

泰语ASR模型 #2

Closed yy524 closed 3 months ago

yy524 commented 3 months ago

您好: 请问论文中使用gigaspeech2训练的泰语ASR模型会开源吗?

谢谢

yfyeung commented 3 months ago

我现在传一下

yfyeung commented 3 months ago

@yy524 我传到 huggingface 了 https://huggingface.co/yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20

yy524 commented 3 months ago

@yfyeung , 非常非常感谢您的分享,我使用您开源的模型测试了test中的三句音频,识别结果如下: 0.wav แต่เดี๋ยวเกมในนัดต่อไปต้องไปเจอกับทางอินโดนีเซียนะครับ 1.wav ก็ไม่ได้เน้นเรื่องของผลการแข่งขันอยู่แล้วครับเหมือนที่คารอเซซ่านั้นได้บอกไว้นะครับ 2.wav ในเกมที่แล้วเนี่ยตอนพักครึ่งหลังเนี่ยเหมือนคาราฟจะบอกว่าจริงจริงอาจจะไม่ส่งมุมัติลงด้วยซ้ําอ่ะนะครับแต่ว่าเหมือนจะท้ายเกมอ่ะส่งไปด้วยความมั่นใจแล้วโอ้โหประตูที่สาม

和您分享的trans.txt有少许区别,请问这个识别结果和您那边的识别是一致的吗?

谢谢啦

yfyeung commented 3 months ago

@yfyeung , 非常非常感谢您的分享,我使用您开源的模型测试了test中的三句音频,识别结果如下:

0.wav แต่เดี๋ยวเกมในนัดต่อไปต้องไปเจอกับทางอินโดนีเซียนะครับ

1.wav ก็ไม่ได้เน้นเรื่องของผลการแข่งขันอยู่แล้วครับเหมือนที่คารอเซซ่านั้นได้บอกไว้นะครับ

2.wav ในเกมที่แล้วเนี่ยตอนพักครึ่งหลังเนี่ยเหมือนคาราฟจะบอกว่าจริงจริงอาจจะไม่ส่งมุมัติลงด้วยซ้ําอ่ะนะครับแต่ว่าเหมือนจะท้ายเกมอ่ะส่งไปด้วยความมั่นใจแล้วโอ้โหประตูที่สาม

和您分享的trans.txt有少许区别,请问这个识别结果和您那边的识别是一致的吗?

谢谢啦

您好,音频我在测试集里随便选的,恰好选到了球赛现场噪声很大,还有背景人声混叠的三条连续的音频。识别的结果的意思是一样的,内容有些差异。

yy524 commented 3 months ago

非常感谢您的回复,请问您方便把测试集里面识别结果放到huggingface上面不?用于验证我们使用模型是否正确,谢谢了~

yfyeung commented 3 months ago

非常感谢您的回复,请问您方便把测试集里面识别结果放到huggingface上面不?用于验证我们使用模型是否正确,谢谢了~

您好,huggingface 开源我按照 icefall 里的规范来的,为了保持一致,识别结果一般不会放到 huggingface。 我稍微换几个清晰一些的音频吧,这样可以通过识别结果跟 trans.txt 一样来验证模型。

yy524 commented 3 months ago

好的好的,辛苦您了

yfyeung commented 3 months ago

好的好的,辛苦您了

您好,我更新了3条音频,是有背景音乐,但是没有人声混叠的。识别效果能和 trans.txt 一样。 Decoding method:modified_beam_search Number of active paths for modified_beam_search:4

您可以在这里体验 https://huggingface.co/spaces/k2-fsa/automatic-speech-recognition

0.wav hyp ซึ่งตรงท่าเรือนี้ครับเป็นจุดที่เหมาะมากนะครับสําหรับการอยู่อาศัยของแพนกวินนั่นเอง ref ซึ่งตรงท่าเรือนี้ครับเป็นจุดที่เหมาะมากนะครับสําหรับการอยู่อาศัยของเพนกวินนั่นเอง

1.wav hyp เอ่อเคยถามอาจารย์แล้วนะฮะแล้วก็คนที่สิบสี่ปีที่แล้วอยู่ในที่ห้องประชุมคงจะจําได้ ref เอ่อเคยถามอาจารย์แล้วล่ะฮะแล้วก็คนที่สิบสี่ปีที่แล้วอยู่ในที่ห้องประชุมคงจะจําได้

2.wav hyp ตั้งอยู่ในเอเชียตะวันออกเฉียงใต้และเป็นหนึ่งใน๑๐ประเทศของประชาคมอาเซียนนะฮะ ref ตั้งอยู่ในเอเชียตะวันออกเฉียงใต้และเป็นหนึ่งในสิบประเทศของประชาคมอาเซียนนะฮะ

yy524 commented 3 months ago

非常感谢~

segmentationFaults commented 3 months ago

想问下,印尼语的ASR模型会开源吗~

yfyeung commented 3 months ago

想问下,印尼语的ASR模型会开源吗~

会的,最近其他事有点多,印尼语会跟 icefall recipe 一起开源

yy524 commented 3 months ago

@yfyeung ,您好,我测试泰语ASR模型时,会出现开头结尾多识别出文字的情况。有的长音轨,我切分成成多个音轨后,会频繁出现多识别的情况。有些音频重采样后二进制有区别,文件内容无区别,识别结果有的会出现多识别。请问多识别情况有什么策略可以避免不? 谢谢了~

yfyeung commented 3 months ago

@yfyeung ,您好,我测试泰语ASR模型时,会出现开头结尾多识别出文字的情况。有的长音轨,我切分成成多个音轨后,会频繁出现多识别的情况。有些音频重采样后二进制有区别,文件内容无区别,识别结果有的会出现多识别。请问多识别情况有什么策略可以避免不? 谢谢了~

有的长音轨,我切分成成多个音轨后,会频繁出现多识别的情况

这可能是切分导致的,切分之后的音频的静音不够长,可以尝试一下音频前后补静音,或许能缓解。

从训练数据集的角度,相比于录音预料库,in-the-wild 数据集包含大量对话的片段,前后没有特意去补静音,在音频开头结尾静音不足的情况下,可能出现前后多识别的情况。

有些音频重采样后二进制有区别,文件内容无区别

这个我不太清楚,模型训练用的单通道 16kHZ 的 .wav。我还没遇到过类似的问题。

yy524 commented 3 months ago

sample_0627.zip 您好,我切分后的音频都会前后增加300ms的静音,如附件。附件中的两个音频,1.wav结尾会多识别,2.wav则识别正常。

yfyeung commented 3 months ago

sample_0627.zip 您好,我切分后的音频都会前后增加300ms的静音,如附件。附件中的两个音频,1.wav结尾会多识别,2.wav则识别正常。

您好,1wav结尾会增加 เพราะ 经过排查,我发现泰语训练集里包含 เพราะ 的句子数量占比 4.6%,大部分集中在模型的开头。这可能导致模型学到了一定的 pattern,从而导致了这个问题。 我们在制作数据集的时候做过了语料平衡,但是保留了语言特有的高频样本。现在看来这块做的还不够,测试的时候更多关注了测试集上整体的WER/CER,后续会多考虑一下这个问题。

yy524 commented 3 months ago

@yfyeung ,谢谢您的回复,我这边测试结果,不考虑前后多识别问题,开源模型的识别效果已经特别好了。非常感谢您的开源。 sample_0627.zip中,1.wav是先整轨重采样16k,然后截取的片段,2.wav是截取片段后重采样的16k。这两个音频本质上是一样的,但是识别结果不同。

sample_0628.zip

sample_0628.zip是我从一个音轨截取的片段音频样例,发现大部分片段都会出现多识别情况。 img_v3_02c9_240ff982-f107-4c14-a9fc-eba5e015023g

因为误识别的情况不同音轨出现频次不同,我目前还在找寻规律,看是否可以尽量避免多识别。