reazon-research / ReazonSpeech

Massive open Japanese speech corpus
https://research.reazon.jp/projects/ReazonSpeech/
Apache License 2.0
239 stars 18 forks source link

Segmentのend_secondsの修正 #25

Closed yuta0306 closed 8 months ago

yuta0306 commented 8 months ago

問題

TranscribeResults.segments[...].segment.end_secondsをもとに音声を切り出すと、音声の後ろが途切れる

変更点

https://github.com/yuta0306/ReazonSpeech/blob/cca6b1f67d268048f38cf583d8dd819edbbe544a/pkg/nemo-asr/src/decode.py#L57

end_secondsSECONDS_PER_STEPを加算して、timestampに対応する区間全体が含まれるように変更

補足

この対応でも、まだ音声の後ろが途切れることがある