m-bain / whisperX

WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
BSD 2-Clause "Simplified" License
12.66k stars 1.34k forks source link

not being able to pickup words at the last of the audio's while force aligning hindi audios #856

Open xorsuyash opened 3 months ago

xorsuyash commented 3 months ago

cc @m-bain I have bunch of audios which i am trying to force-align, but while aligning audios whisperx looses some of the words at the last of audios.

Samples

Ground truth transcript:- 'सोनिया को फूलों से बहुत प्यार था। उसके घर के पास एक बगीचा था जिसमें खूबसूरत फूल थे। हर सुबह, वह बगीचे में जाती थी और फूलों को देखती थी। उसकी माँ ने उसे सिखाया कि वह पौधों का ध्यान रखें और उन्हें स्वच्छ रखें।उसे फूलों की महक और रंग अच्छे लगते थे । वह बड़े होकर एक माली बनना चाहती थी।'

Whisperx segments: 'text': ' सोनियो को फुलो से बहुत प्यार था उसके घर के पास एक बगीचा था जिसमें खुद सूरत फुल थे और सुबा बगीचे में जाती थी फुलो को देखती थी उसकी मान लें सिखाया था कि वहाँ और पादो का ध्यान लखे उले स्वच रखे फुलो कि मैं घरंग अच्छे �'