salute-developers / GigaAM

Foundational Model for Speech Recognition Tasks
114 stars 5 forks source link

strangely, many empty transcriptions on mozilla common voice #3

Open bene-ges opened 6 months ago

bene-ges commented 6 months ago

Во вложении пример файла, на который ctc-инференс стабильно возвращает пустую транскрипцию, проверено на двух разных машинах с разными видеокартами.

common_voice_ru_35728771.zip Это из набора mozilla common voice (cv-corpus-12.0-delta-2022-12-07) и на нем почти все аудио дают пустую транскрипцию. Это очень странно, потому что на других наборах модель транскрибирует стабильно.

Формат файлов, вроде, обычный

ffmpeg -i common_voice_ru_35728771.wav
Guessed Channel Layout for Input Stream #0.0 : mono
Input #0, wav, from 'common_voice_ru_35728771.wav':
  Metadata:
    encoder         : Lavf58.76.100
  Duration: 00:00:05.33, bitrate: 256 kb/s
  Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s