Во вложении пример файла, на который ctc-инференс стабильно возвращает пустую транскрипцию, проверено на двух разных машинах с разными видеокартами.
common_voice_ru_35728771.zip
Это из набора mozilla common voice (cv-corpus-12.0-delta-2022-12-07) и на нем почти все аудио дают пустую транскрипцию. Это очень странно, потому что на других наборах модель транскрибирует стабильно.
Во вложении пример файла, на который ctc-инференс стабильно возвращает пустую транскрипцию, проверено на двух разных машинах с разными видеокартами.
common_voice_ru_35728771.zip Это из набора mozilla common voice (cv-corpus-12.0-delta-2022-12-07) и на нем почти все аудио дают пустую транскрипцию. Это очень странно, потому что на других наборах модель транскрибирует стабильно.
Формат файлов, вроде, обычный