snakers4 / silero-models

Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
Other
5k stars 316 forks source link

"Семь" произносится как "Сёмь" #113

Closed Jipok closed 2 years ago

Jipok commented 2 years ago

Пробовал с baya_v2 и kseniya_v2. UPD: ruslan_v2 тоже

Число семь https://user-images.githubusercontent.com/25588359/145571645-00171f77-7582-432a-9f0c-d233c03c3eeb.mp4
Один, два, три, четыре, пять, шесть, семь, восемь, девять. Этот пример успешно прочитался только с 5й попытки. До этого некоторые слова пропадали почему-то. https://user-images.githubusercontent.com/25588359/145572527-2d2932f2-3243-41e9-9278-5e3c9409b4f4.mp4
collect_env.py ``` PyTorch version: 1.10.0+cpu Is debug build: False CUDA used to build PyTorch: None ROCM used to build PyTorch: N/A OS: Debian GNU/Linux bullseye/sid (x86_64) GCC version: (Debian 10.2.1-6) 10.2.1 20210110 Clang version: Could not collect CMake version: version 3.18.4 Libc version: glibc-2.31 Python version: 3.9.1+ (default, Jan 20 2021, 14:49:22) [GCC 10.2.1 20210110] (64-bit runtime) Python platform: Linux-5.9.0-2-amd64-x86_64-with-glibc2.31 Is CUDA available: False CUDA runtime version: No CUDA GPU models and configuration: No CUDA Nvidia driver version: No CUDA cuDNN version: No CUDA HIP runtime version: N/A MIOpen runtime version: N/A Versions of relevant libraries: [pip3] numpy==1.19.5 [pip3] torch==1.10.0+cpu [pip3] torchaudio==0.10.0+cpu [pip3] torchvision==0.11.1+cpu [conda] Could not collect ```
Islanna commented 2 years ago

Добрый день, спасибо за информацию! На данный момент модель для автоматической простановки буквы ё иногда выдаёт подобные галлюцинации. В следующем релизе планируем поправить и добавить флаг для отключения автопростановки.

snakers4 commented 2 years ago

Ряд опциональных флагов и мелких фиксов оставили на будущее и для приватных версий

snakers4 commented 2 years ago

Решается релизом новой V3 русской модели.