modelscope / FunASR

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.
https://www.funasr.com
Other
7.18k stars 763 forks source link

字母大小写规则问题 #1030

Closed airstillblue closed 1 month ago

airstillblue commented 1 year ago

昨天更新完modelscope和funasr后,发现解码结果对字母大小写的规则改变了。更新前,单词和单个字母都是小写,剩下的字母组合都是大写(例如三角形ABC,力FA,等),并且不会有大小写混合出现的情况。更新后,却会时常出现大小写混合的情况。如果我想恢复到更新前的状况,有办法吗?另外还发现标点符号也变了,中文和英文后面跟的标点不再统一是中文格式了。

下面是两个例子 1 他们有几种可能啊AA 去参加呢 Abaca 不去参加这BC 那不就三种可能嘛 2 来同样这里是什么 Sine sine 是奇函数 (这里的Sine明明是一个单词,但却首字母大写)

更新前的版本应该至少是2、3个月前的版本了,具体版本号由于更新覆盖,好像查不到了。 我想恢复到以前的状况,请问有办法吗?

Name Version Build Channel

_libgcc_mutex 0.1 conda_forge conda-forge _openmp_mutex 4.5 2_gnu conda-forge absl-py 1.4.0 pypi_0 pypi addict 2.4.0 pypi_0 pypi aiohttp 3.8.5 pypi_0 pypi aiosignal 1.3.1 pypi_0 pypi aliyun-python-sdk-core 2.13.36 pypi_0 pypi aliyun-python-sdk-kms 2.16.1 pypi_0 pypi aniso8601 9.0.1 pypi_0 pypi annotated-types 0.5.0 pypi_0 pypi anyio 3.7.1 pypi_0 pypi async-timeout 4.0.2 pypi_0 pypi attrs 23.1.0 pypi_0 pypi audioread 3.0.0 pypi_0 pypi bitstring 4.0.2 pypi_0 pypi bottleneck 1.3.7 pypi_0 pypi bzip2 1.0.8 h7f98852_4 conda-forge ca-certificates 2023.7.22 hbcca054_0 conda-forge cachetools 5.3.1 pypi_0 pypi certifi 2023.7.22 pypi_0 pypi cffi 1.15.1 pypi_0 pypi charset-normalizer 3.2.0 pypi_0 pypi click 8.0.4 pypi_0 pypi cmake 3.27.0 pypi_0 pypi coloredlogs 14.0 pypi_0 pypi contourpy 1.1.0 pypi_0 pypi crcmod 1.7 pypi_0 pypi cryptography 41.0.2 pypi_0 pypi cycler 0.11.0 pypi_0 pypi cython 0.29.36 pypi_0 pypi datasets 2.13.0 pypi_0 pypi decorator 5.1.1 pypi_0 pypi dill 0.3.6 pypi_0 pypi distance 0.1.3 pypi_0 pypi dnspython 2.4.0 pypi_0 pypi edit-distance 1.0.6 pypi_0 pypi editdistance 0.6.2 pypi_0 pypi einops 0.6.1 pypi_0 pypi espnet-tts-frontend 0.0.3 pypi_0 pypi et-xmlfile 1.1.0 pypi_0 pypi eventlet 0.33.3 pypi_0 pypi exceptiongroup 1.1.2 pypi_0 pypi ffmpeg 1.4 pypi_0 pypi filelock 3.12.2 pypi_0 pypi flask 2.1.3 pypi_0 pypi flask-cors 4.0.0 pypi_0 pypi flask-restful 0.3.10 pypi_0 pypi flask-socketio 4.3.2 pypi_0 pypi flask-talisman 1.0.0 pypi_0 pypi fonttools 4.41.1 pypi_0 pypi frozenlist 1.4.0 pypi_0 pypi fsspec 2023.6.0 pypi_0 pypi funasr 0.8.0 dev_0 future 0.18.3 pypi_0 pypi g2p 1.1.20230511 pypi_0 pypi g2p-en 2.1.0 pypi_0 pypi gast 0.5.4 pypi_0 pypi google-auth 2.22.0 pypi_0 pypi google-auth-oauthlib 1.0.0 pypi_0 pypi greenlet 2.0.2 pypi_0 pypi grpcio 1.56.2 pypi_0 pypi h11 0.14.0 pypi_0 pypi h5py 3.9.0 pypi_0 pypi hdbscan 0.8.33 pypi_0 pypi httpcore 0.17.3 pypi_0 pypi huggingface-hub 0.16.4 pypi_0 pypi humanfriendly 10.0 pypi_0 pypi hyperpyyaml 1.2.1 pypi_0 pypi idna 3.4 pypi_0 pypi importlib-metadata 6.8.0 pypi_0 pypi importlib-resources 6.0.0 pypi_0 pypi inflect 7.0.0 pypi_0 pypi itsdangerous 2.1.2 pypi_0 pypi jaconv 0.3.4 pypi_0 pypi jamo 0.4.1 pypi_0 pypi jedi 0.18.2 pypi_0 pypi jieba 0.42.1 pypi_0 pypi jinja2 3.1.2 pypi_0 pypi jmespath 0.10.0 pypi_0 pypi joblib 1.3.1 pypi_0 pypi kaldiio 2.18.0 pypi_0 pypi kantts 1.0.1 pypi_0 pypi kiwisolver 1.4.4 pypi_0 pypi kwsbp 0.0.6 pypi_0 pypi ld_impl_linux-64 2.40 h41732ed_0 conda-forge libffi 3.4.2 h7f98852_5 conda-forge libgcc-ng 13.1.0 he5830b7_0 conda-forge libgomp 13.1.0 he5830b7_0 conda-forge libnsl 2.0.0 h7f98852_0 conda-forge librosa 0.9.2 pypi_0 pypi libsqlite 3.42.0 h2797004_0 conda-forge libuuid 2.38.1 h0b41bf4_0 conda-forge libzlib 1.2.13 hd590300_5 conda-forge lit 16.0.6 pypi_0 pypi llvmlite 0.40.1 pypi_0 pypi lxml 4.9.3 pypi_0 pypi markdown 3.4.4 pypi_0 pypi markupsafe 2.1.3 pypi_0 pypi matplotlib 3.7.2 pypi_0 pypi mindaec 0.0.2 pypi_0 pypi mir-eval 0.7 pypi_0 pypi modelscope 1.9.2 pypi_0 pypi mpmath 1.3.0 pypi_0 pypi msgpack 1.0.5 pypi_0 pypi multidict 6.0.4 pypi_0 pypi multiprocess 0.70.14 pypi_0 pypi munkres 1.1.4 pypi_0 pypi nara-wpe 0.0.9 pypi_0 pypi ncurses 6.4 hcb278e6_0 conda-forge networkx 2.8.4 pypi_0 pypi nltk 3.8.1 pypi_0 pypi numba 0.57.1 pypi_0 pypi numpy 1.22.0 pypi_0 pypi nvidia-cublas-cu11 11.10.3.66 pypi_0 pypi nvidia-cuda-cupti-cu11 11.7.101 pypi_0 pypi nvidia-cuda-nvrtc-cu11 11.7.99 pypi_0 pypi nvidia-cuda-runtime-cu11 11.7.99 pypi_0 pypi nvidia-cudnn-cu11 8.5.0.96 pypi_0 pypi nvidia-cufft-cu11 10.9.0.58 pypi_0 pypi nvidia-curand-cu11 10.2.10.91 pypi_0 pypi nvidia-cusolver-cu11 11.4.0.1 pypi_0 pypi nvidia-cusparse-cu11 11.7.4.91 pypi_0 pypi nvidia-nccl-cu11 2.14.3 pypi_0 pypi nvidia-nvtx-cu11 11.7.91 pypi_0 pypi oauthlib 3.2.2 pypi_0 pypi openpyxl 3.1.2 pypi_0 pypi openssl 3.1.1 hd590300_1 conda-forge oss2 2.18.1 pypi_0 pypi packaging 23.1 pypi_0 pypi pandas 1.3.5 pypi_0 pypi panphon 0.20.0 pypi_0 pypi parso 0.8.3 pypi_0 pypi pexpect 4.8.0 pypi_0 pypi pickleshare 0.7.5 pypi_0 pypi pillow 10.0.0 pypi_0 pypi pip 23.2.1 pyhd8ed1ab_0 conda-forge platformdirs 3.9.1 pypi_0 pypi pooch 1.7.0 pypi_0 pypi prompt-toolkit 3.0.39 pypi_0 pypi protobuf 4.23.4 pypi_0 pypi ptflops 0.7 pypi_0 pypi ptyprocess 0.7.0 pypi_0 pypi py-sound-connect 0.2.1 pypi_0 pypi pyarrow 12.0.1 pypi_0 pypi pyasn1 0.5.0 pypi_0 pypi pyasn1-modules 0.3.0 pypi_0 pypi pycparser 2.21 pypi_0 pypi pycryptodome 3.18.0 pypi_0 pypi pydantic 2.1.1 pypi_0 pypi pydantic-core 2.4.0 pypi_0 pypi pygments 2.15.1 pypi_0 pypi pyparsing 3.0.9 pypi_0 pypi pypinyin 0.49.0 pypi_0 pypi pysptk 0.1.21 pypi_0 pypi python 3.8.17 he550d4f_0_cpython conda-forge python-dateutil 2.8.2 pypi_0 pypi python-engineio 3.14.2 pypi_0 pypi python-socketio 4.6.1 pypi_0 pypi pytorch-wavelets 1.3.0 pypi_0 pypi pytorch-wpe 0.0.1 pypi_0 pypi pytz 2023.3 pypi_0 pypi pywavelets 1.4.1 pypi_0 pypi pyyaml 6.0.1 pypi_0 pypi readline 8.2 h8228510_1 conda-forge regex 2023.6.3 pypi_0 pypi requests 2.31.0 pypi_0 pypi requests-oauthlib 1.3.1 pypi_0 pypi resampy 0.4.2 pypi_0 pypi rotary-embedding-torch 0.2.5 pypi_0 pypi rsa 4.9 pypi_0 pypi ruamel-yaml 0.17.28 pypi_0 pypi ruamel-yaml-clib 0.2.7 pypi_0 pypi scikit-learn 1.3.0 pypi_0 pypi scipy 1.10.1 pypi_0 pypi sentencepiece 0.1.99 pypi_0 pypi setuptools 68.0.0 pyhd8ed1ab_0 conda-forge simplejson 3.19.1 pypi_0 pypi six 1.16.0 pypi_0 pypi sniffio 1.3.0 pypi_0 pypi sortedcontainers 2.4.0 pypi_0 pypi soundfile 0.12.1 pypi_0 pypi sox 1.4.1 pypi_0 pypi speechbrain 0.5.15 pypi_0 pypi sympy 1.12 pypi_0 pypi tensorboard 2.13.0 pypi_0 pypi tensorboard-data-server 0.7.1 pypi_0 pypi tensorboardx 2.6.1 pypi_0 pypi text-unidecode 1.3 pypi_0 pypi textgrid 1.5 pypi_0 pypi threadpoolctl 3.2.0 pypi_0 pypi tk 8.6.12 h27826a3_0 conda-forge tomli 2.0.1 pypi_0 pypi torch 2.0.1 pypi_0 pypi torch-complex 0.4.3 pypi_0 pypi torchaudio 2.0.2 pypi_0 pypi tqdm 4.65.0 pypi_0 pypi traitlets 5.9.0 pypi_0 pypi triton 2.0.0 pypi_0 pypi ttsfrd 0.2.1 pypi_0 pypi typing-extensions 4.7.1 pypi_0 pypi umap 0.1.1 pypi_0 pypi unicodecsv 0.14.1 pypi_0 pypi unidecode 1.3.6 pypi_0 pypi urllib3 1.26.16 pypi_0 pypi wcwidth 0.2.6 pypi_0 pypi werkzeug 2.0.3 pypi_0 pypi wheel 0.41.0 pyhd8ed1ab_0 conda-forge xxhash 3.2.0 pypi_0 pypi xz 5.2.6 h166bdaf_0 conda-forge yapf 0.40.1 pypi_0 pypi yarl 1.9.2 pypi_0 pypi zipp 3.16.2 pypi_0 pypi

airstillblue commented 1 year ago

使用功能是非流式离线长音频识别。vad asr timestamp punc都有用上。 inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v1.2.4", output_dir=asr_outdir)

airstillblue commented 1 year ago

我看起来的感觉是句首字母被强制大写了。对于单词来说没什么问题,但对于非单词,如例子中给出的“他们有几种可能啊AA 去参加呢?Abaca 不去参加这BC,那不就三种可能嘛?“这里Abaca和AA和BC一样,显然不是单词,以前的规则下应该是ABACA的形式。

airstillblue commented 1 year ago

OS: linux

Python/C++ Version:Python 3.8.17

Package Version:pytorch、torchaudio、modelscope、funasr version(pip list) Package Version Editable project location


absl-py 1.4.0 addict 2.4.0 aiohttp 3.8.5 aiosignal 1.3.1 aliyun-python-sdk-core 2.13.36 aliyun-python-sdk-kms 2.16.1 aniso8601 9.0.1 annotated-types 0.5.0 anyio 3.7.1 async-timeout 4.0.2 attrs 23.1.0 audioread 3.0.0 bitstring 4.0.2 Bottleneck 1.3.7 cachetools 5.3.1 certifi 2023.7.22 cffi 1.15.1 charset-normalizer 3.2.0 click 8.0.4 cmake 3.27.0 coloredlogs 14.0 contourpy 1.1.0 crcmod 1.7 cryptography 41.0.2 cycler 0.11.0 Cython 0.29.36 datasets 2.13.0 decorator 5.1.1 dill 0.3.6 Distance 0.1.3 dnspython 2.4.0 edit-distance 1.0.6 editdistance 0.6.2 einops 0.6.1 espnet-tts-frontend 0.0.3 et-xmlfile 1.1.0 eventlet 0.33.3 exceptiongroup 1.1.2 ffmpeg 1.4 filelock 3.12.2 Flask 2.1.3 Flask-Cors 4.0.0 Flask-RESTful 0.3.10 Flask-SocketIO 4.3.2 flask-talisman 1.0.0 fonttools 4.41.1 frozenlist 1.4.0 fsspec 2023.6.0 funasr 0.8.0 /data2/lixin/project/FunASR future 0.18.3 g2p 1.1.20230511 g2p-en 2.1.0 gast 0.5.4 google-auth 2.22.0 google-auth-oauthlib 1.0.0 greenlet 2.0.2 grpcio 1.56.2 h11 0.14.0 h5py 3.9.0 hdbscan 0.8.33 httpcore 0.17.3 huggingface-hub 0.16.4 humanfriendly 10.0 HyperPyYAML 1.2.1 idna 3.4 importlib-metadata 6.8.0 importlib-resources 6.0.0 inflect 7.0.0 itsdangerous 2.1.2 jaconv 0.3.4 jamo 0.4.1 jedi 0.18.2 jieba 0.42.1 Jinja2 3.1.2 jmespath 0.10.0 joblib 1.3.1 kaldiio 2.18.0 kantts 1.0.1 kiwisolver 1.4.4 kwsbp 0.0.6 librosa 0.9.2 lit 16.0.6 llvmlite 0.40.1 lxml 4.9.3 Markdown 3.4.4 MarkupSafe 2.1.3 matplotlib 3.7.2 MinDAEC 0.0.2 mir-eval 0.7 modelscope 1.9.2 mpmath 1.3.0 msgpack 1.0.5 multidict 6.0.4 multiprocess 0.70.14 munkres 1.1.4 nara-wpe 0.0.9 networkx 2.8.4 nltk 3.8.1 numba 0.57.1 numpy 1.22.0 nvidia-cublas-cu11 11.10.3.66 nvidia-cuda-cupti-cu11 11.7.101 nvidia-cuda-nvrtc-cu11 11.7.99 nvidia-cuda-runtime-cu11 11.7.99 nvidia-cudnn-cu11 8.5.0.96 nvidia-cufft-cu11 10.9.0.58 nvidia-curand-cu11 10.2.10.91 nvidia-cusolver-cu11 11.4.0.1 nvidia-cusparse-cu11 11.7.4.91 nvidia-nccl-cu11 2.14.3 nvidia-nvtx-cu11 11.7.91 oauthlib 3.2.2 openpyxl 3.1.2 oss2 2.18.1 packaging 23.1 pandas 1.3.5 panphon 0.20.0 parso 0.8.3 pexpect 4.8.0 pickleshare 0.7.5 Pillow 10.0.0 pip 23.2.1 platformdirs 3.9.1 pooch 1.7.0 prompt-toolkit 3.0.39 protobuf 4.23.4 ptflops 0.7 ptyprocess 0.7.0 py-sound-connect 0.2.1 pyarrow 12.0.1 pyasn1 0.5.0 pyasn1-modules 0.3.0 pycparser 2.21 pycryptodome 3.18.0 pydantic 2.1.1 pydantic_core 2.4.0 Pygments 2.15.1 pyparsing 3.0.9 pypinyin 0.49.0 pysptk 0.1.21 python-dateutil 2.8.2 python-engineio 3.14.2 python-socketio 4.6.1 pytorch-wavelets 1.3.0 pytorch-wpe 0.0.1 pytz 2023.3 PyWavelets 1.4.1 PyYAML 6.0.1 regex 2023.6.3 requests 2.31.0 requests-oauthlib 1.3.1 resampy 0.4.2 rotary-embedding-torch 0.2.5 rsa 4.9 ruamel.yaml 0.17.28 ruamel.yaml.clib 0.2.7 scikit-learn 1.3.0 scipy 1.10.1 sentencepiece 0.1.99 setuptools 68.0.0 simplejson 3.19.1 six 1.16.0 sniffio 1.3.0 sortedcontainers 2.4.0 soundfile 0.12.1 sox 1.4.1 speechbrain 0.5.15 sympy 1.12 tensorboard 2.13.0 tensorboard-data-server 0.7.1 tensorboardX 2.6.1 text-unidecode 1.3 TextGrid 1.5 threadpoolctl 3.2.0 tomli 2.0.1 torch 2.0.1 torch-complex 0.4.3 torchaudio 2.0.2 tqdm 4.65.0 traitlets 5.9.0 triton 2.0.0 ttsfrd 0.2.1 typing_extensions 4.7.1 umap 0.1.1 unicodecsv 0.14.1 Unidecode 1.3.6 urllib3 1.26.16 wcwidth 0.2.6 Werkzeug 2.0.3 wheel 0.41.0 xxhash 3.2.0 yapf 0.40.1 yarl 1.9.2 zipp 3.16.2

Model: model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',

Command: inference_pipeline = pipeline( task=Tasks.auto_speech_recognition, model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v1.2.4", output_dir=asr_outdir) inference_pipeline(audio_in=wavfp)

Details: 昨天更新完modelscope和funasr后,发现解码结果对字母大小写的规则改变了。更新前,单词和单个字母都是小写,剩下的字母组合都是大写(例如三角形ABC,力FA,等),并且不会有大小写混合出现的情况。更新后,却会时常出现大小写混合的情况。如果我想恢复到更新前的状况,有办法吗?另外还发现标点符号也变了,中文和英文后面跟的标点不再统一是中文格式了。

下面是两个例子 1 他们有几种可能啊AA 去参加呢 Abaca 不去参加这BC 那不就三种可能嘛 2 来同样这里是什么 Sine sine 是奇函数 (这里的Sine明明是一个单词,但却首字母大写)

更新前的版本应该至少是2、3个月前的版本了,具体版本号由于更新覆盖,好像查不到了。 我想恢复到以前的状况,请问有办法吗?

PS:我看起来的感觉是句首字母被强制大写了。对于单词来说没什么问题,但对于非单词,如例子中给出的“他们有几种可能啊AA 去参加呢?Abaca 不去参加这BC,那不就三种可能嘛?“这里Abaca和AA和BC一样,显然不是单词,以前的规则下应该是ABACA的形式。

Error log: