MrXnneHang/Auto_Caption_Generated_Offline

项目介绍:

Models 会自动下载，不过会下到C盘的User用户路径下，如果有需要自己配置环境的,可以手动下载然后放到当前根目录的Model下方。

有bug，请在b站私信反映，或者放在Isuue中。

更新了新的模型，包括:
speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 2024.4 语音检测base模型.
speech_fsmn_vad_zh-cn-16k-common-pytorch 2024.2 长音频自动划分模型，可以接受长音频输入。
punc_ct-transformer_zh-cn-common-vocab272727-pytorch 2024.2 语音活动检测模型，用于生成time_stamp
支持热词功能。
整合bilibili@不知雪孤的代码，各方面使用更加舒适。

注意：
请不要在旧版本环境基础上构建新版本代码，旧版本的funasr不支持AutoModel模块，而新版本代码去掉了以前pipline的inference，可以自由搭配模型。

你可以自己在modelscope中下载模型然后放在./models 下方。或者使用我们的整合包。
链接：https://pan.baidu.com/s/1_RUIsaaAJkfx1EsJlbdv3A?pwd=4v4e
提取码：4v4e
6.13对应V2版本
关于演示视频：
b站

1.部分用户转成.wav文件时是大写的.WAV，被认为不是支持的wav

2.偶尔的吞字现象。

3.cut_line未引用导致调整cut_line无效

4.你可以在config.yml中调整cut_line和combine_line

1.识别到英文的时候偶尔就会碰到List out of Index.

2.可以在config.yml中更改device

3.写入srt的时候顺便写入了whole_text

1.英文单词被拆开,字母被当成单词

2.如果异常，不退出，继续执行。

3.将batch_size_s改成可以修改的值。

1.修复了7/30引入了一个大bug:convert short text to long 吞句子现象。

2.修复某些mp4转录wav后可能长度和wav不一致导致字幕偏移。

3.提供GUI

4.标点可以选择保留

5.合并了7/30:V2.3的第0个Issue，英文单词被拆分成字母