请增加转写质量控制功能

请增加一个选项，faster-whisper 转写质量控制默认和高品质

加载模型的时候，高品质模式使用 float32模式，实测至少需要16G显存

以下是实测可用的设置：

vad_filter : True -threshold : 0.5 -min_speech_duration_ms : 250 -max_speech_duration_s : 8.0 -min_silence_duration_ms : 600 -window_size_samples : 1536 *改了这里，加大了 1536是质量最高的值 -speech_pad_ms : 400

language:None Transcribes options: -audio : ['D:/视频/20220816 - EvQG3uLq8ys - Singgang Ikan Kembung-NoSub.wav'] -language : None -task : False -beam_size : 20 改了这里，加大了 - 增加波束搜索大小，提高识别准确性。 -best_of : 20 改了这里，加大了 - 增加候选解数量，提高识别准确性。 -patience : 1.2 改了这里，加大了 - 增加忍耐系数，以减少早停，提高准确性。 -length_penalty : 2.0 改了这里，加大了 - 适度增加长度惩罚系数，以控制生成文本的长度。 -temperature : [0.0, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5] 改了这里，删除了一些较高的值，并且更精细化 - 使用较低的温度值生成较确定的输出。 -compression_ratio_threshold : 2.0 降低了这里 - 降低压缩比阈值，以保留更多细节。原先 2.4
-log_prob_threshold : -1.0 -no_speech_threshold : 0.6 -condition_on_previous_text : True 设置为了True - 基于前文条件生成，提高连贯性。 -initial_prompt : None -prefix : None -suppress_blank : True -suppress_tokens : [-1] -without_timestamps : False -max_initial_timestamp : 60.0 -word_timestamps : True -prepend_punctuations : "'“¿([{- -append_punctuations : "'.。,，!！?？:：”)]}、 -repetition_penalty : 1.2 改了这里，1调成 1.2 - 增加重复惩罚系数，减少重复。 -no_repeat_ngram_size : 0 -prompt_reset_on_temperature : 0.5

GPT4o对参数的解释：如果优先考虑语音识别的质量，可以设置如下参数：

VAD过滤器参数

vad_filter: True
- 启用VAD过滤器。
-threshold: 0.3
- 语音活动检测的阈值设置为较低值，使其更敏感，以捕捉更多的语音。
-min_speech_duration_ms: 200
- 最小语音持续时间设置为较小值，以确保短语音也能被捕捉。
-max_speech_duration_s: 10.0
- 最大语音持续时间设置为较大值，以减少语音段的分割。
-min_silence_duration_ms: 800
- 最小静音持续时间设置为较高值，以减少语音段的分割。
-window_size_samples: 2048
- 增加窗口大小，提高检测的准确性。
-speech_pad_ms: 500
- 增加语音段的填充时间，以确保语音段的完整性。

语音识别参数

-audio: ['D:/.../vocals.wav']
- 输入音频文件路径。
-language: None
- 自动检测语言。
-task: False
- 默认任务。
-beam_size: 20
- 增加波束搜索大小，提高识别准确性。
-best_of: 20
- 增加候选解数量，提高识别准确性。
-patience: 1.2
- 增加忍耐系数，以减少早停，提高准确性。
-length_penalty: 2.0
- 适度增加长度惩罚系数，以控制生成文本的长度。
-temperature: [0.0, 0.1, 0.2]
- 使用较低的温度值生成较确定的输出。
-compression_ratio_threshold: 2.0
- 降低压缩比阈值，以保留更多细节。
-log_prob_threshold: -1.0
- 保持默认，忽略低置信度部分。
-no_speech_threshold: 0.5
- 调整无语音阈值，以平衡语音和静音检测。
-condition_on_previous_text: True
- 基于前文条件生成，提高连贯性。
-initial_prompt: None
- 初始提示词不设置。
-prefix: None
- 前缀不设置。
-suppress_blank: True
- 抑制空白符生成。
-suppress_tokens: [-1]
- 抑制生成特定标记。
-without_timestamps: False
- 输出时间戳。
-max_initial_timestamp: 60.0
- 保持默认。
-word_timestamps: True
- 输出每个单词的时间戳。
-prepend_punctuations: "'“¿([{-"
- 前置标点符号。
-append_punctuations: "'.。,，!！?？:：”)]}、"
- 后置标点符号。
-repetition_penalty: 1.2
- 增加重复惩罚系数，减少重复。
-no_repeat_ngram_size: 3
- 设置防止重复的n元文法大小。
-prompt_reset_on_temperature: 0.5
- 保持默认。

通过以上设置，可以显著提高语音识别的准确性和质量，但需要较高的计算资源和处理时间。如果在实际应用中需要进一步调整参数，可以根据实际效果进行微调。

jianchang512 / pyvideotrans

请增加转写质量控制功能 #416

VAD过滤器参数

语音识别参数