MrXnneHang / Auto_Caption_Generated_Offline

这是一个视频-音频-字幕的离线转换器,基于Funasr,支持wav-srt,mp4-srt。中文性能优于Whisper
42 stars 3 forks source link

更新模型 #3

Open stonemason10 opened 3 months ago

stonemason10 commented 3 months ago

有没有考虑加上阿里最新的语音模型 https://github.com/FunAudioLLM/SenseVoice 另外输入输出目录都是写死的,有木有考虑从config.yaml配置文件中读取?

MrXnneHang commented 3 months ago

可以,我这两天研究一下。里面的多语和事件检测我挺感兴趣的。

MrXnneHang commented 3 months ago

下面是response,有点鬼它不带时间序列,不能直接利用多语言适配性来做字幕。
事件检测会检测出来咳嗽,无讲话,讲话等等。
主打的应该是emotion检测和事件检测,但我更需要speaker的检测。

下面是一个效果模型的一个返回:

[{'key': 'fish speech', 'text': "<|nospeech|><|EMO_UNKNOWN|><|Event_UNK|><|woitn|> <|zh|><|NEUTRAL|><|Speech|><|woitn|>您是否承认纯美女神伊德丽拉美貌盖世无双正如我向这位星河小姐宣扬美的所在我所期许的是一场邂逅是心灵与理 念的碰撞与交流我不如她和卡夫卡那样通晓人心也没有银琅和刃的一技之城 <|zh|><|NEUTRAL|><|Speech|><|woitn|>我所擅 长的种种 <|zh|><|NEUTRAL|><|Speech|><|woitn|>大多 <|zh|><|NEUTRAL|><|Speech|><|woitn|>也只是用于无需怜悯的恶图猫头鹰的耳朵是不对称的可以让它们在捕猎时能更准确的定位猎物的位置 <|zh|><|HAPPY|><|Speech|><|woitn|>这种独特的 听节结构是他们夜间捕猎成功的关键欢迎来到我们全新开业的健身游泳会所专为追求完美的您打造活动时间从即日起至二零二四年七月三十一日前两百名新会员可享受八点八折优惠如需了解更多请致电我们的服务热线一二三四五六七八九零一辈子真诚 <|zh|><|NEUTRAL|><|Speech|><|woitn|>一天二十四个小时 <|zh|><|NEUTRAL|><|Speech|><|woitn|>一千四百四十分钟 <|zh|><|NEUTRAL|><|Speech|><|woitn|>八万六千四百秒如果我每分钟想念你一次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>那就是想念了你一千四百四十次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>如果我每秒钟想念你一次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>那就是想念了你 <|zh|><|NEUTRAL|><|Speech|><|woitn|>八万六千四百次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>一辈子这么长 <|zh|><|NEUTRAL|><|Speech|><|woitn|>我该有多少时间为你荒废 <|zh|><|NEUTRAL|><|Speech|><|woitn|>但我甘愿 <|zh|><|SAD|><|Speech|><|woitn|>一辈子真诚 <|zh|><|NEUTRAL|><|Speech|><|woitn|>一天二十四个小时一千四百四十分钟八万六千四百秒如果我每分钟想念你一次那就是想念了你一千四百四十次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>如果我每秒钟想念你一次那就是想念了你八万六千四百次 <|zh|><|NEUTRAL|><|Speech|><|woitn|>一辈子这么长我该有多少时间为你荒废 <|zh|><|NEUTRAL|><|Speech|><|woitn|>但我甘愿如果蛇皮需要鼓励的话我会笑着对他说我测你的马 to all americans <|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>in every city near and far <|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>whether big or small hear these words <|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>you will never be ignored again <|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>your voice hopes <|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>and dreams will shape our american destiny your courage goodness and love will guide us forever <|en|><|HAPPY|><|Speech|><|woitn|>she stared at the empty chair across the table the candlelight flickering in the cold he promised to be back by dinner <|en|><|HAPPY|><|Speech|><|woitn|>hours past then days and finally a letter arrived he wasn't coming back she clutched the letter tears streaming down knowing she'd never see him again你说的对但是 fish speech 一点二是由 fish audio自主研发的一款基于 transformer架构的开源文本转语音模型"}]

我可能会先去他那里看看能不能给模型加上speaker的返回,因为仓库主人最近也在更新。

MrXnneHang commented 3 months ago

这个模型设计初衷应该也是制作数据集的。
里面的事件检测有bgm什么的,但其实这些可以根据降噪降掉。
音频降噪:日常噪音、乐器音| Foobar2000+NVIDIA_SDK | MDX2.4
我现在主要卡在数据集里面可能有不同说话人混合的问题上面。 你要是知道有什么好用speaker分类,验证模型可以跟我说说看。

dfrrk commented 2 months ago

原来是cam++ 现在它们7月更新了ERes2NetV2说话人识别模型,识别率更高的speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common可以试一下

MrXnneHang commented 2 months ago

还差一点,他们可能还想再进一步,然后才做说话人日志。去年的时候有一个说话人日志,只能说效果差强人意。因为底层不太好,同性别角色之间分不太清,情感浮动一大就变成不同speaker。今年我看他们都没有更新复合模型,而是把模型拆开了熬底层,然后自由搭配模型。 但模型也有点尴尬,只有说话人验证(给出两条音频voice的相似度。)的话我不太懂怎么标注不同的speaker。只能设计个二分。