请问考虑在项目中加入声纹识别的功能吗？

Ayanaminn / N46Whisper

Whisper based Japanese subtitle generator

MIT License

1.57k stars 130 forks source link

请问考虑在项目中加入声纹识别的功能吗？ #32

Open yy35959199 opened 1 year ago

yy35959199 commented 1 year ago

~~（github怎么按了回车键直接就发出去了……我还没编辑完）~~ 跑了个联动回，语音转文字后还需要逐行去标注说话人然后翻到了一个声纹识别的包： https://github.com/pyannote/pyannote-audio 应用项目： https://github.com/yinruiqing/pyannote-whisper https://github.com/lablab-ai/Whisper-transcription_and_diarization-speaker-identification- https://github.com/JimLiu/whisper-podcast-subtitles

想问问考不考虑把这个集成进去OTZ 在多人联动的活动中应该能起到大作用……

WebelyTwilight commented 1 year ago

确实，我也是刚碰到到这种问题

Ayanaminn commented 1 year ago

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

yy35959199 commented 1 year ago

翻了一下AEG，里面有个地方是这样的：对应的代码是这么一句： Dialogue: 0,0:03:08.99,0:03:09.91,VTB样式,難燃か（？）おめえ,0,0,0,,你还好吧在“样式名”和“0,0,0”（不知道ASS里这个是什么含义OTZ）之间这个部分标注上speaker的话，后续就可以按照这个批量替换掉前面的样式了吧？（想了一下在语音转文字之前就设定好【声音-样式】的映射感觉不好实现，所以只要能识别出N个声音并标注在这个地方，然后手动把前面的样式替换成想要的样式，这个流程大概比较简单……）

所以如果能加在这个部分里的话，应该比较好处理一些？（srt文件格式更不熟了……我再去翻一下OTZ）

yy35959199 commented 1 year ago

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

看了一下srt文件的格式，好像srt文件没有能标注的部分？所以可能还是只能写入ASS文件……

（另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook，但是被各种依赖问题卡死了）

Nekofoxmiu commented 9 months ago

从实用角度讲，这个功能最后实际输出希望以什么形式呢？ass/srt每一句都标注“speaker01”，“speaker02”这样？

看了一下srt文件的格式，好像srt文件没有能标注的部分？所以可能还是只能写入ASS文件……

（另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook，但是被各种依赖问题卡死了）

開 docker 直接跑 colab 本地端啊