Ayanaminn / N46Whisper

Whisper based Japanese subtitle generator
MIT License
1.57k stars 130 forks source link

请问考虑在项目中加入声纹识别的功能吗? #32

Open yy35959199 opened 1 year ago

yy35959199 commented 1 year ago

(github怎么按了回车键直接就发出去了……我还没编辑完) 跑了个联动回,语音转文字后还需要逐行去标注说话人 然后翻到了一个声纹识别的包: https://github.com/pyannote/pyannote-audio 应用项目: https://github.com/yinruiqing/pyannote-whisper https://github.com/lablab-ai/Whisper-transcription_and_diarization-speaker-identification- https://github.com/JimLiu/whisper-podcast-subtitles

想问问考不考虑把这个集成进去OTZ 在多人联动的活动中应该能起到大作用……

WebelyTwilight commented 1 year ago

确实,我也是刚碰到到这种问题

Ayanaminn commented 1 year ago

从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?

yy35959199 commented 1 year ago

翻了一下AEG,里面有个地方是这样的: image 对应的代码是这么一句: Dialogue: 0,0:03:08.99,0:03:09.91,VTB样式,難燃か(?)おめえ,0,0,0,,你还好吧 在“样式名”和“0,0,0”(不知道ASS里这个是什么含义OTZ)之间这个部分标注上speaker的话,后续就可以按照这个批量替换掉前面的样式了吧?(想了一下在语音转文字之前就设定好【声音-样式】的映射感觉不好实现,所以只要能识别出N个声音并标注在这个地方,然后手动把前面的样式替换成想要的样式,这个流程大概比较简单……)

所以如果能加在这个部分里的话,应该比较好处理一些? (srt文件格式更不熟了……我再去翻一下OTZ)

yy35959199 commented 1 year ago

从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?

看了一下srt文件的格式,好像srt文件没有能标注的部分? 所以可能还是只能写入ASS文件……

(另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook,但是被各种依赖问题卡死了)

Nekofoxmiu commented 9 months ago

从实用角度讲,这个功能最后实际输出希望以什么形式呢?ass/srt每一句都标注“speaker01”,“speaker02”这样?

看了一下srt文件的格式,好像srt文件没有能标注的部分? 所以可能还是只能写入ASS文件……

(另外想问一下本地化还会做吗OTZ在线跑AI翻译对Colab pro的消耗忒大了……试着下载这个项目然后本地运行Jupyter Notebook,但是被各种依赖问题卡死了)

開 docker 直接跑 colab 本地端啊