H1DDENADM1N / CapsWriter-Offline

Windows端 离线语音输入、中译英、字幕转录;在线多译多、云剪贴板
86 stars 2 forks source link

请求监听转录功能 #31

Closed Boblove12 closed 1 month ago

Boblove12 commented 2 months ago

您好,首先非常感谢您,真的非常有价值。 能否增加功能,实现这样的目的:打开客户端后,客户端立即开始监听设定好的麦克风,并在每段声音出现后转录成文字,将文字内容记入当天的文档中。 设想:这个客户端可以与按下Caps的版本共存(不检测按键);麦克风中没有声音3秒(可否自定义)就视为一段; 使用背景:办公室有一台bbk录音电话(hcd-198),连接pc并安装话机软件后,会在windows中添加usb phone 的扬声器和usb phone的麦克风,有电话时会自动录音,电话软件也有留言录音功能。因不能一直守着电话,每次回来需要逐一听取是否有留言,所以想通过这个功能记录留言内容,在打开文档后就可以看到文字内容,节省逐一听取录音的时间。 备注:在下计算机水平有限,所以冒昧提出请求,如果有必要可以支付费用,再次感谢。

H1DDENADM1N commented 2 months ago

有趣的应用场景。也许不必那么麻烦的,可以监测电话自带的录音功能录音文件存放位置,然后将新增的录音文件识别出来。

甚至可以让ai总结概括,再推送qq微信,很有前景呀。

我这边没有录音电话,请问电话自带的录音功能录音文件存放在哪个文件夹?录音文件什么格式?

请上传一些录音文件用于开发测试。

H1DDENADM1N commented 2 months ago

我发布了一个新项目,希望对你有用。Phone-Assistant

Boblove12 commented 2 months ago

非常感谢。 录音文件保存位置为C:\Users\用户名\AppData\Roaming\iUsbPhone\Recording,保存位置可以自定义,文件格式是mp3,使用CapsWriter-Offline是可以转换的。文件请您稍等我挑选完成上传。 您提到的实现方式可能面临的问题:1,录音文件在电话接通后就会被创建,并在通话过程中持续写入,是否需要添加一个判断机制看文件是否写入完成;2、在该监听文件夹下有很多录音文件,希望每天的录音记录在一个文档中,类似软件已经有的记录一样,这样就可以在一个文件中看到当天的全部内容。(抱歉我还没有使用您的新项目,使用后再反馈) 录音软件的网址,可以安装但是需要话机和固话才能完整测试。 另外,目前我能发现的类似软件是 Buzz,但是我测试识别效果不好

H1DDENADM1N commented 2 months ago

有判断音频是否被其他进程占用,有判断音频是否完整。

步步高的录音软件我安装了,可惜没有电话硬件和使用环境没啥帮助。

每天的录音可以通过 Windows 资源管理器 查看 分组依据 修改时间 按天分组,如下图:

图片

另,新项目需要一点点代码基础。

Boblove12 commented 2 months ago

感谢您 新的项目我运行起来了,以下是一个截图 20240708192436 关于文件的展现形式,为了便于通话录音管理,所以所有录音文件都在一个文件夹中,导致文件有点多 20240708192825 所以,期待能把结果记录在一个文档中便于查看,下面这个是日常按下案件形成的记录文件,比较接近期待的效果 20240708192634

Boblove12 commented 2 months ago

还有一个请求,就是代码需要再内网运行,能否麻烦您做成不需要pip的(抱歉实在不会,刚才运行这个就是一边搜一边试)

H1DDENADM1N commented 2 months ago

txt文件合并网上应该多的是,我就不重复造轮子了。

不过我更推荐你不要合并,使用dnGrep可以非常高级且快速地检索多个文本,如下图:

图片

H1DDENADM1N commented 2 months ago

还有一个请求,就是代码需要再内网运行,能否麻烦您做成不需要pip的(抱歉实在不会,刚才运行这个就是一边搜一边试)

打包版本:https://github.com/H1DDENADM1N/Phone-Assistant/releases/tag/v0.1.0

另,严格遵循README.md 用法哦,特别是:

修改 CapsWriter-Offline core_client.py main_file() 函数,注释掉 # input("\n按回车退出\n"),否则subprocess无法退出,会在后台一直运行着多个cmd.exe和python.exe。

Boblove12 commented 2 months ago

好的,真的非常感谢。 在您的工作和指导下,基本达到了我想要的效果。关于这个设想,进一步的想法是,本地话务员AI(类似于小米手机的通话助手),电话接通后记录下来点人的信息,要求等,对于一些简单问题,可以通过预设等方式回答,当然实现起来肯定不简单,姑且听之 不知道您是否有捐赠通道,以聊表谢意

H1DDENADM1N commented 2 months ago

在线AI api通常都是要付费的;kimi和chatglm的官方网页比较省心;coze比较丰富,翻海外还能白嫖chatgpt。本地知识库推荐MaxKB或QAnything,用1Panel或Docker命令行搭建都不难,只是对计算机显卡性能要求不低,普通办公电脑恐难胜任。

Boblove12 commented 2 months ago

能否麻烦您,帮忙把CapsWriter-Offline start_server_gui.py 中text_box有关的代码移植到Phone-Assistant项目中,实现转录文件生成字幕txt等的同时也可以在CapsWriter-Offline/2024/07/下生成.md文件(原谅我又菜又想)

H1DDENADM1N commented 2 months ago

能否麻烦您,帮忙把CapsWriter-Offline start_server_gui.py 中text_box有关的代码移植到Phone-Assistant项目中,实现转录文件生成字幕txt等的同时也可以在CapsWriter-Offline/2024/07/下生成.md文件(原谅我又菜又想)

搓出来了,请测试 https://github.com/H1DDENADM1N/Phone-Assistant/commit/02546e7e38b69d5fcd5a0b903e118c5368722a0d

效果参考图:

图片

Boblove12 commented 2 months ago

您真是太厉害了 我这儿遇到一个小问题 20240708230838

H1DDENADM1N commented 2 months ago

您真是太厉害了 我这儿遇到一个小问题 20240708230838

从123pan重新下载解压下,或者改run.bat 加一句chcp 65001 1>nul 。 我忘了中文默认用的gbk,没有默认utf-8 。


chcp 65001 1>nul

@echo off
cd /d %~dp0
.\runtime\python.exe .\phone_assistant.py
Boblove12 commented 2 months ago

哇太感动了,可以了,您真是太厉害了!!!

Boblove12 commented 1 month ago

您好,在使用phone-assistant项目过程中,发现这种实现方式存在诸多问题,如不能监听到新文件,读取txt错误等。 经过个人分析,还是想通过以下方式实现,奈何自己不会修改,不知道您能否帮忙实现,感谢。 修改client为client_phone,作为一个可以与原有client并行的客户端; client_phone可以指定监听的音频设备(含输入设备如麦克风,输出设备如扬声器),不指定的情况下使用默认音频设备,为方便指定,在gui中列出所有可用的设备名称以便于指定; client_phone运行后自动开始监听并转录(不需要按下Caps键,转录结果写入md),退出后停止监听,监听过程中的转录规则为,通过音量大小判断,当音量超过某个阈值时,开始转录;当音量低于阈值一段时间后,停止转录,设置一个延迟来避免短暂的音量波动触发 我使用ai输入了以上问题,得到了部分答案,但是没有办法与CapsWriter-Offline-GUI结合,所以麻烦您,如果可以的话,请您联系我,我可以支付一些报酬我的wx-base:QWdyZWF0LWRyZWFt

H1DDENADM1N commented 1 month ago

一个可以与原有client并行的客户端; client_phone可以指定监听的音频设备(含输入设备如麦克风,输出设备如扬声器),不指定的情况下使用默认音频设备,为方便指定,在gui中列出所有可用的设备名称以便于指定; client_phone运行后自动开始监听并转录(不需要按下Caps键,转录结果写入md),退出后停止监听,监听过程中的转录规则为,通过音量大小判断,当音量超过某个阈值时,开始转录;当音量低于阈值一段时间后,停止转录。

抱歉,本人能力有限,无法实现你描述的功能。建议在 https://github.com/HaujetZhao/CapsWriter-Offline/issues 提交Issue,寻求原作者解决。

Boblove12 commented 1 month ago

好的仍然多谢

获取 Outlook for iOShttps://aka.ms/o0ukef


发件人: H1DDENADM1N @.> 发送时间: Sunday, July 21, 2024 6:06:00 PM 收件人: H1DDENADM1N/CapsWriter-Offline @.> 抄送: Boblove12 @.>; Author @.> 主题: Re: [H1DDENADM1N/CapsWriter-Offline] 请求监听转录功能 (Issue #31)

一个可以与原有client并行的客户端; client_phone可以指定监听的音频设备(含输入设备如麦克风,输出设备如扬声器),不指定的情况下使用默认音频设备,为方便指定,在gui中列出所有可用的设备名称以便于指定; client_phone运行后自动开始监听并转录(不需要按下Caps键,转录结果写入md),退出后停止监听,监听过程中的转录规则为,通过音量大小判断,当音量超过某个阈值时,开始转录;当音量低于阈值一段时间后,停止转录。

抱歉,本人能力有限,无法实现你描述的功能。建议在 https://github.com/HaujetZhao/CapsWriter-Offline/issues 提交Issue,寻求原作者解决。

― Reply to this email directly, view it on GitHubhttps://github.com/H1DDENADM1N/CapsWriter-Offline/issues/31#issuecomment-2241552656, or unsubscribehttps://github.com/notifications/unsubscribe-auth/BJWXWJMUYOOV5G7AG47VHPTZNOBYRAVCNFSM6AAAAABKPNKWF6VHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDENBRGU2TENRVGY. You are receiving this because you authored the thread.Message ID: @.***>

H1DDENADM1N commented 1 month ago

@Boblove12 我使用录音软件 模拟录音电话生成wav,确实在is_using_by_others()发现有bug,以发布了更新

注意:修改 src/config.py 文件,设置 call_recording_dir 为你的通话录音文件夹路径 和 caps_writer_offline_dir 为 CapsWriter-Offline 程序目录 。

新issue 不能监听到新文件,读取txt错误等。

Boblove12 commented 1 month ago

好的收到,感谢更新