Closed hiroi-sora closed 1 year ago
下面是一些问题,希望听取一下大家的看法。你可以点击下方的表情【👍️、🎉、🚀、👀】来给这个问题投票。
1、你期待V2版本吗?(此题统计人数用)
【拇指👍️】期待。
2、你的系统是?
【拇指👍️】Win10/11 x64。
【彩带🎉】Win7 x64。
【火箭🚀】Win7 x86(32位)。
【眼睛👀】macOS或Linux。
3、你的电脑配置是?
【拇指👍️】较老旧的机器(如8代intel以前)。
【彩带🎉】较新的机器,但没有独立显卡。
【火箭🚀】有英伟达Nvdia独立显卡。
【眼睛👀】有AMD独立显卡。
4、你喜欢自动更新吗?
【拇指👍️】我喜欢后台自动下载、自动安装的更新服务。
【彩带🎉】我希望有新版本时自动提醒我。
【火箭🚀】我希望能手动检查更新。
【眼睛👀】我不想要联网,包括检查更新服务。
5、你希望最终发布时,程序打包到什么程度?
【拇指👍️】我喜欢单个exe可执行文件,尽管这样会难以安装插件和其他语言库。
【彩带🎉】我认为资源文件(图标、ui文件等)可以打包起来以提高性能,同时支持自己导入插件和语言库。
【火箭🚀】我希望所有的文件(包括ui和逻辑)全部暴露,以便于随时修改或查看程序代码。
6、使用OCR时,除了简体中文和简短的英文,你还会用到的语言是?(多选)
【拇指👍️】大篇幅英文段落。
【彩带🎉】繁中。
【火箭🚀】日文。
【眼睛👀】其他语言。
顶!!!大佬太强了!!!
期待,虽然我的建议处于低级优先级/(ㄒoㄒ)/~~
可不可以有文字定位信息,就是返回文字在图片中的坐标信息
返回文字在图片中的坐标信息
当前版本可以输出OCR结果的完整信息(含文本框的坐标),在设置里打开 结果输出→原始信息.jsonl文件
即可。然后你可以读取生成文件,逐行解析json并提取位置信息。
至于精确到单个字符的坐标信息,Paddle引擎是不支持的。Rapid引擎可能支持,但我为了通用性就没有搞它。
支持大佬 小白不会改代码 希望越做越好 非常喜欢截图OCR功能
作者大大您好,我是一名非计算机专业的研究生,这是我第一次在github上发表内容。 我想向您表达感谢和敬意,这款软件在我的学习和工作中,以远超竞品的表现,极大地提高了我的效率。我将其设置为开机启动的唯二应用软件,另外一个是onedrive。 更不要说兼具小巧轻量、实用、免费、开源、频繁更新、考虑用户感受、功能全面、人性化于一体,我接触计算机领域不多,在我的观念里,个人开发者做到这样的程度实在是太不容易了。尤其是,没有打赏渠道在内的任何盈利方式,白嫖的我感觉怪难为情。 向您致敬,向您表示由衷的谢意。祝您和家人身体健康、工作顺利、一生顺遂、平安喜乐。 我会经常来看看您的动态,也希望软件越来越好。 我的专业是法律,如果您和家人遇到了法律问题,在您需要的情况下,我非常乐意为您无偿解答。
p.s. 基础翻译工作我也可以胜任,但计算机专业名词可能对我来说有些困难。如果无专业译者进行翻译,我可以尝试初步翻译(又不是不能用😜) 后续有专业译者可以在初步结果上改进
@IceYin0 哈哈,感谢支持啦😄
支持作者按拟定的策略按步开发,期待最强离线OCR软件诞生!
下面是一些问题,希望听取一下大家的看法。你可以点击下方的表情【👍️、🎉、🚀、👀】来给这个问题投票。 1、你期待V2版本吗?(此题统计人数用) 【拇指👍️】期待。
作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜!
作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜!
@zhaoyingchuang 感谢你的建议。我来补充一下:
隐藏托盘图标
我感觉这样不太安全,系统自带软件另说,第三方软件的后台模式总得有个可以看见的入口,让我知道它还在跑着。既隐藏任务栏图标又隐藏托盘图标的话,我认为会不太方便。另外,万一用户在软件设置里取消了所有快捷键,又隐藏了可见入口,就无法用正常的手段唤起它了。我是不会主动在软件层面做这个操作的。
但是,你要是不喜欢在托盘图标,把它收纳进【^】折叠区域。对于win11,在【个性化→任务栏→其他系统托盘图标】里,将想要隐藏的软件的开关关掉即可。或者直接在托盘栏将图标拖进【^】。
只专注ocr本身
这就是为什么V2主界面的核心设计思路是“标签页模式”了。像您这种只需要基础OCR功能的用户,完全可以只打开“截图OCR”的标签页,让主界面上只有这一个“干干净净的ocr功能”。其他功能既不会出现在你的视线里,也不会加载进内存,占用你的CPU。体验上跟纯粹的OCR软件是一毛一样的。至于需要其他功能的用户,比如需要PDF的,那就单独打开PDF标签页;需要翻译的,就打开翻译标签页……。各取所需,所有人的偏好都能得到满足。
标签页会记录你的设置,只需初始设置一次,以后每次启动会恢复已打开的标签页。另外标签页可以锁定,即禁用标签的添加、删除、移动,防止日常使用时手滑误触。这个作为基础功能,现在的开发进度已经实现了。
@zhaoyingchuang 感谢你的建议。我来补充一下:
隐藏托盘图标
我感觉这样不太安全,系统自带软件另说,第三方软件的后台模式总得有个可以看见的入口,让我知道它还在跑着。既隐藏任务栏图标又隐藏托盘图标的话,我认为会不太方便。另外,万一用户在软件设置里取消了所有快捷键,又隐藏了可见入口,就无法用正常的手段唤起它了。我是不会主动在软件层面做这个操作的。
但是,你要是不喜欢在托盘图标,把它收纳进【^】折叠区域。对于win11,在【个性化→任务栏→其他系统托盘图标】里,将想要隐藏的软件的开关关掉即可。或者直接在托盘栏将图标拖进【^】。
只专注ocr本身
这就是为什么V2主界面的核心设计思路是“标签页模式”了。像您这种只需要基础OCR功能的用户,完全可以只打开“截图OCR”的标签页,让主界面上只有这一个“干干净净的ocr功能”。其他功能既不会出现在你的视线里,也不会加载进内存,占用你的CPU。体验上跟纯粹的OCR软件是一毛一样的。至于需要其他功能的用户,比如需要PDF的,那就单独打开PDF标签页;需要翻译的,就打开翻译标签页……。各取所需,所有人的偏好都能得到满足。
标签页会记录你的设置,只需初始设置一次,以后每次启动会恢复已打开的标签页。另外标签页可以锁定,即禁用标签的添加、删除、移动,防止日常使用时手滑误触。这个作为基础功能,现在的开发进度已经实现了。
我明白您的顾虑,也知道可以把托盘图标隐藏到【^】。哈哈,可能是我这个需求太刁钻了,不知道有没有人和我一样,就是想让软件隐藏到后台工作,前台找不到任何踪影。我想应该会有,因为这样一款软件就像融入自己的电脑一样,使用起来会更加舒服(纯属个人观点) 不过,我认为您认为用户会因为既隐藏了托盘,又忘记快捷键或没有设置快捷键而找不到软件入口的顾虑是多余的。首先,隐藏托盘入口的同时让其在后台运行这个功能是可选项,您如果依然担心有用户不小心设置上这一功能令自己无法找当前软件入口,大可以把它当作高级设置,只能让用户通过JSON文件里的is_show_tray=TRUE来单独设置,就像snipaste这款截图软件一样。退一步来说,有这个需求的用户我想应该不会因为隐藏掉图标而就不到软件入口 ,通过在任务管理器、桌面快捷方式、软件下载位置打开软件等都可以重新唤醒软件再对其设置。再次,如果还有顾虑,还可以给软件加一个使用手册,内置各自使用默认快捷和使用说明,这好像软件本身已经做了一些。最后给软件可以加一个终级快捷键,就是直接弹出应用窗口。这样也可以避免,因为隐藏托盘图标找不到程序入口这一问题。也给多给用户一个选择。 其次,还有一点我不理解,不知是我用不到这个功能还是它不身是一个bug。就是为什么这个软件可以多开,而不是,当我多次打开软件后 竟然软件进行了双开甚至多开,而不是弹出隐藏在后台应用。经过我使用的这一段时间,暂时只想到了这些瑕疵,当然这都是对我自己来说的,不代表其他任何人的意见。 最后,再次感谢作者,祝您身体健康万事如意😊
@zhaoyingchuang
嗯,也有道理。你说的我都会考虑的。
老大你好,希望操作窗口能做一些无障碍相关支持。应为我是一个视障用户,目前的版本对于我们使用的读屏软件来说,操作还是会有些麻烦。窗口的控件几乎无法被读屏软件获取,我们也有一些朋友在使用这款框架,遇到了相同的问题。希望老大能够做一些相关优化,特别感谢。
加油,蹲一手表格输出。王国之泪真好玩
@1151971148
视障用户
感谢特殊群体的支持,祝愿你们越过越好。
我认为,如果你们是希望把OCR作为使用电脑的辅助手段,比如读取屏幕上面非文本格式的字段;那么与其让OCR软件支持读屏的查找机制,不如直接让OCR软件推出一个面向视障用户的特殊版本,比如说删减不必要的功能,着重于截图和鼠标划词和语音朗读功能,按键设置和使用方法上参考市面上常见的读屏软件,等等。
特殊版本与正常版本使用相同的内核和逻辑,理论上修改的工作量不会很大。在未来有时间和精力时,我可能会再考虑一下。
特别感谢老大的回复。其实我们现在主要使用离线ocr的场景是把图片形式的文本转换成文本格式。应为我们很多的教科书全部是pdf以及图片。 电脑操作的话,目前大部分读屏软件已经内置了屏幕识别的ocr。用来辅助操作基本够用,但是用来识别扫描的书本精度还是不太够。所以想着用ocr框架配合模型使用。@hiroi-sora @
想要后台启动,快捷键截图识别并翻译,翻译内容窗口显示。 支持腾讯百度彩云等大厂的翻译接口,接口比较稳定,大概翻译文本用的流量少,给的免费额度都挺多。(不着急) 对照翻译。(不着急)
一方面深深的为作者的无私奉献感动,希望你能留个赞助方式,你为爱发电,用户也为爱发电,双向奔赴才能构建更美好的世界。 另一方面在研究工作中,很多时候有很多非常冷门的原版书,只能找到模糊的影印版,而且可能是多语言的,希望能在这方面有很好的支持
感谢作者创建这么好的惠人项目。目前用得是Umi-OCR.Rapid v1.3.4-alpha.1版本,支持win7,这是个利好。弱弱地咨询两点: V2版本会继续向下兼容 win7吗? 第二个,v2版本会增加对表格的识别支持么? 祝作者身体健康,万事顺心~~
@qjwshz
第一个点,我觉得功能上包括命令行的设计,可以参考 capture2text,capture2text 有一个 Text Line OCR 功能,可以不用选取区域,即指即译,词典论坛上 有人 又封装了一下给 GoldenDict 用
第二个功能上的点,就是模仿微信的 OCR,小众软件上也有人写出类似的,就是让文字浮现在图片上
最后我和楼上的人也有同感,作者你一个人维护的话,首要应当是专注在提升 OCR 的质量上,而非周边附加功能,就像我说的词典软件已经有很多人做了,而准确易用的 OCR 却很少。我还是比较信奉 Unix 哲学 Write programs that do one thing and do it well. Write programs to work together.
当然不论怎样,都祝软件越做越好,让更多人受益,我也只是提出了自己的一点想法。😊
非常感谢作者大大的无私奉献,希望能安装到服务器上,然后可以开启http服务,这样网页可以调用它比如post一个图片给他返回文字信息。
能不能在给软件包时顺便把校验码附上,好确定自己是下载正确的软件包
期待新作,期待表格识别。不知V2的第1个版本预计何时面世?
其实我觉得公式识别比较有用,不过这个应该比较困难
---原始邮件--- 发件人: @.> 发送时间: 2023年7月10日(周一) 晚上7:47 收件人: @.>; 抄送: @.**@.>; 主题: Re: [hiroi-sora/Umi-OCR] 【预告】V2.0版本 | 前景展望 | 意见收集 | 功能投票 (Issue #146)
期待新作,期待表格识别。不知V2的第1个版本预计何时面世?
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
每个人应用场景不一样,于我而言,公式识别就基本用不上。
@Eyion
V2的第1个版本预计何时面世
时间是未知数。虽然开发工作到现在为止没有遇到过大的技术困难,正在逐步推进中。但重构的工作量并不小,我个人的精力、业余时间有限,所以进展速度并不快。也许今年内能搞定初版吧。
@Eyion
V2的第1个版本预计何时面世
时间是未知数。虽然开发工作到现在为止没有遇到过大的技术困难,正在逐步推进中。但重构的工作量并不小,我个人的精力、业余时间有限,所以进展速度并不快。也许今年内能搞定初版吧。
辛苦了!
希望新版本也会考虑其他程序将Umi-OCR以库文件的形式集成到其他城市中,这样对其他开发者来说真的是有很大帮助。
字体识别和补全功能,方便添加进去吗?或者有无好推荐?
希望有post接口
预览版本发布:https://github.com/hiroi-sora/Umi-OCR_v2/releases
开发进度已完成大半,实现大部分基础功能,达到了预期的优化效果。
解决了一些V1祖传的问题,比如现在能完全兼容高分屏和多显示器了。
欢迎各位测试体验。
感谢大佬为爱发电。 我希望增强命令行模式,可以使用dll/so库直接调用OCR识别,不需要启动exe。 原exe程序所需的json配置也可以通过参数传入或指定路径。 顺祝时祺。
感谢大佬。 其实我更喜欢V1的UI风格,可否支持切换UI风格?
@JusticeRen
可否支持切换V1的UI风格
抱歉,V2的底层框架基于qt-qml,并不使用windows风格的组件库,而是自绘组件。所以很难切换为V1的windows风格。
V2在一定程度上支持自定义样式,可以自己创建皮肤包来调整界面的颜色等外观;但大幅度切换风格还是比较困难的。
刚下了v2试了下,感觉比v1用起来更方便哈哈,已经添加了启动项日常用了,就等v2上正式版了。
在给包的时候,能否加上校验码?如sha256
发布加上校验码
收到 √
虽然处于低优先级,不过还是期待能出 Mac 版的。
新预览版本发布。除了命令行模式
和截图联动
外,V1现有的功能在V2预览版均已上线。
V2还提供了一批新功能:可预览的截图界面,更丰富精准的段落合并(支持还原代码缩进),软件GUI支持多国语言……
欢迎测试体验。
目前v2日常使用中,发现一个与snipaste冲突的地方。snipaste截图快捷键触发以后,就无法触发v2的快捷键了。比如snipaste的快捷键是CTRL+ALT+A,v2的快捷键是ALT+Q,先触发snipaste的快捷键,然后回到v2的快捷键设置,按下ALT+Q,就会变成CTRL+ALT+A+Q,不知道为啥,就好像是snipaste没释放按键一样,或者是v2捕获错了。还有个小问题就是在部分窗口无法触发快捷键,比如一些游戏窗口(快捷键未冲突),或者注册表之类的,不知道是不是跟管理员权限有关,我记得snipaste那边好像说明有说过部分窗口截图要管理员权限。
之前有人提到公式识别,我目前用的是https://simpletex.cn/ 不知道有没有办法继续提升识别精度,尤其是大量的英文文章,包括图片有一点倾斜角度或者不太清晰的情况下。 日语ocr的精度以前非常差,不过V2好很多了,谢谢大佬。原文都是从维基百科截图的
@iKun4real
快捷键的问题也是v1祖传的问题了。python几个常见热键库都存在不稳定的问题,win32批量注册系统层级热键也不太方便。所以我是监听普通按键事件,在软件层级自己维护一条热键列表。
优点是通用,稳定,去年11月更新至今 没有爆出过恶性bug。缺点是默认优先级低,如果有高权限的软件先拦截了按键事件,那么Umi-OCR可能就捕获不到同一个按键。
就像你说的,好像是snipaste没释放按键一样
,实际上是snipaste拦截了按键抬起事件,导致Umi认为该按键一直未释放。
(为了缓解这个问题,我设置了按键超时时间,如一个按键按下超过30秒则视为已释放。v1可以自定义设置超时时间,v2之后会开放修改接口。)
而要从根源上解决这个问题,就是给Umi高权限——即给管理员权限。管理员权限可以无视其它软件的拦截(包括其它管理员权限的软件),从而保证热键的触发。
大家好~ 这里是Umi-OCR的开发者hiroi-sora。
Umi-OCR诞生了一年有余,从v1.0到v1.3.4更新了17个版本。在各位用户的建议下,Umi不断成长,规模已经远超项目初创时我的预期。
受限于初期采用的技术框架和一些历史遗留问题,v1.x的更新工作已经遇到了不少瓶颈。于是,我决定启动v2.0版本计划;几乎所有旧代码都会被推翻重构。我会选用更现代的框架和更精巧的代码,为大家带来焕然一新的美观界面,和丰富且可拓展的功能。
当前v2的大部分开发工作已完成,可前往这里体验预览版本:
https://github.com/hiroi-sora/Umi-OCR_v2
这是预期效果:
按照设计目标,预计V2将具有以下特性:
按照我的设计理念,Umi-OCR V2 将是一个“OCR Hub”,是一种中枢,能够整合上游的离线引擎、在线接口、翻译机等不同模块,为下游的截图识别、批量识别等不同功能页面提供服务。开发者可以方便的拓展上游模块来为下游提供更高效的服务,也可以方便的拓展下游页面来为用户提供更多样的使用手段。
V2版开发的优先级
由于人的能力是有限的,V2的开发工作将分为“三步走”策略。
(列表中☑︎表示已开发完成。可能更新不及时)
高优先级
中优先级
低优先级
叠Buff
由于任务的复杂性,及个人时间精力有限,V2具体推出的时间将不确定,可能需要 数月之久 。甚至,面临无法预料的变故时,也存在搁置V2开发计划的可能性。
当然,我热爱Umi-OCR这个项目。会尽力保证不弃坑滴~
开发进度放在新仓库: Umi-OCR_v2 。 新仓库仅作为V2开发前中期的记录使用 ,后期会弃用,并将新版本代码合并回当前主仓库。
V2开发期间,V1将继续维护,但是会减少大型新功能的推出。
关于免费
Umi-OCR 是我个人兴趣开发的项目。按照我目前的想法,在可预见的未来里,Umi-OCR承诺 不以任何手段盈利 。包括提供免费下载、不含任何广告、没有需要付费的“高级功能”、无需注册账号、无需关注公众号。所有代码100%开源。短期内,我也不会开设打赏渠道。你的⭐️就是对我的鼓励。
关于协作
V2版将有一批功能期待你的参与。比如,国际化适配功能需要译者的协作。UI设计师可以为本项目设计皮肤。程序员用户可以为本项目设计插件。
为了方便协作者,我将会开发一系列的配套工具;比如不会编程的译者也可以用工具提取文本开展翻译工作。
具体的协作细则将在V2开发中后期公布。
你的建议
如果你有任何关于V2的建议,欢迎在本issue下提出,或者在 讨论区 发表新帖。如果多人有同样的提议,很可能改变我的任务优先级,将你的需求视为高优先级任务。