Gmgge / TrOCR-Seal-Recognition

基于transformer的ocr识别,在公章(印章识别, seal recognition)拓展应用
111 stars 24 forks source link

一个假印章生成项目 #38

Open wang-zhix opened 1 month ago

wang-zhix commented 1 month ago

如果你的真实印章过少,可以尝试生成一些假印章 印章生成(gitee) 印章生成(github)

dc6273632 commented 1 month ago

大佬,我正在找假印章生成工具呢,您就来了哈哈,感谢感谢!!

dc6273632 commented 1 month ago

大佬,我正在找假印章生成工具呢,您就来了哈哈,感谢感谢!!

在线的那个实在太慢了,我要合成至少30W+

wang-zhix commented 1 month ago

这个项目生成速度不怎么快,我这都是晚上挂着它。 所以没怎么优化速度,只用了多进程。 5W数据(实际图像数量是10W,因为每一个章会生成一个带背景的,一个不带背景的)开10个进程 从晚上18:31:11 到次日凌晨 0:28:39

dc6273632 commented 1 month ago

这个项目生成速度不怎么快,我这都是晚上挂着它。 所以没怎么优化速度,只用了多进程。 5W数据(实际图像数量是10W,因为每一个章会生成一个带背景的,一个不带背景的)开10个进程 从晚上18:31:11 到次日凌晨 0:28:39

我看了下,这个是根据字典随机组词的,如果我要识别公章的企业名称,并且有大量的真实企业名称,那就不需要随机组词了吧?是不是直接用真实的企业名称生成印章比较好一点?

wang-zhix commented 1 month ago

随机组词 是用你的真实企业名称 截取的 例如 ’中国人民解放军陆军总医院 ‘ 生成 国人民解放军 人民解放军陆军总医 陆军总医院

最好是 两种方式的章 都有 多多益善嘛~

dc6273632 commented 1 month ago

随机组词 是用你的真实企业名称 截取的 例如 ’中国人民解放军陆军总医院 ‘ 生成 国人民解放军 人民解放军陆军总医 陆军总医院

最好是 两种方式的章 都有 多多益善嘛~

有道理啊,用一部分真实名称的章,再加一部分随机组词的章,这样模型应该就更稳了,防止看到一个新的企业名字反正不认识了