Gmgge / TrOCR-Seal-Recognition

基于transformer的ocr识别,在公章(印章识别, seal recognition)拓展应用
121 stars 24 forks source link

开放印章数据集(仅传播) #10

Closed whiteless9 closed 8 months ago

whiteless9 commented 8 months ago

https://aistudio.baidu.com/datasetdetail/154271 百度社区的开放印章数据集(非本人原创),希望能够帮助到。 另外请教一下基于trocr如何获取字符的位置。

Gmgge commented 8 months ago

很高兴有人分享印章数据信息,该数据已经在收集列表中,还是很感谢你的反馈。

trocr如何获取字符的位置尚未接触过,这边暂时无法提供帮助。

whiteless9 commented 8 months ago

好的 感谢

UnstoppableCurry commented 7 months ago

paddleocr 2.6 里面有根据CTC 获取位置的代码

whiteless9 commented 7 months ago

paddleocr 2.6 里面有根据CTC 获取位置的代码

我理解那段代码是在行文本中效果才不错,弧形也可以吗?

UnstoppableCurry commented 7 months ago

噢原来你问的是弧形码, 确实文本行效果是不错的, 你可以极坐标展开弧形码 试一下效果,展开注意别把文本块切开,我记得是转到第四个象限 好像就能稳定展开

UnstoppableCurry commented 7 months ago

好像更简单的 计算周长也可以?用圆弧周长替代文本行长度。 确定点再圆弧上的位置也就知道了文字的具体坐标了 没必要展开。

whiteless9 commented 7 months ago

噢原来你问的是弧形码, 确实文本行效果是不错的, 你可以极坐标展开弧形码 试一下效果,展开注意别把文本块切开,我记得是转到第四个象限 好像就能稳定展开

但是目前trocr方案是无法定位到弧形文本的位置的,红色印章通过颜色处理还能完成部分,一旦灰色就很难搞定了

UnstoppableCurry commented 7 months ago

用pannet 或者db 系列 练一个分割模型就好啦

whiteless9 commented 7 months ago

好像更简单的 计算周长也可以?用圆弧周长替代文本行长度。 确定点再圆弧上的位置也就知道了文字的具体坐标了 没必要展开。

简单样本是可以通过处理获得的吗,但是一旦有复杂场景的问题基本就搞不定了,所以还是希望在模型上有个定位坐标的模块

whiteless9 commented 7 months ago

用pannet 或者db 系列 练一个分割模型就好啦

可以 但不够优雅。这一步已经试过了,多个文本的印章怎么判断文本框与文本的对应。虽然单一都是很不错解决方案,但是还是会有很多小坑

UnstoppableCurry commented 7 months ago

我没看作者具体是怎么训练的,我之前把印章文字外的区域都mask 成黑色 训练不拟合。或许再可以可视化的 注意力层 加入分割任务 能满足。 端到端的训练 前提应该是多阶段的模型已经把坑填完了 再去训练吧, 不然出了问题不好解决