Open 1061302569 opened 1 year ago
我也有同样的问题
我也有同样的问题 我在label stuidio上标注的框覆盖了文字,但是生成训练数据的时候就出现了丢字的问题
我也有同样的问题 我在label stuidio上标注的框覆盖了文字,但是生成训练数据的时候就出现了丢字的问题
如果手工修正太麻烦。。。不修正个人感觉现在微调的结果很差
标注ocr识别可以解决
标注ocr识别可以解决
ocr标注完后需要怎么转成训练所需要的格式呢?
你根据这个https://github.com/PaddlePaddle/PaddleNLP/blob/develop/applications/information_extraction/label_studio.py脚本进行修改。把ocr标注数据组织成训练所需要的格式
我也有同样的问题 我在label stuidio上标注的框覆盖了文字,但是生成训练数据的时候就出现了丢字的问题
您好 打扰了,请问这个问题解决了嘛, 我们业务也遇到同样的问题
我也有同样的问题 我在label stuidio上标注的框覆盖了文字,但是生成训练数据的时候就出现了丢字的问题
您好 打扰了,请问这个问题解决了嘛, 我们业务也遇到同样的问题 现在的处理逻辑,其实是用detection的标注方式,然后label_studio.py会利用paddleocr模型去进行文字识别和处理,生成符合格式的训练数据。
造成这个问题的原因是label_studio.py脚本中对字符的处理存在误差,生成的训练数据对格式需要是字符粒度的,现在处理逻辑是ocr出来后根据segment的字符和片段长度取平均算char box,因此如果存在漏识别的情况,会导致计算的char box不对。
个人觉得这部分数据标注的工作有点麻烦,后面就没继续尝试了,你可以研究下
请问 2.也可以更换ocr模型 用带char box结果的ocr模型 这里可以更换哪些模型, 我看默认的是PPocr v3的
请问 2.也可以更换ocr模型 用带char box结果的ocr模型 这里可以更换哪些模型, 我看默认的是PPocr v3的
这个我也没有继续研究了,你可以看看paddle其他开源的模型,我记得是有字符级别的
请问这里提到可以使用ocr标注 ,是使用的什么软件进行标注的?有没可以推荐参考的 ,谢谢 解决办法可以参考上面老哥的,不用detection标注,而是用ocr标注,并且修改label_studio.py脚本;
标注ocr识别可以解决
您好 ,请问这里后续使用的什么软件进行的ocr标注, 还请简单指点下 谢谢
请提出你的问题
PaddleNLP:2.5.2
训练后发现发票号码,发票代码,纳税人识别号,开户行及账号出现没有前面一段的情况,求大神指教
发票代码是1001600111,正确的应该是011001600111 少了前面的01大部分识别都是这种情况
[{'发票代码': [{'bbox': [[743, 50, 833, 66]], 'end': 172, 'probability': 0.9878436252575185, 'start': 162, 'text': '1001600111'}], '发票号码': [{'bbox': [[747, 76, 804, 89]], 'end': 185, 'probability': 0.8219516905109003, 'start': 179, 'text': '476118'}], '名称': [{'bbox': [[180, 464, 352, 477]], 'end': 18, 'probability': 0.9827283187970188, 'start': 3, 'text': '汉堡王(北京)餐饮管理有限公司'}], '开户行及账号': [{'bbox': [[160, 527, 326, 542]], 'end': 102, 'probability': 0.9258128435754038, 'start': 81, 'text': '090945000120107016730'}], '开票日期': [{'bbox': [[730, 98, 841, 112]], 'end': 201, 'probability': 0.9958832845329937, 'start': 190, 'text': '2016年05月16日'}], '纳税人识别号': [{'bbox': [[171, 484, 289, 499]], 'end': 40, 'probability': 0.8911400524124247, 'start': 27, 'text': '0113693200784'}], '货物或应税劳务、服务名称': [{'bbox': [[52, 263, 99, 278]], 'end': 134, 'probability': 0.999429126010412, 'relations': {'单价': [{'bbox': [[554, 264, 612, 275]], 'end': 144, 'probability': 0.989352621185791, 'start': 135, 'text': '22.640000'}], '数量': [{'bbox': [[510, 264, 517, 275]], 'end': 135, 'probability': 0.9875362671468935, 'start': 134, 'text': '1'}], '税率': [{'bbox': [[758, 262, 781, 277]], 'end': 151, 'probability': 0.9964163436943494, 'start': 149, 'text': '6%'}], '税额': [{'bbox': [[870, 262, 897, 277]], 'end': 155, 'probability': 0.9939586844504085, 'start': 151, 'text': '1.36'}], '金额': [{'bbox': [[694, 262, 729, 276]], 'end': 149, 'probability': 0.9977329160697508, 'start': 144, 'text': '22.64'}]}, 'start': 130, 'text': '餐饮服务'}]}]