opconty / pytorch_ctpn

This is a pytorch implementation of CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network). You may want to finetune from: https://drive.google.com/open?id=1JHhI4sEIXfs5gDa1I9AgJBY477HTzAd0
https://mp.weixin.qq.com/s/VO42GzwwJBOabpPJOWVn4g
291 stars 123 forks source link

求助大大 #28

Closed kaixinbaba closed 4 years ago

kaixinbaba commented 4 years ago

如果一个证件上只有一些文字我想要识别出来,而对其他对文本内容我不关心的话,那在准备数据集标注数据时候是否也只需要标注那些我感兴趣的文字进行训练, 还有个问题,标注的时候是基于原图的尺寸的坐标,但是训练进网络的时候就会resize统一到一样的尺寸,是不是就有问题?在标注的时候就要把图像都整理成统一的大小?

opconty commented 4 years ago

抱歉这么晚回复。 都需要标注的。 resize到同样的尺寸有很多方法,比如直接resize,这样的话横纵比会有变化;还可以随机裁剪出指定的大小;或者使用填充方式,后两种方式可以保证文字不会变形。

kaixinbaba commented 4 years ago

谢谢大佬的回复, resize到同样的尺寸有很多方法,比如直接resize,这样的话横纵比会有变化;还可以随机裁剪出指定的大小;或者使用填充方式,后两种方式可以保证文字不会变形。

大佬这句话的意思是确认 在标注前需要把图片尺寸统一的意思吗? 害怕大佬没看懂我要表达的意思,我再说一遍 我的疑问是 我需要自己去标注一些训练集,但是原图尺寸不是一致的因为都是客户上传的照片有大有小, 我需要去标注这些照片上的一些矩形框 问题是需不需要在标注前先把所有的图片处理成统一的尺寸?还是直接标注?

opconty commented 4 years ago

标注的时候保持原始尺寸就好了,只有在训练或者inference的时候才需要resize的

kaixinbaba commented 4 years ago

好的谢谢