怎样制作训练数据集啊？

10183308 commented 6 years ago

大神你好，怎样来制作数据集啊？

mjq11302010044 commented 6 years ago

可以先标注任意四边形，然后拟合成带角度的矩形送入网络进行训练。

10183308 commented 6 years ago

非常感谢你的答复，可否能给个格式介绍吗？比如是什么文件类型，是xml吗？里面的数据类型是啥样子的？

非常感谢，祝一切顺利		huchao.999 邮箱：huchao.999@163.com

签名由网易邮箱大师定制

在2018年01月15日 22:03，mjq11302010044 写道：

可以先标注任意四边形，然后拟合成带角度的矩形送入网络进行训练。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

mjq11302010044 commented 6 years ago

@10183308 没有具体的格式，预处理的代码可能需要自己写，具体的示例在lib/data/data_extractor.py里有

10183308 commented 6 years ago

你好，在lib下面，我没有找到相关的data_extractor.py 的文件，可否给一点建议。

非常感谢

mjq11302010044 commented 6 years ago

@10183308 抱歉，我打错了，应该是在 lib/rotation/data_extractor.py下面

10183308 commented 6 years ago

请问一下，这里的batchsize 一直是1 ，这里可以提高batchsize 值的大小？

谢谢了

在 2018-01-16 12:31:04，"mjq11302010044" notifications@github.com 写道：

@10183308 抱歉，我打错了，应该是在 lib/rotation/data_extractor.py下面

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

mjq11302010044 commented 6 years ago

@10183308 caffe暂时不支持batch_size大于1的输入，py-faster-rcnn的锅，之后我们可能会在tensorflow上尝试重现一下RRPN :)

YanShuang17 commented 6 years ago

@10183308 或许你可以使用这个标注工具roLabelImg来制作训练集，输出的annotation是标准的xml格式，后面转换成MSRA TD500的格式就简单了。

lihui52 commented 6 years ago

@YanShuang17 roLabelImg 标注带角度的物体，请问是不是角度有问题？

YanShuang17 commented 6 years ago

@lihui52 你是直接下载的编译好的版本吗？编译好的版本你仔细看其链接，其实就是LabelIng工具，所以没角度。你应该下载源代码自己编译安装。

lihui52 commented 6 years ago

@YanShuang17 你好，我下载好自己编译了，但是感觉角度计算出来是错误的，标了几个都是两度多。。。，您有遇到这个问题吗？谢谢

YanShuang17 commented 6 years ago

@lihui52 你好，利用roLabelImg标注工具得到的旋转包围框的angle信息有以下特征： 1 单位是弧度； 2 以水平位置为分界(未旋转时)，当包围框框顺时针倾斜时，角度是正的，没问题；但是当包围框框逆时针倾斜时，正确的角度angle应该是负值，但是.xml文件中的值=pi-|angle|。根据我的使用观察应该是这样。

19931991 commented 6 years ago

你好我把ICDAR2015的数据转化为了如下格式，请问这样的格式再转化为lmdb，请问这种数据格式对吗？不知是否方便加个ｑｑ：1323369151，非常感谢！＠YanShuang17＠lihui52

mjq11302010044 commented 6 years ago

@19931991 我们这里需要编写一些代码来组织训练数据的，具体的例子参见 lib/rotation/data_extractor.py，在github的readme上也有说明。

19931991 commented 6 years ago

我看了那个代码，没太看懂，属于菜鸟那种。。。简单的想知道我生成的这种xml格式对不对，适用于rrpn吗？还有就是最终送入网络的是lmdb数据吗?还是leveldb的？希望您能解答一下我的疑惑，万分感谢！@mjq11302010044

mjq11302010044 commented 6 years ago

@19931991 很抱歉，我们这个框架暂时还不支持LMDB的输入，所以暂时只能够通过自己创建函数来组织训练数据。但是在lib/rotation/data_extractor.py里已经有示例代码，可以先初步照着里面的代码改改看 :)

gittigxuy commented 6 years ago

@mjq11302010044 ,根据你的data_extractor.py文件，里面涉及到了ICDAR2017_mlt的数据集，可否分享一下数据集的链接？我没有找到这个数据集。根据你上面说的不支持lmdb格式的输入，那么就是不能通过将label文件转化为voc格式来制作数据集了吗？

mjq11302010044 commented 6 years ago

@gittigxuy 数据集在ICDAR2017的官网可以下载，对每个数据集因为需要组织成固定格式，所以我们有自己写的数据解析函数。针对不同的训练方式也可以写成不同的数据组织形式。按需求来定。

mjq11302010044 / RRPN

怎样制作训练数据集啊？ #10