Rid7 / Table-OCR

Recognize tables from images and restore them into word.
GNU General Public License v3.0
269 stars 70 forks source link

你好,关于数据集有一个小疑问 #10

Open daaidouya opened 4 years ago

daaidouya commented 4 years ago

我看你的Unet部分的数据集的标注方式是横、竖线一起标注的,我也在实验Unet这个方法,但是不是分开训练似乎效果更好?

Rid7 commented 4 years ago

我看你的Unet部分的数据集的标注方式是横、竖线一起标注的,我也在实验Unet这个方法,但是不是分开训练似乎效果更好?

就分割而言我觉得关系不是非常大,应该就是一个二分类转换为三分类问题。但是分开训练有一个好处,两个类别取交点非常方便,不用再opencv检测横竖线了。 我当时是因为pdf解析只有line这种形式,没有区分横竖,也没有想办法区别标注时候的数据(其实也很简单,当时就是懒),区分横竖线确实是更优越的做法。