JiaquanYe / TableMASTER-mmocr

2nd solution of ICDAR 2021 Competition on Scientific Literature Parsing, Task B.
Apache License 2.0
442 stars 104 forks source link

"39 class label" or "38 class label"? #59

Open rkshuai opened 2 years ago

rkshuai commented 2 years ago

image

1、为什么会有两个一模一样的< td >< td\ >呢? 2、为什么< td >被拆分成< td和 >呢?

delveintodetail commented 2 years ago

哈哈, 其实是不一样的, 一个中间有一个空格, 一个没有空格, 这些都是当时通过观察比赛给的数据做的定制化。。。

rkshuai commented 2 years ago

哈哈, 其实是不一样的, 一个中间有一个空格, 一个没有空格, 这些都是当时通过观察比赛给的数据做的定制化。。。

可是第四列的第二个不就是带空格的吗

JiaquanYe commented 2 years ago
  1. 原意是一个是代表 td对(里头没有空格),一个代表 eb对(里头没有空格) (可以参照开源代码的structure alphabet,和data_preprocess.py中empty_bbox_token_dict的映射关系

  2. 由于colspan 和 rowspan的存在,而把其彼此分开了