关于icdar13数据集label转换问题 - Githubissues

ying09 / TextFuseNet

A PyTorch implementation of "TextFuseNet: Scene Text Detection with Richer Fused Features".

MIT License

475 stars 122 forks source link

关于icdar13数据集label转换问题 #86

Open weiren1998 opened 2 years ago

weiren1998 commented 2 years ago

作者您好，首先非常感谢您的开源工作，目前正在尝试复现您的结果，但是中间出现了一些关于数据集的问题，还望解答，谢谢。

在转换icdar13的GT文件转为json的过程中，是需要把icdar13中的task2.1和task2.2的数据同时转换到json的annotations中吗？
在转换icdar13中GT文件过程中，请问您一共定义了多少类？因为我看到您给的demo里，只有“text”，“0-9”，“a-z”,"A-Z"。但是自己在处理txt数据时发现，icdar13task2.2中training的GT.txt中，标注了例如“！”，“<”等符号，请问一下这些类别需要转化到json中用于训练吗？
在转换icdar13中GT文件过程中，请问一下针对于task2.1中的单词的segmentation您是如何定义的？同样的，task2.2中字符的segmentation您是如何定义的？（前者是bbox的四个顶点坐标吗？后者也是四个顶点坐标吗？）（ps. 如果方便的话可以将您数据转化的脚本分享一下么？）

再次感谢，期待您的回复