buptlihang / CDLA

CDLA: A Chinese document layout analysis (CDLA) dataset
238 stars 29 forks source link

托管到Hugging Face #9

Open SWHL opened 3 months ago

SWHL commented 3 months ago

感谢作者工作! 由于最近也在做相关方面工作,顺手将该数据集托管到了Hugging Face,便于大家后续使用吧

详情参见: https://huggingface.co/datasets/SWHL/CDLA

使用方式为:

from datasets import load_dataset

dataset = load_dataset("SWHL/CDLA")

train_data = dataset["train"]
print(train_data[0])

val_data = dataset["validation"]
print(val_data[0])

# {'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1240x1754 at 0x12FEE3DF0>,
# 'version': '4.5.6', 'flags': {},
# 'shapes': [
#     {'label': 'Header', 'points': [[118.0, 135.66666666666669]], 'group_id': None, 'shape_type': 'polygon', 'flags': {}}
# ],
# 'imagePath': 'train_0001.jpg', 'imageData': None, 'imageHeight': 1754, 'imageWidth': 1240}
ailma commented 3 months ago

您好,SWHL,之前做文本矫正的时候看过你的paperedge,感觉很棒。很巧的是,我最近也在做pdf版面分析。我计划批量生成一些pdf版面分析的数据集。有机会持续交流一下。

SWHL commented 3 months ago

你好,巧了巧了,我最近也在做。邮箱联系我吧,期待与你交流。 我的邮箱是liekkaskono@163.com

ailma commented 3 months ago

hi,方便加个联系方式吗,我的微信是Doitcp。如果加不了,您可以留下您的联系方式

---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年05月09日 15:28 | | 收件人 | buptlihang/CDLA @.> | | 抄送人 | ailma @.>, Comment @.> | | 主题 | Re: [buptlihang/CDLA] 托管到Hugging Face (Issue #9) |

你好,巧了巧了,我最近也在做。邮箱联系我吧,期待与你交流。 @.***

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

SWHL commented 3 months ago

刚搜了,没有搜到。方便的话,留下你的邮箱吧,我邮箱联系你。