chineseocr / trocr-chinese

transformers ocr for chinese
338 stars 53 forks source link

您好,请教一下您给的数据集的实例的问题 #45

Open laoma1234567 opened 9 months ago

laoma1234567 commented 9 months ago
dataset/cust-data/0/0.jpg
dataset/cust-data/0/0.txt
...
dataset/cust-data/100/10000.jpg
dataset/cust-data/100/10000.txt

这是您给的数据集样例,我现在已经把手写公式数据集进行了.jpg和.txt的拆分,分别放在train_images和labels的文件夹下,现在有个问题,我想请教您,这里,您是要求数据集的文件夹有一层序号0~100的文件夹,对吧,那么里面的比如.jpg和.txt是否只能填写一对,还是可以放置若干对呢?非常期待您的答复。

laoma1234567 commented 9 months ago
python gen_vocab.py \
       --dataset_path "dataset/cust-data/0/*.txt" \
       --cust_vocab ./cust-data/vocab.txt

另外还有一个问题,如果我的0文件夹下只存储一个.txt文件,那么我的gen_vocab那不就只能生成这个文件对应的vocab么?所以说实际上0文件夹下可以保存多个文件对吧?而且不同的0-100可以存储不同的数据集对吗?