Closed TrioTea closed 1 week ago
请问你的数据集数据量大概有多少呀,表格识别任务本身很难,数据量太少的话确实容易训出0来,示例数据集仅是用来展示数据集结构的
请问你的数据集数据量大概有多少呀,表格识别任务本身很难,数据量太少的话确实容易训出0来,示例数据集仅是用来展示数据集结构的
您好,我的train.txt大约800张数据,val.txt大约200张数据
我目前尝试使用以下命令进行训练,依旧没有发现acc有改变,我使用的显卡是两张Tesla T4
python main.py -c paddlex/configs/table_recognition/SLANet_plus.yaml \
-o Global.mode=train \
-o Global.dataset_dir=./dataset/total \
-o Global.device=gpu:0,1 \
-o Train.epochs_iters=1000 \
-o Train.learning_rate=0.0001 \
-o Train.batch_size=40 \
-o Train.pretrain_weight_path=https://paddleocr.bj.bcebos.com/pretrained/ch_PP-StructrureV2_SLANet_plus_trained.pdparams\
-o Train.eval_interval=20 \
-o Train.save_interval=20
@liu-jiaxuan 使用飞桨在线体验进行训练,发现acc可以很快上升。 在线训练的过程,输出日志中出现,尝试将CUDA版本更换为11.8,问题依旧未解决;但是在线训练平台使用的paddle似乎是2.5.2,不知道是不是和这个有关?我也尝试一下看看
2024-11-07 14:48:48,792 - pp-pipeline-exec - INFO - [2024/11/07 14:48:48] ppocr INFO: train with paddle 2.5.2 and device Place(gpu:0)
2024-11-07 14:48:48,792 - pp-pipeline-exec - INFO - [2024/11/07 14:48:48] ppocr INFO: Initialize indexs of datasets:['/home/aistudio/data/car_table/train.txt']
2024-11-07 14:48:48,815 - pp-pipeline-exec - INFO - [2024/11/07 14:48:48] ppocr INFO: Initialize indexs of datasets:['/home/aistudio/data/car_table/val.txt']
2024-11-07 14:48:48,831 - pp-pipeline-exec - INFO - W1107 14:48:48.830576 165 gpu_resources.cc:119] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 12.0, Runtime API Version: 11.8
2024-11-07 14:48:48,832 - pp-pipeline-exec - INFO - W1107 14:48:48.832173 165 gpu_resources.cc:149] device: 0, cuDNN Version: 8.9.
好的,我们也尝试复现下这个问题~
您好,请问这个问题有解决吗?
您好,请问这个问题有解决吗?
暂时还没有解决
问题已通过PR修复,可以等合并后再试试~
描述问题
参照表格结构识别模块使用教程训练模型,无论是使用demo数据集,还是自有数据集,进行训练时,准确率一直为0。
参照文本检测模块使用教程,使用demo数据集,发现准确率不为0
复现
我使用docker和Wheel均安装了paddleX,问题表现一致
未修改代码内容,仅调整运行配置,使用一下命令进行训练
表格结构识别模块使用教程中的demo数据集及自建数据集
环境
paddlepaddle-gpu==3.0.0b1 PaddleX v3.0-beta1
Linux 【centos7】
3.10
12.3