MhLiao / DB

A PyTorch implementation of "Real-time Scene Text Detection with Differentiable Binarization".
2.1k stars 479 forks source link

Accuracy discussion for ICDAR 2015 dataset #186

Open xisi789 opened 4 years ago

xisi789 commented 4 years ago

height:1152,得到精度如下: image

训练指令: CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py /storage03/users/xisi/code/ocr/detection/DB/experiments/seg_detector/ic15_resnet50_deform_thre.yaml --num_gpus 4 --resume /storage03/users/xisi/code/ocr/detection/DB/models/pre-trained-model-synthtext-resnet50

yaml配置: image

shaohailin commented 3 years ago

@lurmos 在icdar2015数据集上始终没达到论文的结果 分别用synthtext数据集、IC17数据集都做了 都不行

lurmos commented 3 years ago

@lurmos 目前为止我本人没有在ICDAR2015数据集上复现出结果

到目前为止我也没有复现出ICDAR2015数据集上的结果

johnsonkee commented 3 years ago

@xisi789 我使用作者提供的MLT预训练模型,F-score大概为84.5,比论文中低了大概一个点,你复现之后低了几个点呢

xisi789 commented 3 years ago

@johnsonkee 我也是84.5左右

jingzhang0909 commented 3 years ago

@MhLiao @johnsonkee @xisi789 急求各位大佬 请问你们有试过不用resume pretrain吗?需要修改哪些参数呢? 我尝试用下面命令行训练: CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python3.7 train.py experiments/seg_detector/ic15_resnet50_deform_thre.yaml --num_gpus 8 得到l1_loss如下图 image 但是最后三个指标都是0 image

johnsonkee commented 3 years ago

@jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777

jingzhang0909 commented 3 years ago

@jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777

多谢Johnson,请问从头训练,有没有先训练SynthText?

WayoSunny commented 3 years ago

你好,我用MLT的预训练模型,batch缩小一半,单卡2080Ti跑,736尺寸下f-measure是83.7 ; 1152尺寸下f-measure是86.7

-- 发自我的网易邮箱平板适配版

在 2021-04-08 20:15:39,jingzhang0909 @.***> 写道:

@jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777 多谢Johnson,请问从头训练,有没有先训练SynthText? — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

jingzhang0909 commented 3 years ago

你好,我用MLT的预训练模型,batch缩小一半,单卡2080Ti跑,736尺寸下f-measure是83.7 ; 1152尺寸下f-measure是86.7 -- 发自我的网易邮箱平板适配版 在 2021-04-08 20:15:39,jingzhang0909 @.***> 写道: @jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777 多谢Johnson,请问从头训练,有没有先训练SynthText? — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

多谢提供信息

johnsonkee commented 3 years ago

没有,没有训练synthtext,直接在icdar15上训练的

---Original--- From: @.> Date: Thu, Apr 8, 2021 20:15 PM To: @.>; Cc: @.**@.>; Subject: Re: [MhLiao/DB] Accuracy discussion for ICDAR 2015 dataset (#186)

@jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777

多谢Johnson,请问从头训练,有没有先训练SynthText?

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

jingzhang0909 commented 3 years ago

没有,没有训练synthtext,直接在icdar15上训练的 ---Original--- From: @.> Date: Thu, Apr 8, 2021 20:15 PM To: @.>; Cc: @.**@.>; Subject: Re: [MhLiao/DB] Accuracy discussion for ICDAR 2015 dataset (#186) @jingzhang0909 嗨,我尝试不使用预训练模型从头开始训练,4卡,使用的脚本和你一样。最后得到的模型三个指标分别为:p=0.88, r=0.694, f=0.777 多谢Johnson,请问从头训练,有没有先训练SynthText? — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

多谢多谢!我这个输出可能是8卡的关系,或者注释掉了load_url,请问你有注释掉resnet.py-->deformable_resnet50下的load_url吗?训练太漫长了哈哈,多问两句

jingzhang0909 commented 3 years ago

@xisi789 我使用作者提供的MLT预训练模型,F-score大概为84.5,比论文中低了大概一个点,你复现之后低了几个点呢

image 昨天用mlt,8卡训练结果

RubanSeven commented 3 years ago

我只做了resnet50 td500的实验,论文里p91.5 r79.2 f84.9 我自己跑的结果是p89.0 r80.8 f84.7 我的结果与论文差不多

@Luowenli1996

你好,请问你用了多少张显卡,batch_size设置的多少呢?是否做过什么改动?

BUG12344 commented 2 years ago

你好请问你解决标注问题了吗

ming-eng commented 2 years ago

难定 啊

ming-eng commented 2 years ago

假如不适用预训练最后的ic15在resnet50的结果是多少嘞 为什么我这三个指标都是0

tianmingguxiang commented 1 year ago

您好,不介意的话能私发我一份TD500训练和测试的GT么?@xisi789

你好,请问你跑TD500的时候采用的是什么环境呢,是按照torch=1.2.0的吗,可以交流一下吗,我QQ是2690482677,我按照github官网的环境要求安装的,指令是CUDA_VISIBLE_DEVICES=0 python train.py --resume ./pre-trained-model-synthtext-resnet50 experiments/seg_detector/td500_resnet50_deform_thre.yaml --num_gpus 1 ,在2080Ti上跑,batch设置8,其他没有变,得到的F值只有0.80,和论文相差很大