lanfeng4659 / STR-TDSL

79 stars 6 forks source link

关于数据集 #5

Open xiaoyu2018 opened 2 years ago

xiaoyu2018 commented 2 years ago

您好,可以上传一下您论文中提到的几个数据集吗:Coco-Text Retrieval、Multi-lingual Scene Text 5k、Chinese Street View Text Retrieval

lhl2xju commented 1 year ago

您好,您获得了这些数据集吗,如果可以的话,您能发给我一份吗?非常感谢您的慷慨

xiaoyu2018 commented 1 year ago

俺也没有🥲

lanfeng4659 commented 1 year ago

CSVTR之前已经在readme提供了下载链接。

CTR的数据集下载链接已经上传到repo。 MLT-5k就是MLT2017的子集,子集的提取code已经放到repo,把原始数据集(MLT17)放到datasets路径即可。

lhl2xju commented 1 year ago

数据集已经可以下载了,根据作者提供的训练好的模型我在SVT上做了简单的测试,但是当我要训练的时候发现没有示范的用于训练配置文件,我去看了模型的加载部分,发现only_retrieval会返回损失,但是没有使用FCOS模型,only_retrieval=False时,使用了FCOS模型,但是却不返回损失,我不知道该如何训练网络,希望作者解惑,非常感谢

lanfeng4659 commented 1 year ago

您好,相关问题解答如下: 1)only_retrieval 是指在crop好的图像上做检索,没有检测网络,所以没有FCOS 2)代码裁剪了训练流程,这是测试的代码, 3)受公司权限问题,训练代码暂时没公开。但是按照论文的介绍,复现不难,有些最新文章已经实现了论文的一些实验。

On Mar 19, 2023, at 4:16 PM, lhl2xju @.***> wrote:

数据集已经可以下载了,根据作者提供的训练好的模型我在SVT上做了简单的测试,但是当我要训练的时候发现没有示范的用于训练配置文件,我去看了模型的加载部分,发现only_retrieval会返回损失,但是没有使用FCOS模型,only_retrieval=False时,使用了FCOS模型,但是却不返回损失,我不知道该如何训练网络,希望作者解惑,非常感谢

— Reply to this email directly, view it on GitHub https://github.com/lanfeng4659/STR-TDSL/issues/5#issuecomment-1475146700, or unsubscribe https://github.com/notifications/unsubscribe-auth/AG6LQTIP3375R6XKZJG2RFLW426FPANCNFSM5MTGN4HA. You are receiving this because you commented.

lhl2xju commented 1 year ago

非常感谢作者解惑

lhl2xju commented 1 year ago

作者您好,我真在尝试为您团队建立的模型(STR-TDSL)添加训练部分,我看了检测头FCOS在训练阶段的返回,neck返回6个特征图,检测头使用后五个,但是不知道RoIAlign映射时却只是使用了前三个特征图,如果是训练,在筛选回归框时会使用到centerness这个返回值吗?希望作者解惑,非常感谢

lhl2xju commented 1 year ago

作者您好,我看了测试部分代码,在训练时,我可以直接使用FCOS的后处理方法来返回一些回归框吗?因为我想到训练和测试都需要Pooling。

lanfeng4659 commented 1 year ago

测试的时候,用fcos的测试流程返回检测框;训练的时候,用gt的框来训练检索head,因为训练的时候预测的box框不准,包含大量噪声,影响相似度学习

发件人:"lhl2xju" @.> 发送日期:2023-03-21 12:36:34 收件人:"lanfeng4659/STR-TDSL" @.> 抄送人: 主 题:Re: [lanfeng4659/STR-TDSL] 关于数据集 (Issue #5)

作者您好,我看了测试部分代码,在训练时,我可以直接使用FCOS的后处理方法来返回一些回归框吗?因为我想到训练和测试都需要Pooling。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

lhl2xju commented 1 year ago

非常感谢您的回复

lhl2xju commented 1 year ago

作者您好,我根据only_retrieval、测试部分的代码和您的提示,添加了简单的训练代码,现在能够训练,但是我对is_word这个参数不太理解,还有就是如果训练一直全部使用gt框训练,但是测试时的预测框不可能和gt一样,这样是不是局限了图编码头,我看到了一个box_aug的参数 这是对gt框进行增强以增强图编码头鲁棒性的参数吗?

lanfeng4659 commented 1 year ago

1)box_aug不起作用,不用管它。 2)检测收敛到最后,在众多proposal里面一般都会存在一个proposal会紧密包裹文字实例。所以一直用gt训练,就是让模型学着去匹配最佳proposal。我尝试过类似faster-rcnn的方案,给预测的proposal和gt匹配,赋予其label,然后再用预测的proposal去训练检索head,发现有稍许性能下降,但是影响不大。所以最终索性采用简单的gt方式来训练了。

On Mar 22, 2023, at 12:25 PM, lhl2xju @.***> wrote:

作者您好,我根据only_retrieval、测试部分的代码和您的提示,添加了简单的训练代码,现在能够训练,但是我对is_word这个参数不太理解,还有就是如果训练一直全部使用gt框训练,但是测试时的预测框不可能和gt一样,这样是不是局限了图编码头,我看到了一个box_aug的参数 这是对gt框进行增强以增强图编码头鲁棒性的参数吗?

— Reply to this email directly, view it on GitHub https://github.com/lanfeng4659/STR-TDSL/issues/5#issuecomment-1478902220, or unsubscribe https://github.com/notifications/unsubscribe-auth/AG6LQTLJTBTQZQN2PL6WCYTW5J5NJANCNFSM5MTGN4HA. You are receiving this because you commented.

lhl2xju commented 1 year ago

非常感谢您的回复

lhl2xju commented 1 year ago

python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 32 leaked semaphores to clean up at shutdown len(cache)) 作者您好,我遇到了这个问题,在网上查了也没有解决掉,这让我的脚本无法开始训练,我kill了我所有进程再运行也不行,您遇到过这个问题吗?

lhl2xju commented 1 year ago

作者您好,这几天我一直在找上面那个问题的原因,虽然没有直接解决问题,但是现在程序已经能正常训练和测试,并且测试的结果也符合预期,非常感谢您的多次解惑。

thexf commented 1 year ago

@lhl2xju 你好,可以分享一下复现的训练代码吗

lhl2xju commented 1 year ago

https://github.com/Dec30th/VSTR

这篇论文有复现的训练代码,但是作者还没有整理完成,你可以参考
lhl2xju commented 1 year ago

@thexf

thexf commented 1 year ago

@lhl2xju 感谢!