关于数据集 - Githubissues

xiaoyu2018 commented 2 years ago

您好，可以上传一下您论文中提到的几个数据集吗：Coco-Text Retrieval、Multi-lingual Scene Text 5k、Chinese Street View Text Retrieval

lhl2xju commented 1 year ago

您好，您获得了这些数据集吗，如果可以的话，您能发给我一份吗？非常感谢您的慷慨

xiaoyu2018 commented 1 year ago

俺也没有🥲

lanfeng4659 commented 1 year ago

CSVTR之前已经在readme提供了下载链接。

CTR的数据集下载链接已经上传到repo。 MLT-5k就是MLT2017的子集，子集的提取code已经放到repo，把原始数据集（MLT17）放到datasets路径即可。

lhl2xju commented 1 year ago

数据集已经可以下载了，根据作者提供的训练好的模型我在SVT上做了简单的测试，但是当我要训练的时候发现没有示范的用于训练配置文件，我去看了模型的加载部分，发现only_retrieval会返回损失，但是没有使用FCOS模型，only_retrieval=False时，使用了FCOS模型，但是却不返回损失，我不知道该如何训练网络，希望作者解惑，非常感谢

lanfeng4659 commented 1 year ago

您好，相关问题解答如下： 1）only_retrieval 是指在crop好的图像上做检索，没有检测网络，所以没有FCOS 2）代码裁剪了训练流程，这是测试的代码， 3）受公司权限问题，训练代码暂时没公开。但是按照论文的介绍，复现不难，有些最新文章已经实现了论文的一些实验。

On Mar 19, 2023, at 4:16 PM, lhl2xju @.***> wrote:

数据集已经可以下载了，根据作者提供的训练好的模型我在SVT上做了简单的测试，但是当我要训练的时候发现没有示范的用于训练配置文件，我去看了模型的加载部分，发现only_retrieval会返回损失，但是没有使用FCOS模型，only_retrieval=False时，使用了FCOS模型，但是却不返回损失，我不知道该如何训练网络，希望作者解惑，非常感谢

— Reply to this email directly, view it on GitHub https://github.com/lanfeng4659/STR-TDSL/issues/5#issuecomment-1475146700, or unsubscribe https://github.com/notifications/unsubscribe-auth/AG6LQTIP3375R6XKZJG2RFLW426FPANCNFSM5MTGN4HA. You are receiving this because you commented.

lhl2xju commented 1 year ago

非常感谢作者解惑

lhl2xju commented 1 year ago

作者您好，我真在尝试为您团队建立的模型（STR-TDSL）添加训练部分，我看了检测头FCOS在训练阶段的返回，neck返回6个特征图，检测头使用后五个，但是不知道RoIAlign映射时却只是使用了前三个特征图，如果是训练，在筛选回归框时会使用到centerness这个返回值吗？希望作者解惑，非常感谢

lhl2xju commented 1 year ago

作者您好，我看了测试部分代码，在训练时，我可以直接使用FCOS的后处理方法来返回一些回归框吗？因为我想到训练和测试都需要Pooling。

lanfeng4659 commented 1 year ago

测试的时候，用fcos的测试流程返回检测框；训练的时候，用gt的框来训练检索head，因为训练的时候预测的box框不准，包含大量噪声，影响相似度学习

发件人："lhl2xju" @.> 发送日期：2023-03-21 12:36:34 收件人："lanfeng4659/STR-TDSL" @.> 抄送人：主题：Re: [lanfeng4659/STR-TDSL] 关于数据集 (Issue #5)

作者您好，我看了测试部分代码，在训练时，我可以直接使用FCOS的后处理方法来返回一些回归框吗？因为我想到训练和测试都需要Pooling。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

lhl2xju commented 1 year ago

非常感谢您的回复

lhl2xju commented 1 year ago

作者您好，我根据only_retrieval、测试部分的代码和您的提示，添加了简单的训练代码，现在能够训练，但是我对is_word这个参数不太理解，还有就是如果训练一直全部使用gt框训练，但是测试时的预测框不可能和gt一样，这样是不是局限了图编码头，我看到了一个box_aug的参数这是对gt框进行增强以增强图编码头鲁棒性的参数吗？

lanfeng4659 commented 1 year ago

1）box_aug不起作用，不用管它。 2）检测收敛到最后，在众多proposal里面一般都会存在一个proposal会紧密包裹文字实例。所以一直用gt训练，就是让模型学着去匹配最佳proposal。我尝试过类似faster-rcnn的方案，给预测的proposal和gt匹配，赋予其label，然后再用预测的proposal去训练检索head，发现有稍许性能下降，但是影响不大。所以最终索性采用简单的gt方式来训练了。

On Mar 22, 2023, at 12:25 PM, lhl2xju @.***> wrote:

作者您好，我根据only_retrieval、测试部分的代码和您的提示，添加了简单的训练代码，现在能够训练，但是我对is_word这个参数不太理解，还有就是如果训练一直全部使用gt框训练，但是测试时的预测框不可能和gt一样，这样是不是局限了图编码头，我看到了一个box_aug的参数这是对gt框进行增强以增强图编码头鲁棒性的参数吗？

— Reply to this email directly, view it on GitHub https://github.com/lanfeng4659/STR-TDSL/issues/5#issuecomment-1478902220, or unsubscribe https://github.com/notifications/unsubscribe-auth/AG6LQTLJTBTQZQN2PL6WCYTW5J5NJANCNFSM5MTGN4HA. You are receiving this because you commented.

lhl2xju commented 1 year ago

非常感谢您的回复

lhl2xju commented 1 year ago

python3.7/multiprocessing/semaphore_tracker.py:144: UserWarning: semaphore_tracker: There appear to be 32 leaked semaphores to clean up at shutdown len(cache)) 作者您好，我遇到了这个问题，在网上查了也没有解决掉，这让我的脚本无法开始训练，我kill了我所有进程再运行也不行，您遇到过这个问题吗？

lhl2xju commented 1 year ago

作者您好，这几天我一直在找上面那个问题的原因，虽然没有直接解决问题，但是现在程序已经能正常训练和测试，并且测试的结果也符合预期，非常感谢您的多次解惑。

thexf commented 1 year ago

@lhl2xju 你好，可以分享一下复现的训练代码吗

lhl2xju commented 1 year ago

https://github.com/Dec30th/VSTR

这篇论文有复现的训练代码，但是作者还没有整理完成，你可以参考

lhl2xju commented 1 year ago

@thexf

thexf commented 1 year ago

@lhl2xju 感谢！

lanfeng4659 / STR-TDSL

关于数据集 #5