ziwang1121 / IEEE

[AAAI 2022] Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification.
MIT License
21 stars 1 forks source link

Training for Cross-modality? #4

Open 924973292 opened 1 year ago

924973292 commented 1 year ago

I would like to know the details of cross-modal training, is there any relevant training code that is responsible for performing this part?

截屏2023-08-20 17 34 35
ziwang1121 commented 12 months ago

Datasets download link: https://drive.google.com/file/d/1PQ78O0Pxi4pGEfRN2NkQ0ItF6EIoBxjq/view?usp=drive_link The usage of the dataset is similar to RegDB, and the corresponding file path in the code needs to be changed. Take the RGB-TI for example, your should use the "idx/train_R.txt" and "idx/train_T.txt" for training, use the "idx/test_R.txt" (query) and "idx/test_T.txt" (gallery) for testing. The accuracy reproduced on new devices and environments may be slightly different from the accuracy reported in the paper (1080Ti, pytorch 1.8.0).

924973292 commented 12 months ago

Thanks!!!

924973292 commented 11 months ago

您好,很抱歉再次打扰您,上次询问您关于跨模态训练的相关事情,现在我有一个疑惑的问题就是为什么RGB检索NI和NI检索RGB时候的效果是一样的呢?正常来讲这个不应该是不一致的么,测试过程中RGB检索NI的时候,query应该是只有RGB图像输入吧,数据的具体流向是什么呢?

截屏2023-09-02 10 32 48
924973292 commented 11 months ago

除此之外,我还观察到您的另一篇论文里,这里的跨模态下的对比结果:

截屏2023-09-02 11 03 43 截屏2023-09-02 11 04 42

为什么跨模态下的检索结果和缺失模态的检索结果是一致的呢? 这里的缺失模态时用的应该是全模态下的训练网络,然后在测试时重建缺失模态完成后续融合从而获得一致的表征来进行检索的吧? 那么在表2缺失NIR的情况下,您的RGB to TIR的结果和表1中的结果一致,代表应该是您的真实输入是有RGB和TIR吧,但是这样的话,query里不就输入的是rgb和tir了么,这样和跨模态的setting是一致的吗? 同样的问题是否出现在IEEE这篇论文的跨模态检测中呢?

ziwang1121 commented 11 months ago

感谢您的细致阅读与提问。

  1. 为什么RGB检索NI和NI检索RGB时候的效果是一样的? 这张表中将Ours与其他方法对比其实并不是十分公平,因为Ours是多模态输入(query与gallery都是RGB+NI,如第一列说明的“Multi-modal”),而对比的方法是跨模态设定(query是RGB或NI,gallery是另一个模态,标注为“Cross-modal”)。从数据量来说我们就先天多一倍的训练数据与测试数据,也属于两类reid方法与框架。

额外说明:这个实验是有人指出不需要多模态,现有的跨模态方法可以很好解决不同模态输入的问题。为了验证多模态数据在某些情况下能够提供更多互补信息,而跨模态(缺少部分数据时)可能因为巨大模态差异导致检索不准确,我们增加了这个实验。

  1. 数据的具体流向是什么呢? 以RGB-NI为例:

跨模态: (1)query:RGB,gallery:NI (2)query:NI,gallery:RGB

Ours(多模态): query:RGB+NI,gallery:RGB+NI

------------------ 原始邮件 ------------------ 发件人: "littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID" @.>; 发送时间: 2023年9月2日(星期六) 上午10:43 @.>; @.**@.>; 主题: Re: [littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID] Training for Cross-modality? (Issue #4)

您好,很抱歉再次打扰您,上次询问您关于跨模态训练的相关事情,现在我有一个疑惑的问题就是为什么RGB检索NI和NI检索RGB时候的效果是一样的呢?正常来讲这个不应该是不一致的么,测试过程中RGB检索NI的时候,query应该是只有RGB图像输入吧,数据的具体流向是什么呢?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

ziwang1121 commented 11 months ago

感谢您的提问,从您的文字中我认为您的理解是正确的。

我们的query里输入的是rgb和tir,跟跨模态设定不一致。这个设定同样出现在IEEE论文与跨模态方法检测的实验中。

对于跨模态领域研究者来说,多模态数据集的意义是提供了一个新的跨模态测试数据集,我们的方法与跨模态并没有直接对比的必要。具体实验设定原因可见另一个问题回答。

由于篇幅原因我们对这个实验的设定表述不是特别准确,或者这种实验设定让您混淆了,十分抱歉。您真的十分细心,并且的理解都是对的。

------------------ 原始邮件 ------------------ 发件人: "littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID" @.>; 发送时间: 2023年9月2日(星期六) 中午11:12 @.>; @.**@.>; 主题: Re: [littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID] Training for Cross-modality? (Issue #4)

除此之外,我还观察到您的另一篇论文里,这里的跨模态下的对比结果:

为什么跨模态下的检索结果和缺失模态的检索结果是一致的呢? 这里的缺失模态时用的应该是全模态下的训练网络,然后在测试时重建缺失模态完成后续融合从而获得一致的表征来进行检索的吧? 那么在表2缺失NIR的情况下,您的RGB to TIR的结果和表1中的结果一致,代表应该是您的真实输入是有RGB和TIR吧,但是这样的话,query里不就输入的是rgb和tir了么,这样和跨模态的setting是一致的吗? 同样的问题是否出现在IEEE这篇论文的跨模态检测中呢?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

ziwang1121 commented 11 months ago

如果您有兴趣继续了解或仍存在疑问,可以用私人邮箱给我发邮件,我们可以通过其他方式细致沟通与交流。 github我看不到您的具体信息 :)

------------------ 原始邮件 ------------------ 发件人: "littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID" @.>; 发送时间: 2023年9月2日(星期六) 中午11:12 @.>; @.**@.>; 主题: Re: [littleprince1121/IEEE_Boosting_Modality-specific_Representations_for_Multi-Modal_Person_ReID] Training for Cross-modality? (Issue #4)

除此之外,我还观察到您的另一篇论文里,这里的跨模态下的对比结果:

为什么跨模态下的检索结果和缺失模态的检索结果是一致的呢? 这里的缺失模态时用的应该是全模态下的训练网络,然后在测试时重建缺失模态完成后续融合从而获得一致的表征来进行检索的吧? 那么在表2缺失NIR的情况下,您的RGB to TIR的结果和表1中的结果一致,代表应该是您的真实输入是有RGB和TIR吧,但是这样的话,query里不就输入的是rgb和tir了么,这样和跨模态的setting是一致的吗? 同样的问题是否出现在IEEE这篇论文的跨模态检测中呢?

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

924973292 commented 11 months ago

感谢您的细致回答!!!这是我收到过最认真负责的回答,我目前也在研究该方向,我后续会通过邮箱跟您交流相关经验!十分感谢!