Closed saicoco closed 3 months ago
你好 感谢关注我们的工作。 请问可以提供具体的训练setting吗? 无法复现可能是用了梯度累计的关系,导致对比学习的负样本数量不够。 我们的settings是在32张卡上分别用了24 micro batch size,来实现768的batch size(没有使用梯度累计) 。
另外关于flickr30k的结果,请问是怎么复现的? 我们也提供了复现的脚本,应该可以用如下的方式进行复现
accelerate launch --num_machines=1 --num_processes 8 --machine_rank 0 retrieval.py --use_e5v --data flickr30k
你好 感谢关注我们的工作。 请问可以提供具体的训练setting吗? 无法复现可能是用了梯度累计的关系,导致对比学习的负样本数量不够。 我们的settings是在32张卡上分别用了24 micro batch size,来实现768的batch size(没有使用梯度累计) 。
明白,我用的是仓库里提供的评估脚本。最后一组实验用的是8张A100, macro_batchsize是96。
有可能和梯度累积有关系,这里我再确认一下子
另外关于flickr30k的结果,请问是怎么复现的? 我们也提供了复现的脚本,应该可以用如下的方式进行复现
accelerate launch --num_machines=1 --num_processes 8 --machine_rank 0 retrieval.py --use_e5v --data flickr30k
e5v是按这个跑的,我下周再确认下代码里的细节,看是不是预处理部分导致的
另外关于flickr30k的结果,请问是怎么复现的? 我们也提供了复现的脚本,应该可以用如下的方式进行复现
accelerate launch --num_machines=1 --num_processes 8 --machine_rank 0 retrieval.py --use_e5v --data flickr30k
e5v是按这个跑的,我下周再确认下代码里的细节,看是不是预处理部分导致的
用这个跑出来的flickr30k,应该是这个结果 {'image_retrieval_recall@1': 0.7954000234603882, 'text_retrieval_recall@1': 0.8820000290870667, 'image_retrieval_recall@5': 0.9503999948501587, 'text_retrieval_recall@5': 0.9869999885559082, 'image_retrieval_recall@10': 0.9757999777793884, 'text_retrieval_recall@10': 0.9940000176429749}
发现了不一样的地方,我是用的flickr30k数据为全量级30k, 你这里数据是1k-test.包括COCO部分 我觉得需要在论文中说明测试集合的量级,像BLIP中这样描述实验
E5-V论文中的实验结果如下:
是可以标记说明下的
另外关于flickr30k的结果,请问是怎么复现的? 我们也提供了复现的脚本,应该可以用如下的方式进行复现
accelerate launch --num_machines=1 --num_processes 8 --machine_rank 0 retrieval.py --use_e5v --data flickr30k
e5v是按这个跑的,我下周再确认下代码里的细节,看是不是预处理部分导致的
用这个跑出来的flickr30k,应该是这个结果 {'image_retrieval_recall@1': 0.7954000234603882, 'text_retrieval_recall@1': 0.8820000290870667, 'image_retrieval_recall@5': 0.9503999948501587, 'text_retrieval_recall@5': 0.9869999885559082, 'image_retrieval_recall@10': 0.9757999777793884, 'text_retrieval_recall@10': 0.9940000176429749}
替换flickr30-1k-test后,测试效果如下: {'image_retrieval_recall@1': 0.7960000038146973, 'text_retrieval_recall@1': 0.8799999952316284, 'image_retrieval_recall@5': 0.9503999948501587, 'text_retrieval_recall@5': 0.9860000014305115, 'image_retrieval_recall@10': 0.9760000109672546, 'text_retrieval_recall@10': 0.9940000176429749} flickr30k: 0.9504 0.9860
llava-next-8b-hf的测试结果是: {'image_retrieval_recall@1': 0.7874000072479248, 'text_retrieval_recall@1': 0.8519999980926514, 'image_retrieval_recall@5': 0.9476000070571899, 'text_retrieval_recall@5': 0.9810000061988831, 'image_retrieval_recall@10': 0.9721999764442444, 'text_retrieval_recall@10': 0.9929999709129333} flickr30k: 0.9476 0.9810 基本复现了
发现了不一样的地方,我是用的flickr30k数据为全量级30k, 你这里数据是1k-test.包括COCO部分 我觉得需要在论文中说明测试集合的量级,像BLIP中这样描述实验
E5-V论文中的实验结果如下: 是可以标记说明下的
感谢建议 但是我看的论文里大家应该都是默认test下的结果 比如eva clip里
llava-next-8b-hf的测试结果是: {'image_retrieval_recall@1': 0.7874000072479248, 'text_retrieval_recall@1': 0.8519999980926514, 'image_retrieval_recall@5': 0.9476000070571899, 'text_retrieval_recall@5': 0.9810000061988831, 'image_retrieval_recall@10': 0.9721999764442444, 'text_retrieval_recall@10': 0.9929999709129333} flickr30k: 0.9476 0.9810 基本复现了
另外llava-next-8b-hf和llava-next-8b有什么区别吗?我看之前的结果llava-next-8b-hf会比llava-next-8b要差
llava-next-8b-hf是官方最近放出来的一个hf版本的模型,我一开始担心是自己转换模型有问题, 链接在这里:https://huggingface.co/llava-hf/llama3-llava-next-8b-hf
发现了不一样的地方,我是用的flickr30k数据为全量级30k, 你这里数据是1k-test.包括COCO部分 我觉得需要在论文中说明测试集合的量级,像BLIP中这样描述实验 E5-V论文中的实验结果如下: 是可以标记说明下的
感谢建议 但是我看的论文里大家应该都是默认test下的结果 比如eva clip里
那应该没啥问题,我是看到有的文章会特意强调在不同量级上做实验,比如LongCLIP
现在基本对齐了,评测了下长文本检索也是有优势的
llava-next-8b-hf是官方最近放出来的一个hf版本的模型,我一开始担心是自己转换模型有问题, 链接在这里:https://huggingface.co/llava-hf/llama3-llava-next-8b-hf
好的 不过我们的模型转换会另外把mllm中的llm单独存起来,在训练的时候只load这个。我之前试过这个转换应该没什么问题,e5v就是这样训练的(可能现在结果的gap是这部分导致的)
嗯嗯,之前就是测试集没搞对,现在整个流程都没问题的。 【抱拳了】
作者你好,我在尝试使用e5-v, 在长文本检索的场景中,确实看到比较好的效果,但我在尝试复现时,发现效果和论文中没对齐。 实验实在Flickr30K上进行实验的,以下时实验结果
开放的权重e5-v
使用llava-next-8B
模型使用llava-next-8b-hf
bz=768, 配置同上,观测效果