相似度计算实测下来完全不对

yumianhuli1 commented 6 months ago

比如文字和图片完全不搭边，相似度得分也会很高，高于0.4、0.45。。。比如一些抽象的词，相关性应该很低才对，但实际上却很高 Why？ thanks

hermanWu55 commented 6 months ago

加一有同样的问题，本人的感觉是你的文字过于粗略，因为 CLIP利用的图文对，文本是长文本。这可能导致样本分布偏差。当你的文本足够长的时候，它的相似度得分可能会变得低起来

yumianhuli1 commented 6 months ago

加一有同样的问题，本人的感觉是你的文字过于粗略，因为 CLIP利用的图文对，文本是长文本。这可能导致样本分布偏差。当你的文本足够长的时候，它的相似度得分可能会变得低起来

长了确实不行，估计和训练用的文本和维度都相差太大，造成判分混乱。不知道有什么好的间接解决方案没。。

hermanWu55 commented 5 months ago

是的 chinese clip利用的wukong数据集是新闻图集，图文对中，文本的描述非常详尽。如果说使用的时候，文本很简单或者不像他们的文本一样。那么区分就不会很明显了。相对正负样本得分都差不多

获取Outlook for Androidhttps://aka.ms/AAb9ysg

From: yumianhuli @.> Sent: Saturday, February 17, 2024 4:02:30 PM To: OFA-Sys/Chinese-CLIP @.> Cc: hermanWu55 @.>; Comment @.> Subject: Re: [OFA-Sys/Chinese-CLIP] 相似度计算实测下来完全不对 (Issue #255)

加一有同样的问题，本人的感觉是你的文字过于粗略，因为 CLIP利用的图文对，文本是长文本。这可能导致样本分布偏差。当你的文本足够长的时候，它的相似度得分可能会变得低起来

长了确实不行，估计和训练用的文本和维度都相差太大，造成判分混乱

― Reply to this email directly, view it on GitHubhttps://github.com/OFA-Sys/Chinese-CLIP/issues/255#issuecomment-1949892211, or unsubscribehttps://github.com/notifications/unsubscribe-auth/A5V6CIFMZYCPQHDGUETPPCLYUBPZNAVCNFSM6AAAAABC4IZWRGVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTSNBZHA4TEMRRGE. You are receiving this because you commented.Message ID: @.***>

OFA-Sys / Chinese-CLIP

相似度计算实测下来完全不对 #255