zhaoziheng / SAT

The official repository for "One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts"
145 stars 7 forks source link

text encoder在整体的效果中起到多大的作用 #9

Closed argman closed 2 months ago

argman commented 3 months ago

很棒的工作! 论文中花了很多精力做text encoder的结合, 但消融实验似乎没有这一块, 只有不同的encoder的对比, 是这块不好设计吗

zhaoziheng commented 3 months ago

我们在消融实验中对比了三种不同Text Encoder(Sec.2.3.2),结果表明Text encoder(或者说知识增强)对于分割结果特别是尾部类会有一定影响。不过受限于计算资源和时间开销,所有消融实验都在SAT-Nano和一部分数据集(SAT-DS-Nano)上进行。

argman commented 3 months ago

如果去掉text encoder呢

zhaoziheng commented 3 months ago

SAT是基于text prompt的通用分割模型,我们并没有试过直接在SAT-DS上训练一个等价的unet(即不需要text prompt)

argman commented 3 months ago

通用感觉值得商榷, 论文里面prompt似乎是固定的词, 模型并没有理解新的text的能力