Closed argman closed 2 months ago
我们在消融实验中对比了三种不同Text Encoder(Sec.2.3.2),结果表明Text encoder(或者说知识增强)对于分割结果特别是尾部类会有一定影响。不过受限于计算资源和时间开销,所有消融实验都在SAT-Nano和一部分数据集(SAT-DS-Nano)上进行。
如果去掉text encoder呢
SAT是基于text prompt的通用分割模型,我们并没有试过直接在SAT-DS上训练一个等价的unet(即不需要text prompt)
通用感觉值得商榷, 论文里面prompt似乎是固定的词, 模型并没有理解新的text的能力
很棒的工作! 论文中花了很多精力做text encoder的结合, 但消融实验似乎没有这一块, 只有不同的encoder的对比, 是这块不好设计吗