text encoder在整体的效果中起到多大的作用

zhaoziheng / SAT

The official repository for "One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts"

145 stars 7 forks source link

Closed argman closed 2 months ago

argman commented 3 months ago

很棒的工作! 论文中花了很多精力做text encoder的结合, 但消融实验似乎没有这一块, 只有不同的encoder的对比, 是这块不好设计吗

zhaoziheng commented 3 months ago

我们在消融实验中对比了三种不同Text Encoder（Sec.2.3.2），结果表明Text encoder（或者说知识增强）对于分割结果特别是尾部类会有一定影响。不过受限于计算资源和时间开销，所有消融实验都在SAT-Nano和一部分数据集（SAT-DS-Nano）上进行。

argman commented 3 months ago

如果去掉text encoder呢

zhaoziheng commented 3 months ago

SAT是基于text prompt的通用分割模型，我们并没有试过直接在SAT-DS上训练一个等价的unet（即不需要text prompt）

argman commented 3 months ago

通用感觉值得商榷, 论文里面prompt似乎是固定的词, 模型并没有理解新的text的能力