关于The Split Strategy部分

bytedance / E2STR

The official code for the CVPR 2024 paper: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer

Apache License 2.0

41 stars 4 forks source link

Closed lyb18758 closed 3 months ago

lyb18758 commented 5 months ago

论文中提及的Split Strategy部分，需要对样本进行分割和变换以获得子样本，请问在项目代码的哪部分进行了实现？

prefixRAINSTARsuffix commented 5 months ago

论文中提及的Split Strategy部分，需要对样本进行分割和变换以获得子样本，请问在项目代码的哪部分进行了实现？

定义在这个函数里

lyb18758 commented 5 months ago

感谢回复，还有一个问题。请问vision encoder和language decoder的定义分别在哪？

prefixRAINSTARsuffix commented 5 months ago

感谢回复，还有一个问题。请问vision encoder和language decoder的定义分别在哪？

我们的模型结构与flamingo一致，直接使用的open-flamingo库来初始化模型，具体位置在模型初始化