bytedance / E2STR

The official code for the CVPR 2024 paper: Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer
Apache License 2.0
41 stars 4 forks source link

关于The Split Strategy部分 #1

Closed lyb18758 closed 3 months ago

lyb18758 commented 5 months ago

论文中提及的Split Strategy部分,需要对样本进行分割和变换以获得子样本,请问在项目代码的哪部分进行了实现?

prefixRAINSTARsuffix commented 5 months ago

论文中提及的Split Strategy部分,需要对样本进行分割和变换以获得子样本,请问在项目代码的哪部分进行了实现?

定义在这个 函数

lyb18758 commented 5 months ago

感谢回复,还有一个问题。请问vision encoder和language decoder的定义分别在哪?

prefixRAINSTARsuffix commented 5 months ago

感谢回复,还有一个问题。请问vision encoder和language decoder的定义分别在哪?

我们的模型结构与flamingo一致,直接使用的open-flamingo库来初始化模型,具体位置在 模型初始化