Ucas-HaoranWei / Vary

[ECCV2024] Official code implementation of Vary: Scaling Up the Vision Vocabulary of Large Vision Language Models.
1.65k stars 150 forks source link

关于论文中各阶段所使用的数据? #107

Open yuanlisky opened 1 month ago

yuanlisky commented 1 month ago

不知道理解得对不对

  1. Vary-tiny 训练阶段全部参数打开,所使用数据为3.2.2生成的数据
  2. Vary-base 预训练阶段,freeze两个"图像词表",训练embedding层和llm,使用LAION-COCO的400万数据作为训练集
  3. Vary-base SFT微调阶段,freeze两个"图像词表",训练embedding层和llm,使用LLaVA-80k或LLaVA-CC665k以及DocVQA,ChartQA作为训练集 这里有个问题
  4. 3.3.2里的LATEX redering document和Semantic association chart redering数据在哪个阶段使用?