Open MqLeet opened 1 day ago
GOT-OCR2.0 是由 StepFun 和中国科学院大学推出的专用于通用 OCR 任务的多模态大模型,参数量 0.6B,采用 vision encoder+input embedding layer+decoder 的 pipeline。我们需要跟进与丰富PaddleMIX中的跨模态文图模型,从模型、训练、推理等方面完善。
https://github.com/PaddlePaddle/Paddle/issues/68245
tracking issue for 赛题5 前沿文档多模态大模型飞桨复现
GOT-OCR2.0 是由 StepFun 和中国科学院大学推出的专用于通用 OCR 任务的多模态大模型,参数量 0.6B,采用 vision encoder+input embedding layer+decoder 的 pipeline。我们需要跟进与丰富PaddleMIX中的跨模态文图模型,从模型、训练、推理等方面完善。