niuzaisheng / ScreenAgent

ScreenAgent: A Computer Control Agent Driven by Visual Language Large Model (IJCAI-24)
https://arxiv.org/abs/2402.07945
Other
217 stars 24 forks source link

您好,模型训练需要跑多久,大概有多少参数量 #2

Open dgo2dance opened 5 months ago

dgo2dance commented 5 months ago

您好,模型训练需要跑多久,大概有多少参数量

WeiminLee commented 5 months ago

看论文里面介绍 大概几千条train数据, 分4个阶段来训练。具体时间没有更多详细信息,估计需要使用A100(80G)*8

niuzaisheng commented 5 months ago

上游模型是CogAgent,参数量有18B,其中有 110 亿个视觉参数和 70 亿个语言参数。 在A100(80G)* 8 上训练约8小时。

dgo2dance commented 5 months ago

上游模型是CogAgent,参数量有18B,其中有 110 亿个视觉参数和 70 亿个语言参数。 在A100(80G)* 8 上训练约8小时。

在CogAgent基础上 训练 是不

niuzaisheng commented 5 months ago

上游模型是CogAgent,参数量有18B,其中有 110 亿个视觉参数和 70 亿个语言参数。 在A100(80G)* 8 上训练约8小时。

在CogAgent基础上 训练 是不

是,在 CogAgent-Chat 版本基础上微调。

tiandazhao commented 4 months ago

cogagent不支持中文,未来你们呢有支持中文的规划吗?或者有什么方案吗?

niuzaisheng commented 4 months ago

cogagent不支持中文,未来你们呢有支持中文的规划吗?或者有什么方案吗?

我们训练集同时提供了中英文两种标注,ScreenAgent在训练的时候也同时用这两种语言的标注数据,测试集合提供的是英文版本,感兴趣可以尝试一下中文环境下的效果。另外,GUI界面如果大部分为中文的情况下性能会受限,这与上游模型选择的图像编码器有关,仍需更大量的数据在含有汉字的图像、PDF、截图上进行训练。