multimodal-art-projection / MAP-NEO

877 stars 81 forks source link

关于资源消耗,请问7B和2B的模型训练分别消耗了多少算力资源呢? #21

Open ChaiJT opened 5 months ago

ChaiJT commented 5 months ago

论文中说训练7B模型使用了64个节点的512个H800,2B使用了256个,但没看到说大概训练了多长时间 另外看到,论文中说使用Megatron-core后训练7B模型能达到7200TPS,这个7200是指单个机器呢,还是整个集群呀,可以使用这个来换算吗