关于资源消耗，请问7B和2B的模型训练分别消耗了多少算力资源呢？

multimodal-art-projection / MAP-NEO

877 stars 81 forks source link

Open ChaiJT opened 5 months ago

ChaiJT commented 5 months ago

论文中说训练7B模型使用了64个节点的512个H800，2B使用了256个，但没看到说大概训练了多长时间另外看到，论文中说使用Megatron-core后训练7B模型能达到7200TPS，这个7200是指单个机器呢，还是整个集群呀，可以使用这个来换算吗