Open ChaiJT opened 5 months ago
论文中说训练7B模型使用了64个节点的512个H800,2B使用了256个,但没看到说大概训练了多长时间 另外看到,论文中说使用Megatron-core后训练7B模型能达到7200TPS,这个7200是指单个机器呢,还是整个集群呀,可以使用这个来换算吗
论文中说训练7B模型使用了64个节点的512个H800,2B使用了256个,但没看到说大概训练了多长时间 另外看到,论文中说使用Megatron-core后训练7B模型能达到7200TPS,这个7200是指单个机器呢,还是整个集群呀,可以使用这个来换算吗