bojieli / homepage-comments

Comments for my homepage
1 stars 0 forks source link

A100/H100 太贵,何不用 4090? | Bojie Li - 01.me #146

Open bojieli opened 1 year ago

bojieli commented 1 year ago

https://01.me/2023/09/h100-vs-4090/

Personal blog of Bojie Li

shaohaiyang commented 1 month ago

好文章只有懂的人欣赏,真棒

czgbc commented 1 month ago

文章太赞了,把训练推理流程建模指标量化的很棒

czgbc commented 1 month ago

想请教下,有没有文生视频模型推理所需算力的演算过程 我自己大概算了下,也不确定是否准确,文生视频所需算力实在大的吓人,难怪openai没有放开文生视频的体验,太烧钱了

jiaxinonly commented 1 month ago

这篇文章的第一版就是用了错的数据,H100 和 4090 的数据都用错了,得到的结论非常离谱。 我想确定一下,这篇文章开头写的的H100 FP16 989 Tflops 4090 FP16 330 Tflop这个是错的吧?H100用的稠密,4090用的稀疏,如果是请再明确标记一下,网上有大量的文章使用了这个数据

bojieli commented 1 month ago

@jiaxinonly 这篇文章的第一版就是用了错的数据,H100 和 4090 的数据都用错了,得到的结论非常离谱。 我想确定一下,这篇文章开头写的的H100 FP16 989 Tflops 4090 FP16 330 Tflop这个是错的吧?H100用的稠密,4090用的稀疏,如果是请再明确标记一下,网上有大量的文章使用了这个数据

现在这个数据都是稠密的,4090 330 Tflops 是 Peak FP16 Tensor TFLOPS with FP16 Accumulate。如果需要 FP32 Accumulate 那么就只有 165 Tensor TFLOPS。但是一般 FP16 Accumulate 就够了。H100 的 989 TFlops 也是稠密的 Peak FP16 Tensor TFLOPS。

jiaxinonly commented 1 month ago

@jiaxinonly 这篇文章的第一版就是用了错的数据,H100 和 4090 的数据都用错了,得到的结论非常离谱。 我想确定一下,这篇文章开头写的的H100 FP16 989 Tflops 4090 FP16 330 Tflop这个是错的吧?H100用的稠密,4090用的稀疏,如果是请再明确标记一下,网上有大量的文章使用了这个数据

现在这个数据都是稠密的,4090 330 Tflops 是 Peak FP16 Tensor TFLOPS with FP16 Accumulate。如果需要 FP32 Accumulate 那么就只有 165 Tensor TFLOPS。但是一般 FP16 Accumulate 就够了。H100 的 989 TFlops 也是稠密的 Peak FP16 Tensor TFLOPS。

按照这个说法,单卡A100的FP16算力和4090是差不多的,但是我在一些算力出租平台上看到他们的算力是不对等的,这是为什么? https://www.autodl.com/home https://www.onething.net/onethingai/ https://www.anygpu.cn/a100.htmlhttps://www.anygpu.cn/4090.html 我有些晕。。。。另外我看文章上写的4090 FP32是83 Tflops,意思是Peak FP16 Tensor TFLOPS with FP16 Accumulate 和Peak FP16 Tensor TFLOPS with FP32 Accumulate是不同的计算方式?我对这方面的知识比较欠缺,请见谅。。。

kicodi2022 commented 1 month ago

每次读每次都有新收获

bojieli commented 1 month ago

@jiaxinonly

@jiaxinonly 这篇文章的第一版就是用了错的数据,H100 和 4090 的数据都用错了,得到的结论非常离谱。 我想确定一下,这篇文章开头写的的H100 FP16 989 Tflops 4090 FP16 330 Tflop这个是错的吧?H100用的稠密,4090用的稀疏,如果是请再明确标记一下,网上有大量的文章使用了这个数据

现在这个数据都是稠密的,4090 330 Tflops 是 Peak FP16 Tensor TFLOPS with FP16 Accumulate。如果需要 FP32 Accumulate 那么就只有 165 Tensor TFLOPS。但是一般 FP16 Accumulate 就够了。H100 的 989 TFlops 也是稠密的 Peak FP16 Tensor TFLOPS。

按照这个说法,单卡A100的FP16算力和4090是差不多的,但是我在一些算力出租平台上看到他们的算力是不对等的,这是为什么? https://www.autodl.com/home https://www.onething.net/onethingai/ https://www.anygpu.cn/a100.htmlhttps://www.anygpu.cn/4090.html 我有些晕。。。。另外我看文章上写的4090 FP32是83 Tflops,意思是Peak FP16 Tensor TFLOPS with FP16 Accumulate 和Peak FP16 Tensor TFLOPS with FP32 Accumulate是不同的计算方式?我对这方面的知识比较欠缺,请见谅。。。

PyTorch 默认情况下是打开 FP16/TF16 reduced precision 的,也就是矩阵乘法对 k 轴求和的时候也跟乘法一样使用 FP16/TF16。如果关掉这个选项,k 轴大的时候 4090 有效算力就会下降很多,当然使用 FP32 做 accumulate 的数值稳定性也会更好。 https://pytorch.org/docs/stable/notes/cuda.html#fp16reducedprecision