马斯克 xAI 坐拥 55 万张英伟达 GPU 但算力利用率仅 11%,Meta 和谷歌可达 43~46%
https://www.ithome.com/0/946/187.htm
然而,如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然,这并非意味着其余 89% 的 GPU 处于完全闲置状态,而是指模型的实际浮点运算利用率远远低于理论峰值。
业内人士解释称,衡量 AI 算力效率的关键指标叫做 MFU(Model FLOPs Utilization),即模型浮点运算利用率。11% 的 MFU 意味着,理论上能产生 100 份训练吞吐量的硬件,实际只产出了 11 份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节,而没有转化为有效的训练吞吐。
https://www.ithome.com/0/946/187.htm
然而,如此海量的硬件并未转化为有效的计算产出。该集群的实际利用率仅有 11%。当然,这并非意味着其余 89% 的 GPU 处于完全闲置状态,而是指模型的实际浮点运算利用率远远低于理论峰值。
业内人士解释称,衡量 AI 算力效率的关键指标叫做 MFU(Model FLOPs Utilization),即模型浮点运算利用率。11% 的 MFU 意味着,理论上能产生 100 份训练吞吐量的硬件,实际只产出了 11 份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节,而没有转化为有效的训练吞吐。