数据中心GPU“不长命”,只有1-3年
国庆假期第二天,WTT北京大满贯赛事精彩继续。在男单比赛中被爆冷,再次遭遇铩羽的王楚钦将和梁靖崑一起合作双打。从目前的表现来看,王楚钦在双打方面的造诣要高于在单打方面,如果在男双比赛中梁靖崑能够和王....
本文由半导体产业纵横(ID:ICVIEWS)综合
GPU寿命缩短的问题正在对AI行业的经济产生严重影响。
Tech Fund援引 Alphabet 一位高级专家的话称,数据中心 GPU 的使用寿命可能仅为一到三年,具体取决于其利用率。由于 GPU 承担了 AI 训练和推理的所有重任,因此它们是始终承受着巨大负载的组件,因此其性能下降的速度比其他组件更快。
云服务提供商 ( P) 运营的数据中心中,GPU 在 AI 工作负载中的利用率在 60% 到 70% 之间。据@techfund 报道,在这样的利用率下,GPU 通常可以存活一到两年,最多三年。据称,这是 Alphabet 一位首席生成式 AI 架构师的言论。
因为无法核实这位自称“Alphabet 的 GenAI 首席架构师”的人的名字,因此读者不能 100% 相信他们的说法。尽管如此,大众多认为这种说法是有道理的,因为用于 AI 和 HPC 应用的现代数据中心 GPU 消耗和耗散的功率为 700W 或更多,这对微小的硅片来说是切实的压力。
延长 GPU 使用寿命的方法之一是降低其使用率。但这意味着 GPU 贬值速度会更慢,资本回报也会更慢,这对业务来说并不是特别好,因此大多数云服务提供商会选择在高使用率下使用 GPU。
今年早些时候,Meta发布了一项研究,描述了其在由 16,384 个 Nvidia H100 80GB GPU 驱动的集群上进行的 Llama 3 405B 模型训练。该集群的模型翻转利用率 (MFU) 约为 38%(使用 BF16),但在 419 次不可预见的中断中(在 54 天的训练前快照期间),148 次(30.1%)是由各种 GPU 故障(包括 NVLink 故障)引起的,而 72 次(17.2%)是由 HBM3 内存翻转引起的。
Meta 的结果似乎对 H100 GPU 相当有利。如果 GPU 及其内存继续以 Meta 的速度出现故障,那么这些处理器的年化故障率将在 9% 左右,而这些 GPU 三年内的年化故障率将约为 27%,尽管 GPU 使用一年后出现故障的频率可能会更高。
GPU寿命缩短的问题正在对AI行业的经济产生严重影响。一个典型的例子就是领先AI行业的OpenAI的收入和支出预测。尽管得到了微软的大力支持,该公司预计到 2024 年将亏损 50 亿美元。造成这种损失的主要原因之一是训练和操作大规模语言模型所需的计算资源成本。
此外,谷歌继续积极投资提高其人工智能处理能力,仅 2024 年第二季度就在人工智能处理硬件上花费了 132 亿美元。然而,这些投资正在失去先前认为的长期资本投资的特征。如果在短短的三年周期内需要更新设备,投资回收前景将不可避免地发生重大变化。
针对这个问题,一些数据中心运营商试图通过故意抑制GPU的运行率来延长GPU的使用寿命。然而,这种反应需要付出巨大的代价。开工率下跌,设备折旧年限延长,投资效率低下。这种困境正在成为整个人工智能行业面临的结构性挑战。
AI 行业正处于一个重要的转折点,GPU 的寿命显然会缩短。这个问题不仅仅是一个技术问题,它有可能影响整个产业结构。
首先,有必要重新考虑资本投资的概念。基于传统的三年折旧期的投资计划已不再现实。人工智能公司将面临越来越大的货币化时间压力,因为它们需要转向短期投资回收计划。
具有讽刺意味的是,这种情况正在进一步增强在 GPU 市场占据压倒性份额的 NVIDIA 的市场力量。事实上,到 2024 年 6 月,该公司的市值将达到 3 万亿美元,确保常规 GPU 需求将支持进一步增长。
然而,更根本的挑战在于当前人工智能商业模式的可持续性。面对硬件寿命较短的现实,当前开发和操作大规模语言模型的方法需要大量的计算资源,可能需要从根本上重新考虑。
近日,Marvell的CTO Raghib Hussain也指出,AI计算的成本对于大多数 芯片制造商来说过于高昂,这使得他们在追赶AI技术的过程中面临重大挑战。
未来,AI行业将被迫专注于开发更 的模型架构和建立创新的学习方法。此外,开发专用人工智能加速器作为 GPU 替代品的竞争预计将加剧。GPU 寿命缩短的问题有可能影响人工智能技术的发展方向。应对此类技术和经济挑战将成为决定未来人工智能企业竞争力的重要因素。
* 本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。