AI集群，对抗英伟达的新“杀手锏”？

jh 2个月前 (06-27)

大力出奇迹，也是一个新思路。

上周，英伟达以3.3万亿美元成功超越苹果等巨头，登上了全球市值第一。

除了股价上的成功外，英伟达以不可阻挡的膨胀势头，再次证明了自己在AI设施领域的王者地位。

目前，英伟达的AI芯片已经占据了全世界数据中心约80%的份额，包括大模型、智能汽车、机器人在内，多个行业都依赖着英伟达庞大的算力体系。

反观同样逐鹿AI浪潮的AMD，在战略上已经远远落后于英伟达。

这其中，英伟达在软件生态上的优势占了很大一部分原因。而另一方面，AMD其实选择了一条不一样的思路——他们思考如何将数量庞大的GPU构建成一个更大规模的超大规模集群。

近日，AMD执行副总裁兼数据中心解决方案集团总经理Forrest Norrod在接受采访时表示，AMD将构建全球最大的单体AI训练集群，将集成高达120万片的GPU。

作为对比，目前全球最强的超级计算机Frontier所配备的GPU数量只有37888片，这也意味着这个AI训练集群的GPU规模将是目前最强超算的30多倍。

不过AMD方面并没有透露哪个组织正在考虑构建这种规模的AI系统，但提到这个AI训练集群将花费数百亿到数千亿美元。

AI集群并不是什么新概念，包括英伟达自己也多次提到“AI工厂”。

单从字面意思就非常好理解，就是把成千上万个GPU集成到一个工厂里，从而来训练大模型或是进行其他工作。

而其他组织搭建AI集群的初衷大多是想降低AI的训练成本。要知道训练AI的花销大头还是GPU，且不说单个芯片根本没办法满足大模型训练的需求，更重要的是高算力的GPU供不应求，只能将算力稍差的GPU进行互连。

但对比通常由几千个 GPU构建而成AI集群，如果要创建一个拥有高达120万个 GPU 的单体 AI 集群，意味着将会面临极为复杂的高速互连网络，并且还会有延迟、功耗、硬件故障等诸多的问题，这似乎是难以实现的。

另外，如此庞大的AI训练集群，将会产生极为庞大的能耗，供电将会是一个大难题。

值得一提的是，英伟达早已预料到这个风险。因此在去年，黄仁勋召集了一系列会议，与公司高管讨论了数据中心空间不足的问题以及客户是否有足够电厂来容纳、运行所订购的GPU。

对于AMD来说，他们是优势之一就是优秀的“计算能效”。

近些年以来，AMD的核心目标之一就是提升计算能效。苏姿丰也在演讲中多次提到，提高计算能效可以更好地解决能源与算力之间的矛盾，并且让超级计算中心可以被部署到更多的地方。

可见，AMD的产品在设计时就已经考虑到能源负担与AI能力之前的关系，最终也是为大面积建设AI集群提供基础。

总的来说，AI集群的思路就是“大力出奇迹”，虽然有许多客观因素的限制，但确实是一条值得探索的道路。

一方面，算力需求的膨胀的是可以长期预测的趋势。另一方面，随着台积电代工能力日趋饱和，来自硬件层面的限制将影响单个GPU上限的发展速度。

或许一个由120万片GPU组成的疯狂计划，很快就能成为现实。

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新