用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

jh 2年前 (2022-03-22)

黄仁勋：不装了，我就是AI。

就在今天凌晨，英伟达CEO黄仁勋带来了名为“I AM AI”的线上主题演讲！

即使告别了我们熟悉的厨房，但黄仁勋照样给我们端上多道“硬核大菜”。

先是搭载全新Hopper架构的H100 GPU，接着是Grace超级芯片，然后依次谈到了机器人、自动汽车以及其他软件更新。

总得来看，英伟达再度将GPU的算力推向了极致，借此加强自身在AI、汽车等领域的实力。同时，英伟达已经为下一波AI浪潮以及无限幻想的元宇宙做好了准备。

800亿晶体管的“算力怪兽”

作为AI算力的保障，以及英伟达的“老本行”，全新GPU自然是GTC 2022最值得关注的新品。

首先带来的新品是H100 GPU，该芯片由800亿个晶体管构建而成，采用了专为英伟达加速计算需求而优化的TSMC 4N工艺，单个H100最大支持40TB/s的IO带宽。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

用黄仁勋的话来说：20块H100 GPU就可承托全球互联网的流量。这足以看出这块芯片的恐怖算力。

H100同时还集多个首个于一身，包括首款支持PCIe 5.0的GPU，首款采用HBM3标准的GPU，以及全球首款具有机密计算功能的GPU。

相比于上一代Ampere架构的A100，H100带来了6项突破性的创新：

1、目前世界最先进的芯片。

2、搭载最新Transformer引擎，速度提升至上一代的6倍。

3、第二代安全多实例，可以同时处理不同类型的任务。

4、具备机密计算功能，此前隐私计算只能在CPU上实现，但H100成为第一个实现该功能的GPU，可以保护AI模型和正在处理的客户数据。

5、支持第4代NVLink，每个NVLink Switch网络最多可以连接多达256个H100，相较于上一代产品，带宽高出9倍。

6、Hooper架构引入了名为DPX的新指令集，可加速动态规划，算法速度有了显著提升。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

在H100的帮助下，研究人员和开发者可以训练庞大的模型。比如包含3950亿个参数的混合专家模型，训练速度加速高达9倍，训练时间从几周缩短到几天。

值得一提的是，黄仁勋并没有过多介绍Hopper架构。该架构以美国计算机领域的先驱科学家Grace Hopper 的名字命名，被单独用作计算加速使用，而未来推出的RTX 40系列显卡使用的GPU将基于Ada Lovelace架构。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

虽然此次公布的H100与此前的爆料略有缩水，但不妨碍其成为超算界最强引擎，这也称得上英伟达进一步扩大在AI计算领域领导力的体现。

世界上最快的AI超级计算机

借助DFX POD架构与NVLink连接，8块H100构成了一个巨型AI系统——NVIDIA DGX H100。该系统可以满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

你以为这个系统已经很强大了？

基于DGX H100，英伟达推出全球运行速度最快的AI超级计算机——NVIDIA EOS。该超级电脑共配备576台DGX H100系统，共计4608块DGX H100 GPU，显存带宽高达768TB/s，有望成为全球运行速度最快的 AI 系统。而整个互联网不过只有100TB/s。

据悉，NVIDIA EOS预计将提供18.4 Exaflops的AI计算性能，这比目前运行速度最快的日本Fugaku超级计算机还快4倍。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

为了将数量庞大的H100连接起来，英伟达还推出了NVLink Switch网络系统和更强的DFX superPOD架构，这样就可以连接32个结点、256个H100 GPU。你可以想象成一个“加强版”的DGX H100系统。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

黄仁勋说：“对于英伟达的OEM和云计算合作伙伴来说，EOS将成为先进AI基础设施的蓝图。”

未来，该系统可以为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的AI性能。

最强大的AI专属CPU

在去年GTC大会上，英伟达透露了首款数据中心专属CPU Grace，而在今年，这款面向AI基础设施和高性能计算的超级CPU正式亮相。

这次的Grace有两个版本，第一个版本叫做Grace-Hopper，是“CPU+GPU结合体，使用NVLink技术连接，带宽高达900GB/s。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

而名为“Grace CPU超级芯片”的版本则由两个CPU芯片封装组成，它们之间通过NVLink-C2C连接。整个超级芯片总计144个CPU内核（基于ARMv9指令集），缓存容量396MB，支持LPDDR5X ECC内存，带宽高达1TB/s。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

性能方面，Grace CPU 超级芯片的SPECint 2017得分为业内领先的740分，黄仁勋表示这个性能没有什么产品可与之媲美，称赞为“最强大的CPU”。

据悉，借助带有纠错码的LPDDR5x内存组成的子系统，Grace CPU 超级芯片可以实现速度与功耗的最佳平衡，带宽高达1TB/s，整体功耗仅500W。

有趣的是，这套芯片系统展示了NVLink-C2C的强大扩展性，加之英伟达早些时候发布的UCIe标准（通用小芯片互连传输通道），未来用户采用英伟达产品时，可以像搭积木一样灵活选择CPU和GPU的组合。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

One More Thing

· Omniverse平台

在去年CTC大会上，黄仁勋就重点介绍了Omniverse平台。该平台为3D设计师提供了一个共享的虚拟世界，他们可以从不同的软件应用程序和不同的地理位置进行协作。

今年，英伟达专注于让个人和企业更广泛地使用Omniverse平台。新的Omniverse Cloud使创作者能够即时访问Omniverse，即使他们没有基于Nvidia RTX的系统。同时推出的Omniverse OVX则是一个旨在满足大规模仿真需求的计算系统。

·自动驾驶汽车

作为英伟达在AI领域的重要探索，汽车产品线将在未来六年内增加至超过110亿美元。

本次，英伟达推出了最新版本的Hyperion 9自动驾驶平台，这既是Nvidia DRIVE Orin平台的基本架构，也是英伟达用于自动驾驶汽车的硬件架构。据悉，该平台将有14个摄像头、9个雷达、3个激光雷达和20个超声传感器，将于2026年投入使用。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

有趣的是，黄仁勋透露了已经采用DRIVE Orin平台的厂商，其中，中国厂商占据了不少席位，而比亚迪也将从2023年上半年开始采用DRIVE Orin平台。

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

结语

除了上述更新外，英伟达还推出了机器人平台、AI计算基础架构、医疗仪器平台以及六款使用Ampere架构的全新RTX GPU，产品线可谓十分丰富，这里就不再过多介绍。

总得来看，英伟达一直在紧跟两条主线前行，一条是AI，另一条则是Omniverse平台。

虽然这次黄仁勋并没有直接点名元宇宙，但无处不在的TJ（黄仁勋数字替身）还是展示出英伟达对于元宇宙的重视程度。

希望在未来的GTC大会上，黄仁勋能给我们带来属于元宇宙的“核弹”。

最后，记得关注微信公众号：镁客网（im2maker），更多干货在等你！

镁客网

科技 | 人文 | 行业

微信ID：im2maker

长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

800亿晶体管的“算力怪兽”

世界上最快的AI超级计算机

最强大的AI专属CPU

One More Thing

结语

最新文章

注册

用20块GPU装下整个互联网！本次GTC大会，黄仁勋继续大秀“AI肌肉”

800亿晶体管的“算力怪兽”

世界上最快的AI超级计算机

最强大的AI专属CPU

One More Thing

结语

最新文章

登录

注册