用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

jh 2年前 (2022-03-22)

黄仁勋:不装了,我就是AI。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

就在今天凌晨,英伟达CEO黄仁勋带来了名为“I AM AI”的线上主题演讲!

即使告别了我们熟悉的厨房,但黄仁勋照样给我们端上多道“硬核大菜”。

先是搭载全新Hopper架构的H100 GPU,接着是Grace超级芯片,然后依次谈到了机器人、自动汽车以及其他软件更新。

总得来看,英伟达再度将GPU的算力推向了极致,借此加强自身在AI、汽车等领域的实力。同时,英伟达已经为下一波AI浪潮以及无限幻想的元宇宙做好了准备。

800亿晶体管的“算力怪兽”

作为AI算力的保障,以及英伟达的“老本行”,全新GPU自然是GTC 2022最值得关注的新品。

首先带来的新品是H100 GPU,该芯片由800亿个晶体管构建而成,采用了专为英伟达加速计算需求而优化的TSMC 4N工艺,单个H100最大支持40TB/s的IO带宽。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

用黄仁勋的话来说:20块H100 GPU就可承托全球互联网的流量。这足以看出这块芯片的恐怖算力。

H100同时还集多个首个于一身,包括首款支持PCIe 5.0的GPU,首款采用HBM3标准的GPU,以及全球首款具有机密计算功能的GPU。

相比于上一代Ampere架构的A100,H100带来了6项突破性的创新:

1、目前世界最先进的芯片

2、搭载最新Transformer引擎,速度提升至上一代的6倍。

3、第二代安全多实例,可以同时处理不同类型的任务。

4、具备机密计算功能,此前隐私计算只能在CPU上实现,但H100成为第一个实现该功能的GPU,可以保护AI模型和正在处理的客户数据。

5、支持第4代NVLink,每个NVLink Switch网络最多可以连接多达256个H100,相较于上一代产品,带宽高出9倍。

6、Hooper架构引入了名为DPX的新指令集,可加速动态规划,算法速度有了显著提升。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

在H100的帮助下,研究人员和开发者可以训练庞大的模型。比如包含3950亿个参数的混合专家模型,训练速度加速高达9倍,训练时间从几周缩短到几天。

值得一提的是,黄仁勋并没有过多介绍Hopper架构。该架构以美国计算机领域的先驱科学家Grace Hopper 的名字命名,被单独用作计算加速使用,而未来推出的RTX 40系列显卡使用的GPU将基于Ada Lovelace架构。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

虽然此次公布的H100与此前的爆料略有缩水,但不妨碍其成为超算界最强引擎,这也称得上英伟达进一步扩大在AI计算领域领导力的体现

世界上最快的AI超级计算机

借助DFX POD架构与NVLink连接,8块H100构成了一个巨型AI系统——NVIDIA DGX H100。该系统可以满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

你以为这个系统已经很强大了?

基于DGX H100,英伟达推出全球运行速度最快的AI超级计算机——NVIDIA EOS。该超级电脑共配备576台DGX H100系统,共计4608块DGX H100 GPU,显存带宽高达768TB/s,有望成为全球运行速度最快的 AI 系统。而整个互联网不过只有100TB/s。

据悉,NVIDIA EOS预计将提供18.4 Exaflops的AI计算性能,这比目前运行速度最快的日本Fugaku超级计算机还快4倍。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

为了将数量庞大的H100连接起来,英伟达还推出了NVLink Switch网络系统和更强的DFX superPOD架构,这样就可以连接32个结点、256个H100 GPU。你可以想象成一个“加强版”的DGX H100系统。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

黄仁勋说:“对于英伟达的OEM和云计算合作伙伴来说,EOS将成为先进AI基础设施的蓝图。”

未来,该系统可以为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的AI性能。

最强大的AI专属CPU

在去年GTC大会上,英伟达透露了首款数据中心专属CPU Grace,而在今年,这款面向AI基础设施和高性能计算的超级CPU正式亮相。

这次的Grace有两个版本,第一个版本叫做Grace-Hopper,是“CPU+GPU结合体,使用NVLink技术连接,带宽高达900GB/s。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

而名为“Grace CPU超级芯片”的版本则由两个CPU芯片封装组成,它们之间通过NVLink-C2C连接。整个超级芯片总计144个CPU内核(基于ARMv9指令集),缓存容量396MB,支持LPDDR5X ECC内存,带宽高达1TB/s。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

性能方面,Grace CPU 超级芯片的SPECint 2017得分为业内领先的740分,黄仁勋表示这个性能没有什么产品可与之媲美,称赞为“最强大的CPU”。

据悉,借助带有纠错码的LPDDR5x内存组成的子系统,Grace CPU 超级芯片可以实现速度与功耗的最佳平衡,带宽高达1TB/s,整体功耗仅500W。

有趣的是,这套芯片系统展示了NVLink-C2C的强大扩展性,加之英伟达早些时候发布的UCIe标准(通用小芯片互连传输通道),未来用户采用英伟达产品时,可以像搭积木一样灵活选择CPU和GPU的组合

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

One More Thing

· Omniverse平台

在去年CTC大会上,黄仁勋就重点介绍了Omniverse平台。该平台为3D设计师提供了一个共享的虚拟世界,他们可以从不同的软件应用程序和不同的地理位置进行协作。

今年,英伟达专注于让个人和企业更广泛地使用Omniverse平台。新的Omniverse Cloud使创作者能够即时访问Omniverse,即使他们没有基于Nvidia RTX的系统。同时推出的Omniverse OVX则是一个旨在满足大规模仿真需求的计算系统。

·自动驾驶汽车

作为英伟达在AI领域的重要探索,汽车产品线将在未来六年内增加至超过110亿美元。

本次,英伟达推出了最新版本的Hyperion 9自动驾驶平台,这既是Nvidia DRIVE Orin平台的基本架构,也是英伟达用于自动驾驶汽车的硬件架构。据悉,该平台将有14个摄像头、9个雷达、3个激光雷达和20个超声传感器,将于2026年投入使用。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

有趣的是,黄仁勋透露了已经采用DRIVE Orin平台的厂商,其中,中国厂商占据了不少席位,而比亚迪也将从2023年上半年开始采用DRIVE Orin平台。

用20块GPU装下整个互联网!本次GTC大会,黄仁勋继续大秀“AI肌肉”

结语

除了上述更新外,英伟达还推出了机器人平台、AI计算基础架构、医疗仪器平台以及六款使用Ampere架构的全新RTX GPU,产品线可谓十分丰富,这里就不再过多介绍。

总得来看,英伟达一直在紧跟两条主线前行,一条是AI,另一条则是Omniverse平台

虽然这次黄仁勋并没有直接点名元宇宙,但无处不在的TJ(黄仁勋数字替身)还是展示出英伟达对于元宇宙的重视程度。

希望在未来的GTC大会上,黄仁勋能给我们带来属于元宇宙的“核弹”。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到