NVIDIA GTC 2022大幕拉起:Hopper架构H100加速卡、AI及超算处理器
2022-03-24
北京时间2022年3月21日晚23:00,NVIDIA 2022年GTC大会正式开启。正如各家媒体预测的那样,官方不但发了万众瞩目的Hopper架构H100加速卡,还推出了专为AI及超算设计的CPU处理器Grace、AI计算系统“DGX H100”。
值得一提的是,Grace芯片拥有144个核心,内存带宽达恐怖的1TB/s,而整体功耗仅为500W。作为GPU领域的龙头企业,Nvidia表示Grace在性能方面完全碾压业内所有对手。
厚积薄发的Grace
事实上,NVIDIA早在2021年就对外宣布了Grace芯片,但其详细规格始终是个迷。今晚,官方终于宣布了它的详细规格:两个CPU芯片,一个叫做Grace Hopper,为CPU+GPU合体设计,它使用了Nvidia的最新NVLink技术连接,带宽为900GB/s。
与之相较,另个一名为Grace CPU Superchip的芯片则更为强大,它的规格是两个Grac CPU一起封装,总共拥有144个基于ARMv9指令集的CPU内核,缓存容量396MB,支持LPDDR5X ECC内存,带宽为1TB/s。另外,这款芯片还支持PCIe 5.0、NVLink-C2C互连。
在外界最关注的性能方面,Grace CPU Superchip的SPECint 2017得分为740分,暂时登上了业内最顶峰。
在首席执行官黄仁勋看来,在Grace Hopper及Grace CPU Superchip的加持下,NVIDIA在未来可以灵活搭配各种B端方案,就像是搭积木那样简单。
在宣布完规格后,老黄表示:Grace CPU Superchip芯片会在2023年上市。
专攻AI的Hopper
与传闻不同,GH100核心采用的其实是台积电目前最先进的4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,号称世界上最先进的芯片。
官方没有公布核心数,但已经被挖掘出来,和此前传闻一直。
完整版有8组GPC(图形处理器集群)、72组TPC(纹理处理器集群)、144组SM(流式多处理器单元),而每组SM有128个FP32 CUDA核心,总计1843个。
显存支持六颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。
Tensor张量核心来到第四代,共有576个,另有60MB二级缓存。
扩展互连支持PCIe 5.0、NVLink第四代,后者带宽提升至900GB/s,七倍于PCIe 5.0,相比A100也多了一半。整卡对外总带宽4.9TB/s。
性能方面,FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。
H100计算卡采用SXM、PCIe 5.0两种形态,其中后者功耗高达史无前例的700W,相比A100多了整整300W。
按惯例也不是满血,GPC虽然还是8组,但只开启了66组TPC(魅族GPC屏蔽一组TPC)、132组SM,总计有16896个CUDA核心、528个Tensor核心、50MB二级缓存。
显存只用了五颗,最新一代HBM3,容量80GB,位宽5120-bit,带宽高达3TB/s,相比A100多了一半。
史无前例的DGX H100
在拥有了强大的芯片基础后,NVIDIA也拥有了强大的算力基础,并以此推出了更加强大的AI运算系统:DGX H100。
据官方介绍,该系统集成了八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器)。在规格方面,它总共有用6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。
性能方面,DGX H100的AI算力为32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。
同时,它还配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。
事实上,如此强大的DGX H100还只是最小的计算单元。为了扩展其应用规模,NVIDIA本次还设计了全新的VNLink Swtich互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。
在这套拥有极致性能的系统内,NVIDIA为其塞入了20.5TB HBM3内存,总带宽768TB/s,AI性能高达颠覆性的1EFlops(100亿亿亿次每秒),实现百亿亿次计算。
据黄仁勋表示,目前DGX H100的合作伙伴包括Atos、思科、戴尔、富士通、技嘉、新华三、慧与、浪潮、联想、宁畅、超威。
另外,该系统的云服务合作伙伴包括阿里云、亚马逊云、百度云、Google云、微软Azure、甲骨文云、腾讯云。
广泛的应用领域
众所周知,近几年兴起的人工智能浪潮,根本原因正是计算力的快速发展,结合互联网、物联网带来的海量数据和深度学习等先进算法共同催生而成,其实际应用效果和社会影响力远远超出以往。
但是,随着人工智能的快速发展,更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下,如果计算力不能相应增长,整个人工智能的学习过程将变得无比漫长。可以说,人工智能对计算的需求是永无止境的。
正式基于以上背景,我们也就不难理解NVIDIA在这机年中快速崛起的真正秘诀:正是因为其强大的GPU有效弥补了CPU的不足,并大大加速了处理高强度计算负载的能力,从而让GPU计算的潜力得以全面的释放。
在本次GTC大会上,NVIDIA不但推出了强大的运算芯片,还就AI领域的发展、以及该技术在科研、数字孪生、自动驾驶乃至金融等行业的深度应用作出了前瞻。
在我们看来,NVIDIA一系列围绕人工智能领域的布局和创新,不仅是大势所趋,更是这家芯片业巨头在新时代的新使命。可以说,AI赋予了NVIDIA未来更大的想象力,而NVIDIA也正引领人工智能走向更大的舞台。
原文来自http://www.toowtech.cn/nws_admin.php/index/index
VR头显真的需要到180Hz吗?
2020-05-13
数字化虚拟景区:未来必然趋势
2020-05-15
前HTC CEO周永明发布了一体式VR头显Mova
2020-05-27
iPad Pro:HoloLens 2第三人称视角的最佳解决方案
2020-05-13
全球首次!圆周率科技5G+VR直播带你“云登顶”世界屋脊
2020-05-28