大举攻向数据中心市场:Arm新服务器芯片设计性能提升50%

2021年4月29日 | By News | Filed in: News.

https://ift.tt/3t1Pdqu


作者 |  心缘

编辑 |  漠影

两者都支持新的数据类型和指令集,并针对高性能计算和AI等工作负载做了优化。

去年9月,Arm发布新的Neoverse N2和V1平台,但并未提及详细性能。如今Arm正式公开两款全新平台的性能、能效、总拥有成本等细节,以及腾讯、阿里等合作伙伴采用该设计的案例,并宣布基于N2的芯片预计将在今年下半年推出

尽管Arm并未直接对比Neoverse平台与英特尔AMD产品的性能,但从图中可以看到,Neoverse系列芯片已经非常有竞争力。

同时,Arm也发布了构建基于Neoverse V1和 N2 平台高性能SoC的关键部件——CMN-700。

Arm基础设施事业部高级副总裁兼总经理Chris Bergey称,Arm想改变行业对部署基础设施的思维,每一个创新者都不应该被要求在性能与能耗之间进行抉择,而Neoverse平台提供了两者兼得的最佳解决方案。

一、Arm Neoverse已走过十年历程

Arm基础设施业务高级副总裁Chris Bergey说:“现在是时候让Neoverse跨越所有基础设施了。”

从起步至今,Arm Neoverse已经走过十年历程。

早期其基础设施内核是Cortex-A72,有出色的能效比、媲美竞争对手的单核性能表现,通过合作伙伴的智能网卡、DPU、物联网芯片在网络及边缘应用场景中发挥价值。

随后,2019年,Neoverse N1和CMN-600 Mesh网络将线性性能扩展到非常高的内核数量,更加适合云服务。据其分享,N1单核性能已经比肩或超过传统SMT线程的性能。

Arm技术专家称,尽管其竞争对手陆续推出新的芯片,但它们仍无法与N1的单线程性能匹敌。

通过Neoverse V1和N2,Arm想进一步改变业界对部署基础设施的看法,使得大家无需在性能与能效之间做选择,而是两者兼得。

Arm还将帮助合作伙伴在单芯片或多芯片封装中,都能以同质或异质的方式提供解决方案。

据Arm技术专家介绍,Arm与领先的晶圆代工厂深入合作,在多个先进的工艺节点上开发出了性能和功耗优化的POP IP。

随着Project Cassini和Arm SystemReady启动,Arm的标准和认证项目计划正持续推进,并逐步扩展到基础设施和物联网边缘。

今天,Arm正式揭晓Neoverse V1和N2平台的技术细节。

二、Neoverse V1:机器学习工作负载可提升4倍

Neoverse V1是Arm强调性能优先的新型计算系列的第一个平台,客户可基于该架构灵活地为大型数据中心服务器设计芯片。

这是Arm迄今设计的最宽微架构,Arm预期它在多核配置中能胜过市场上其他产品。

Arm为其加宽了微架构,并增加了缓冲区和队列的深度,因此在运行中能容纳更多运行中的指令,支持高性能和百万兆级计算等市场应用。

与N1相比,Neoverse V1带来了50%的性能提升,在各种矢量工作负责中性能优化约1.8倍,通过各种新的指令,机器学习工作负载最高可优化4倍。

客户可以自由选择适当的IO尺寸,并利用芯片集和多芯片功能来提高内核数量和性能,不过采用的方法是组合可提高良品率、降低成本的小型芯片。

法国芯片公司SiPearl和韩国电子通信研究所( ETRI)的高性能计算(SoC)均可展现这些设计元素的优势,这被Arm看作是高性能计算的发展方向。

V1新增的一个关键功能是SVE,可使其在每核性能方面领先,使用SVE的代码寿命更长,并为SoC设计者提供更好的灵活性。

SVE为开发者提供了一套全新的矢量编程和数据操作工具,能直接取用相同代码进行自动矢量化,处理速度相比NEON可提高3.5倍。

由于SVE与矢量长度无关,因此相同代码不加修改即可在V1上运行,如果在V1上加倍SVE矢量的宽度,对应处理速度也几乎提速1倍。

三、Neoverse N2:单线程性能提升了40%

另一种芯片微架构Arm Neoverse N2平台,是第一个基于Arm公司最新Armv9架构的内核,也是第一个具备SVE2功能的平台。

Neoverse N2在安全性、能耗以及性能方面都有全面提升,并能为用户减少TCO的每瓦性能表现。相比于N1,N2在保持相同水平的功率和面积效率的基础上,单线程性能提升了40%。

N2具备良好的可扩展性,可以横跨从高吞吐量计算到功率与尺寸受限的边缘和5G应用场景,并在这些应用中带来优于N1的表现。例如,在云端上提升1.3倍的NGINX,在5G边缘应用上提升1.2倍的DPDK数据包处理。

SVE2是Armv9的重要特性之一,能显著提升从云到边缘的性能效率、可扩展性及安全性。

和SVE一样,SVE2也属于与矢量长度无关的指令集,用户只需编写、编译一次代码,即可在各种硬件上运行,还能充分利用可用的矢量带宽。

在机器学习、数字信号处理、多媒体、5G系统等广泛应用场景中,SVE2不仅带来大幅性能提升,还带来了SVE具备的编程简易性及可移植性等优势。

四、新Mesh互连技术助力打造异构SoC

构建基于V1和N2高性能SoC的关键要素,就是Arm Neoverse CMN-700 Mesh互连技术。

CMN-600为可扩展、高内核数、高性能SoC奠定了基础,在此基础上,新一代Arm Neoverse CMN-700被Arm称作是业界最先进的Mesh互连技术,在每个矢量上进一步提升了性能——从内核的数量、缓存的大小,到附加内存和IO设备的数量和类型。

对于基于V1的高性能计算平台而言,支持高带宽DDR5和HBM内存系统至关重要,而CMN-700即可实现这一点。

其另一个关注重点是对多芯片功能的助益,以便为数据中心资源池化的增长提供更多定制选项。CMN-700中还增加了CXL功能,可为内存扩展和智能一致性加速器构建主机或端点设备。

多芯片功能的一项重要升级是针对传统多插槽设计和新的芯片集或多芯片集成提高性能和优化功能,这为突破传统的硅掩膜版限制提供新的机遇,同时也使得紧密耦合的异构计算能拥有更大的灵活性。

五、腾讯、阿里均已测试Neoverse平台,服务器性能提升明显

基于Neoverse平台的新功能,Arm合作伙伴及客户能更加顺利地实现从云端到边缘的部署。

Honeycomb.io证实说,他们在15小时内便完成将其接收量应用程序移植到AWS Gravition2上,同时工作流程的实例使用量减少了30%。

在云服务方面,腾讯与Arm持续合作,腾讯在硬件测试和软件支持方面持续投入,使其在云应用上能采用Arm Neoverse技术,每瓦性能表现出色,软件部分既支持已编译和解译的代码库,也支持为这些代码库提供支撑的微服务框架。

腾讯专项测试技术中心总监黄闻欣(Victor Huang)说,通过TencentBench测试框架发现,得益于更多可扩展的CPU核心数,Arm服务器比传统的服务器性能表现更强劲,尤其在AI推理和图片处理领域优势非常明显。

阿里云在即将上线的基于Arm架构ECS实例上完成了测试,并在SPECjbb测试数据中表现出色,通过双方紧密合作,基于Arm架构运行的DragonWell JDK性能提高了50%。用户及开发者现可到阿里云网站上注册,获取Arm系列实例的受邀测试。

亚马逊云科技(AWS)通过收购Annapurna Labs部门成为Arm Neoverse的早期使用者,其自研服务器芯片AWS Gravition正快速布建于AWS的各个服务区域。而过去AWS推出的新实例中,有近一半是基于Graviton2平台的。

除了在主流应用用例中,Graviton2和Neoverse也被应用于更多专用处理的应用场景。例如在EDA方面,Arm获得了所有主要工具供应商的支持,并且详细计划了Arm如何将EDA的工作负载移上云端。

甲骨文(Oracle)已宣布计划在Oracle云基础设施上采用Ampere Altra CPU,为各种工作负载提供最佳的性价比。

在高性能计算(HPC)方面,今年4月,印度电子信息技术部(MeitY)宣布将加入法国芯片公司(SiPearl)和韩国电子通信研究所(ETRI)的行列,采用Neoverse V1驱动国家级百万兆级高性能计算项目。

在通信方面,Marvell发布了基于Neoverse N2的OCTEON系列网络解决方案,预计将于2021年底前试产,比上一代OCTEON的性能提升3倍。

结语:Arm正大举攻向服务器芯片市场

对于目前运行的各种工作负载和应用程序,Arm正尝试推出能兼顾高算力和低功耗的计算解决方案,这对于主导x86架构的服务器处理器供应商英特尔和AMD无疑正造成新的冲击。

但Arm表示,意味着,“一刀切”计算方法不再是合适的解决方案。这是对使用x86架构的主要服务器供应商英特尔和AMD一次攻击。

今天Arm新公布的讯息还只是冰山一角。总体来看,Arm正在提高其在计算机市场的竞争力。随着Arm处理器大量走向云端服务器,已经垄断绝大多数手机处理器市场的Arm,将会无处不在。

IT.数码

via cnBeta.COM https://www.cnbeta.com

April 28, 2021 at 03:51PM


发表评论

邮箱地址不会被公开。 必填项已用*标注