英特尔AI芯片中国定制版发布!打的就是英伟达A100
![](http://d.ifengimg.com/q100/img1.ugc.ifeng.com/newugc/20181214/14/wemedia/0530be1f68384b1281cefd8d538dcf434d4544bb_size11_w200_h200.png)
AIGC时代,谁说炼大模型就一定得用GPU?
英特至强CPU,运行扩散模型Stable Diffusion只需5秒就能出图。
而在这两天,专门搭载在该CPU上使用的AI加速器更是新鲜出炉。
它叫Gaudi2,面向中国市场发布,用于加速AI训练及推理,有了它,大规模部署AI便多了一种新选择。
![](https://x0.ifengimg.com/res/2023/9488DA7410123E73D3CB00CF2DC9557BEB66FB71_size83_w1080_h720.jpg)
性能上,它在MLPerf最新报告中的多种训练和推理基准测试中都直接超越了英伟达A100,并提供了约2倍的性价比。
至于H100,它虽然还不能敌过,但若拉上成本,则也能“扳回一局”。
![](https://x0.ifengimg.com/res/2023/B37F4CD9DF1FAC18CF7271280F60C1E675E291D6_size303_w566_h365.png)
这款主打超强性价比的AI加速器,究竟什么来头?
全新Gaudi2加速器,性能超A100
Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B,以第一代Gaudi高性能架构为基础,加速高性能大语言模型运行。
(ps. Gaudi1代处理器诞生于2019年,其背后公司来自以色列,当年年底被英特尔以20亿美元收购,如今成为英特尔“叫板”英伟达的重要底气。)
Gaudi2采用7nm制程工艺,具备24个可编程Tensor处理器核心(TPCs),支持面向AI的各类高级数据类型:FP8、BF16、FP16、TF32和FP32。
它配备21个100 Gbps(RoCEv2)以太网接口,可通过直接路由实现Gaudi处理器间通信(相比原版少了3个,但英特尔公司执行副总裁Sandra Rivera介绍,这对整体性能影响基本不大)。
同时,它还能做到2.4TB/秒的总内存带宽,先进的HBM控制器则针对随机访问和线性访问进行了优化,在各种访问模式下都可以提供这一保证。
此外,48MB片上SRAM和集成多媒体处理引擎亦是标配。
![](https://x0.ifengimg.com/res/2023/ABDA7CEF99997C65D5990AA910867508A980BC70_size258_w684_h744.png)
就在上个月公布的MLCommons® MLPerf®基准测试中,Gaudi2在1750亿参数的GPT-3模型训练上表现出色,使用384个加速器上耗时311分钟就完成了训练。
虽然相比之下,英伟达只需61分钟便可,但这样的成绩需要512个H100——由于Gaudi2的成本要远低于H100,所以要论性价比,Sandra Rivera表示,Gaudi2是更具诱惑力的选择。
与此同时,Gaudi2在基于8个和64个加速器助力的BERT、8个加速器助力的ResNet-50和Unet3D训练结果上,全部优于A100。
此外,Gaudi2也可为大规模的多模态和语言模型提供出色的推理性能。
在最近的Hugging Face评估中,其在大规模推理方面的表现,包括在运行Stable Diffusion、70亿以及1760亿参数BLOOMZ模型时,在行业内均保持领先。
能耗方面,训练计算机视觉模型时,Gaudi2的每瓦性能是A100的2倍,推理176B参数的BLOOMZ时,功耗则可降低40%。
![](https://x0.ifengimg.com/res/2023/971E30CFC9E7E2193BEF662DE91129C978357D50_size617_w1080_h703.png)
——不仅性能和功耗强大,英特尔还提供了配套的成熟软件支持:SynapseAI。
它可以方便开发者轻松构建模型,或将当前基于GPU的模型业务和系统迁移到基于全新Gaudi2服务器。
同时,SynapseAI集成了对TensorFlow和PyTorch框架的支持,提供众多流行的计算机视觉和自然语言参考模型,可以满足深度学习开发者的多样化需求。
另外,说到Gaudi2服务器,现在,英特尔已与浪潮信息合作,打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。
该服务器集成了8颗Gaudi2加速卡HL-225B,还包含双路第四代英特尔至强可扩展处理器,进一步帮助大家高效部署大模型。
![](https://x0.ifengimg.com/res/2023/2C19A5FFA199B84B631283268EF8A2CA4AD37E49_size334_w808_h545.png)
最后,值得一提的是,在发布会后的交流环节中,当被问及英特尔是否有一个预期,能占领多少AI加速芯片的市场时,Sandra Rivera表示:
国内AI产品需求非常大,产品完全不够用。因此市场就在那里,在这种情况下我们不用特别设什么份额的目标,就把最好的产品带出来,满足市场需求,帮助大家创新,这就是我们想要做的事情。
而据量子位现场获悉,明年,能够进一步缩小差距甚至超越英伟达H100的Gaudi3就将问世。
与此同时,2025年之时,英特尔还将整合既有的GPU Max产品线和Gaudi系列,取两者之长,推出更加完整的下一代GPU产品。
而在这之中,英特尔将对大家最为关心的可持续软件生态做大笔投入。
(咳咳,好戏才刚刚开始~)