英特尔AI芯片中国定制版发布！打的就是英伟达A100

量子位

2023-07-13

AIGC时代，谁说炼大模型就一定得用GPU？

英特至强CPU，运行扩散模型Stable Diffusion只需5秒就能出图。

而在这两天，专门搭载在该CPU上使用的AI加速器更是新鲜出炉。

它叫Gaudi2，面向中国市场发布，用于加速AI训练及推理，有了它，大规模部署AI便多了一种新选择。

性能上，它在MLPerf最新报告中的多种训练和推理基准测试中都直接超越了英伟达A100，并提供了约2倍的性价比。

至于H100，它虽然还不能敌过，但若拉上成本，则也能“扳回一局”。

这款主打超强性价比的AI加速器，究竟什么来头？

全新Gaudi2加速器，性能超A100

Gaudi2深度学习加速器暨Gaudi2夹层卡HL-225B，以第一代Gaudi高性能架构为基础，加速高性能大语言模型运行。

（ps. Gaudi1代处理器诞生于2019年，其背后公司来自以色列，当年年底被英特尔以20亿美元收购，如今成为英特尔“叫板”英伟达的重要底气。）

Gaudi2采用7nm制程工艺，具备24个可编程Tensor处理器核心（TPCs），支持面向AI的各类高级数据类型：FP8、BF16、FP16、TF32和FP32。

它配备21个100 Gbps（RoCEv2）以太网接口，可通过直接路由实现Gaudi处理器间通信（相比原版少了3个，但英特尔公司执行副总裁Sandra Rivera介绍，这对整体性能影响基本不大）。

同时，它还能做到2.4TB/秒的总内存带宽，先进的HBM控制器则针对随机访问和线性访问进行了优化，在各种访问模式下都可以提供这一保证。

此外，48MB片上SRAM和集成多媒体处理引擎亦是标配。

就在上个月公布的MLCommons® MLPerf®基准测试中，Gaudi2在1750亿参数的GPT-3模型训练上表现出色，使用384个加速器上耗时311分钟就完成了训练。

虽然相比之下，英伟达只需61分钟便可，但这样的成绩需要512个H100——由于Gaudi2的成本要远低于H100，所以要论性价比，Sandra Rivera表示，Gaudi2是更具诱惑力的选择。

与此同时，Gaudi2在基于8个和64个加速器助力的BERT、8个加速器助力的ResNet-50和Unet3D训练结果上，全部优于A100。

此外，Gaudi2也可为大规模的多模态和语言模型提供出色的推理性能。

在最近的Hugging Face评估中，其在大规模推理方面的表现，包括在运行Stable Diffusion、70亿以及1760亿参数BLOOMZ模型时，在行业内均保持领先。

能耗方面，训练计算机视觉模型时，Gaudi2的每瓦性能是A100的2倍，推理176B参数的BLOOMZ时，功耗则可降低40%。

——不仅性能和功耗强大，英特尔还提供了配套的成熟软件支持：SynapseAI。

它可以方便开发者轻松构建模型，或将当前基于GPU的模型业务和系统迁移到基于全新Gaudi2服务器。

同时，SynapseAI集成了对TensorFlow和PyTorch框架的支持，提供众多流行的计算机视觉和自然语言参考模型，可以满足深度学习开发者的多样化需求。

另外，说到Gaudi2服务器，现在，英特尔已与浪潮信息合作，打造并发售基于Gaudi2深度学习加速器的浪潮信息AI服务器NF5698G7。

该服务器集成了8颗Gaudi2加速卡HL-225B，还包含双路第四代英特尔至强可扩展处理器，进一步帮助大家高效部署大模型。

最后，值得一提的是，在发布会后的交流环节中，当被问及英特尔是否有一个预期，能占领多少AI加速芯片的市场时，Sandra Rivera表示：

国内AI产品需求非常大，产品完全不够用。因此市场就在那里，在这种情况下我们不用特别设什么份额的目标，就把最好的产品带出来，满足市场需求，帮助大家创新，这就是我们想要做的事情。

而据量子位现场获悉，明年，能够进一步缩小差距甚至超越英伟达H100的Gaudi3就将问世。

与此同时，2025年之时，英特尔还将整合既有的GPU Max产品线和Gaudi系列，取两者之长，推出更加完整的下一代GPU产品。

而在这之中，英特尔将对大家最为关心的可持续软件生态做大笔投入。

（咳咳，好戏才刚刚开始～）

继续阅读(剩余50%)

查看全文