突破局限，第四代至强以七大算力神器诠释工作负载至上-木庄网络博客

本文摘自飞象网，原文链接：http://www.cctime.com/html/2023-1-19/1641204.htm，侵删。

（魏德龄/文）身处数字化转型浪潮的当下，人们对于运算的认知也正在发生变化，除了本地算力，边缘与云端的算力对于工作娱乐生活的影响越来越大，它决定了生命科学的进展、大数据的推理、搜索内容的准确性、视频流媒体的清晰与否、网络能否保持稳定流畅等诸多方面。

英特尔至强可扩展处理器在其中一直发挥着至关重要的作用，无论是企业的服务器与数据中心，还是电信运营商的5G网络部署与云化转型，甚至可能是部分城市中的VR电玩店，都能看到至强的身影。自2017年英特尔推出了第一款至强可扩展处理器以来，英特尔已经向全球客户交付了超过8500万颗至强可扩展处理器，支持着全世界的数据中心。其中，在过去两年，第三代英特尔至强可扩展处理器已全球累计出货1500万颗。

面对当下的种种现实工作负载需求，最新发布的第四代至强不仅仅单纯依靠于主频与核心的提升来满足实际需求，更是通过七大算力神器，开启一个CPU 芯片设计理念和架构的新纪元。

七大算力神器突破现有局限

突破局限，第四代至强以七大算力神器诠释工作负载至上

“从行业应用需求到真实物理世界的局限性，我们越来越清晰地感知到，仅仅依靠核心频率和核心数量的增强，将不能满足我们在真实工作负载场景下对CPU性能更高的追求。”英特尔市场营销集团副总裁庄秉翰在产品发布过程中表示。

突破局限，第四代至强以七大算力神器诠释工作负载至上

第四代至强专门针对人工智能、5G网络、数据分析、科学计算等现代工作负载，引入全新的针对实际工作负载优化加速的设计理念，采用系统级设计方法，在CPU 芯片架构中内置专用的工作负载加速器，以提升性能和效率。实际上，这种针对实际工作负载的优化，目前已经成为了芯片设计中的新方向，例如个人电脑芯片会针对视频转码工作，进行专门的硬件加速设计。CPU的一些工作也逐步被GPU、NPU所分流，进而释放更多算力空间。

第四代至强专门提供了七大算力神器来针对不同的实际工作需求，包括了：加速深度学习实时推理和训练性能提升的英特尔AMX加速器；加速处理网络数据系统性能提升的英特尔DLB加速器；加速在存储、网络工作负载中常见的流数据移动的英特尔DSA加速器；加速在数据分析工作负载中优化内存占用和查询吞吐量的英特尔IAA加速器；加速网络吞吐量以及压缩解压缩功能的英特尔QAT加速器；加速平台安全性能的英特尔安全技术策略组合；以及提供高带宽内存的英特尔至强CPU Max系列。在基础参数上，第四代至强采用Intel 7制程，通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器，以及业界领先的DDR5、CXL1.1、PCIe 5.0。

其中英特尔AMX专属AI加速器，大幅提升矩阵乘法运算，为人工智能加速提供了全新方式，与上一代（FP32）相比，内置英特尔高级矩阵扩展（英特尔AMX）（BF16）的PyTorch实时AI推理和训练性能提高了10倍。结合通用CPU计算单元，第四代英特尔至强可扩展处理器可以端到端运行任何AI工作负载。

英特尔动态负载均衡加速器（英特尔DLB）支持在多个CPU内核及线程间高效分布网络工作负载，实现分布式处理，并在负载不平衡时，动态地将数据负载重新分配到各个CPU内核上，实现动态负载均衡。此外，英特尔DLB还可以调整CPU内核上同时处理的网络数据包的顺序，实现动态网络处理重排序，从而达到更高的整体系统性能。测试数据显示，与Istio入口网关软件在6核12线程上的工作性能相比，第四代英特尔至强处理器在相同吞吐量（RPS）下可降低96%延迟。与前一代处理器相比，在相同功率范围下，vRAN工作负载的容量提升高达2倍。

阅读剩余部分

突破局限，第四代至强以七大算力神器诠释工作负载至上

相关推荐

评论