AI时代CPU不只打辅助！英特尔腾讯云聊聊它在算力里的“新角色”

现在，数字世界和AI发展很快。企业对算力的需求变得很不一样。以前大家可能用一套办法就行了。但是AI出来后，算力需求就变得特别复杂，大家必须更细致地去考虑。

李德铠说过一句话，很有道理：“AI算力的最终，是电费问题。”你想想，现在的大模型越来越大，它需要的电量简直是个天文数字。这样一来，电费在算力总开销里就占了大头。如果企业只追求算力跑得快，不考虑功耗，那肯定会陷入“高能耗、高成本”的循环。但是，像玩3A游戏或者用AI生成图片、视频，这些场景又很挑剔。它们需要算力主频高、内存带宽大、并行计算能力强。要是性能不行，用户体验就差了。

所以说，算力需求现在分成了两类：一类场景要算力全速跑，不计成本；另一类场景就要精打细算，最好又快又省电。陈葆立也说了，这种区分不是一阵子的事，而是AI时代一直都会这样。

而且，除了跑得快不快、花钱多不多，数据安全和好不好用也很关键。现在数据特别值钱，所以企业对数据的存储、传输、计算，整个流程都要很安全。大家不希望自己的数据出问题。再说了，你选的算力方案，能不能和我现在用的系统配合好？要是不能，那部署起来就费劲，以后想换地方也麻烦，花钱还多。陈葆立强调，企业买的不是单单的算力，它还需要一套完整的安全保护和能一起用的服务。

以前企业总想用一个通用方案来解决所有算力问题，现在看，AI时代行不通了。不同业务的需求很不一样。比如，玩大型游戏，它需要CPU单核主频高，这样操作才不会卡顿；视频转码呢，它需要同时处理大量任务，这样能省钱；AI做推理，它就得要加速矩阵运算，才能提高效率；网页服务最重要的就是稳定，不能忽快忽慢。

这些细分的场景，就要求算力要“量身定做”，不能“一刀切”。腾讯云和英特尔看到了这个趋势。他们一起推出了好几种产品组合。这样，不同的业务场景都能找到最适合自己的算力方案。

英特尔和腾讯云是怎么做的

面对这些算力难题，英特尔和腾讯云一起想办法。他们不只是把各自的产品简单堆起来，而是从芯片设计到云服务器，从硬件优化到软件配合，把整个链条都重新设计了。他们的目标很明确：既要提供高性能的算力，也要提供人人都能用的普惠算力。

英特尔在新的至强®6处理器里，设计了两种不同的核心。陈葆立说：“一种是性能核P-core，另一种是能效核E-core。我们希望用这两种核心，给客户提供不同的算力服务。”

P-core主要追求极致性能。它有高主频、大缓存、高内存带宽这些特点。所以，它很适合AI训练、高性能计算这些需要算力全开的场景。而E-core呢，它更注重每个核心的密度和每瓦特的性能。它设计得更精简，在保证性能的同时还能降低功耗。所以，它特别适合像云服务、高并发处理这些既要效率又想省钱的场景。

腾讯云就基于英特尔至强®6的这两种核心，推出了S9E、S9Pro和S9三种云服务器。S9E和S9Pro主要提供极致性能，它们用了至强®6 P-core。这些服务器专门给AI、游戏、图像渲染这类高性能应用设计。而S9服务器，它是全球第一个搭载至强®6 E-core的云服务器。它主要目标就是高性价比，而且很适合高并发的应用。

高性能场景：CPU和GPU怎么一起干活

在RAG（检索增强生成）这种高性能场景里，大家以前都觉得GPU能干所有重要的活，CPU没啥用。但是，基于英特尔至强®6 P-core的S9E/S9Pro，用实际表现告诉大家，CPU也有大用。

陈葆立说：“现在是大模型时代，GPU和CPU各有优点。GPU算力强，但是CPU的内存更大。”他打了个比方，CPU就像篮球赛里的控球后卫。它不光能把球传给GPU这个前锋去得分，它自己也能投篮得分。

首先，CPU能帮助GPU把性能发挥得更好。陈葆立解释说：“大模型就像一个记性不太好的聪明人，它没办法在GPU里记住特别多的用户聊天内容。”但是，如果CPU和系统内存一起配合，它就能让GPU的能力变得最大。

举个例子，在RAG场景里，用CacheClip技术就能做到这一点。这是它的工作原理：CacheClip技术能提高KVCache的利用率。这样一来，它就能处理更长的用户输入，也能让程序跑得更快。

而且，英特尔还推出了一个叫HeteroFlow的框架。它的工作是这样的：MoE模型里有一些模块，它们不是总在用，就像“冷专家”。HeteroFlow能把这些“冷专家”直接交给CPU来处理。这样，GPU就能专心处理最核心的任务，不用担心内存不够用。整个系统的性能就提高了。

很多客户在做语音合成（TTS）、语音识别（ASR）、文字识别（OCR）这类预处理任务时，日常开销很大。这笔钱，甚至比之后大模型推理的费用还要多好几十倍。以前，GPU还得抽空去做这些AI的前期准备工作。但是，AI任务里的非结构化数据解析、格式转换、特征清洗，这些看起来是“细活”，其实需要强大的并行处理能力和快速的数据读写。这正是CPU的强项。

而且，数据预处理通常流程很复杂、数据量很大、需要灵活扩展。它对实时性要求不高，但是要求处理速度快。这些需求，都和至强®6的架构很搭。CPU把这些预处理的工作扛下来了，GPU就不用在训练和推理这些核心任务，以及预处理这种辅助任务之间来回切换了。这样一来，算力和时间一点儿都不会浪费。陈葆立这样解释。

李德铠也补充说，这种CPU和GPU一起干活的办法，不光帮客户解决了GPU资源紧张的燃眉之急，而且还能降低部署成本和系统延迟。整个流程的性能都提高了。

其次，CPU自己也能在AI任务上表现很好。英特尔至强®6 P-core里，有AMX加速引擎。这个引擎是专门给AI训练和推理用的。它能帮客户提高效率，还能降低推理、训练和部署的成本。这样，总拥有成本（TCO）也降低了。而且，AMX直接集成在CPU核心里，离系统内存很近。所以，它比单独的加速器用起来更方便，也更快。

李德铠举例说：“S9e/S9pro用AMX的矩阵加速能力，就能高效处理Embedding（向量嵌入）、数据清洗和中小型模型的推理任务。”腾讯云的实际测试数据显示，在处理千问4B小模型的Embedding任务时，搭载英特尔至强®6 P-core的S9E/S9Pro，比T4 GPU卡快了25%。而且，它的综合性价比直接高了66%。

当然，在玩游戏、AI渲染和处理图片这些传统高性能场景里，S9E/S9Pro也很受欢迎。它主频高，内存带宽也大。李德铠介绍说：“玩游戏时，玩家操作要立刻有反应，S9E/S9Pro能保证数据传输速度快、延迟低。这样，操作命令就能马上生效，不会卡顿。”另外，在AI渲染和图像处理时，S9E/S9Pro的多线程核心和高内存带宽，也能帮企业快速处理很多数据。这样能提高渲染效率，缩短项目完成时间。

普惠场景：便宜也能跑得好

李德铠强调：“普惠不代表性能差。搭载至强®6 E-core的S9服务器，比上一代产品性能快了15%到20%。”他说，S9能稳定支持网页服务、小程序这类轻负载场景，即使很多人同时访问也没问题。

S9可以做到“性能稳定不抖动，满载也不会降速”。这背后是英特尔和腾讯云在设计上很较真，不妥协。

陈葆立说：“我们肯定不希望普惠版的云服务器性能变差。”在硬件上，英特尔在E-core里关闭了超线程功能。这是它的工作原理：这样做，就能让每个虚拟机拥有自己独立的物理核心、显存和内存。这样，不同的用户就不会互相影响性能，系统就能稳定运行。

而且，能效核E-core就像它的名字一样，很省电。它在性能更好的同时，功耗却更低。这也很符合国家提倡的节能环保理念。

在软件优化上，腾讯云也做了很多普通用户看不到的工作。其中最关键的是“绑核设计”。这是它的工作原理：他们把CPU核心和虚拟机绑定起来。这样，即使某个虚拟机在处理大量任务，它也不会影响到整块CPU的其他性能表现。同时，他们还优化了CPU和总线、内存的配合方式。这样能缩短数据传输的距离，提高计算效率。李德铠补充说：“‘绑核设计’对那些需要大量计算的任务，帮助很大。”

这种软硬件一起优化，让S9在教育行业很受欢迎。教育机构的录播视频课程，通常需要转换成好几种清晰度，来适应不同的网络环境。S9服务器配上英特尔的软件库之后，视频转码的速度快了90%以上。这样不光降低了成本，还能保证课程传输很流畅。

李德铠补充说，S9能处理很多同时进行的请求，所以在网页服务和小程序场景里也很受欢迎。很多客户反馈，S9能稳定应对高峰期的访问量，而且比传统的服务器花钱更少。

而且，基于英特尔至强®6 E-core的S9云服务器，在腾讯内部的那些超大业务里，也得到了验证。

就拿微信存储来说吧。他们不光通过S9的高I/O配置和软件优化，解决了Gen5 SSD高速读写带来的存储压力。他们还用了英特尔的QAT（数据保护与压缩）加速器，让存储压缩效率提高了70%。这样，微信真的做到了“用更少的空间存储更多的数据”。

在搜索业务这边，腾讯新一代的大规模搜索引擎，也用了S9的平台能力。这样，他们的“元宝”搜索性能快了15%。另外，在大数据业务里，S9服务器的多核心并行处理能力和扩展性，也帮腾讯很明显地省了钱，提高了效率。

成功背后：合作是关键

英特尔和腾讯云的成功，不只是因为产品好，更是因为他们合作得很深入。李德铠说：“我们两个的合作，已经不只是简单的买卖关系了。我们是一起定义产品。”他说，腾讯的原则是用户价值第一，英特尔是客户场景为核心，所以他们想法很一致。他们不会盲目追求技术参数有多高，而是先听市场和用户的声音，然后再回来决定产品要怎么做。

这种想法一致，体现在整个合作过程里。在芯片设计时，英特尔就和腾讯云紧密沟通，了解最终用户到底需要什么，然后专门设计芯片。在定义产品时，他们一起规划S9E、S9Pro和S9这三种云服务器要怎么定位，确保硬件结构能和使用场景精准匹配。在技术优化时，双方的专家还会一起研发，用好AMX、QAT这些指令集。这样，才能把好的技术真正变成客户能感受到的价值。

AI Agent来了，算力要变

谈到未来，李德铠说：“AI现在的技术热点，已经从大模型转向了Agent（智能体）。”他认为，这会给算力需求带来新的变化。

在AI刚开始发展的时候，算力资源几乎都用在“模型训练”上。但是随着AI Agent时代的到来，这个重点正在改变。它从“侧重训练”变成了“侧重推理”。陈葆立指出：“专家们预测，未来推理算力的需求会是现在训练算力的10倍。”以前，模型训练主要是GPU在干，它算力强。但是，AI Agent架构里各种各样的推理任务，会让CPU的角色变得很重要。

李德铠说：“Agent的本质是‘大脑加上工具’。GPU负责思考，而CPU负责执行。”这是它的工作原理：CPU要跑Python代码、查询数据库、读写文件、处理网络通信等等。每做一步推理后，CPU都要介入处理那些非线性的逻辑。这会让CPU的工作量大大增加。腾讯云第九代云服务器和至强®6平台，就是为了提供更高性能、更省电的通用算力，帮助客户处理好推理和Agent带来的计算密度问题。

同时，在“算力就是钱”的AI时代，系统必须稳定可靠。AI计算集群现在正向几万张卡那么大的规模发展，系统越复杂，计算量越大，就越容易出现一些不容易察觉的数据错误。

陈葆立指出，至强®6有“99.999%的RAS能力”。RAS指的是可靠性、可用性和可维护性。这能全面保证整个系统稳定运行。而且，它还内置了TDX技术。这是它的工作原理：TDX技术能为云服务提供硬件级别的可信执行环境。它支持通用机密计算和异构机密计算，能帮助我们搭建从头到尾都可信的AI服务。

李德铠补充说：“TDX技术就像帮我们在云上打造了一个‘数据保险箱’。企业可以很顺利地把它的AI模型和Agent应用部署到S9系列服务器上，这样就能保证模型和数据的安全。”

而且，AI应用的爆发，也意味着需要处理的数据会越来越多。这会让内存、SSD这些硬件厂商面临更高的要求，也给系统兼容性带来新的挑战。陈葆立表示：“英特尔作为平台提供方，一直都和很多伙伴厂商紧密合作。我们互相验证，这样才能确保整个平台的高质量、高安全、高可用。”

另外，英特尔最新的18A制程工艺已经开始大规模生产了。它能让性能快15%，密度高30%。用18A工艺做的至强®6 Plus处理器（Clearwater Forest），会在2026年发布。现在英特尔已经和一些硬件厂商、腾讯云等伙伴，开始提前测试了。

李德铠说：“下一步，随着英特尔18A这些新工艺的发展，我们也会第一时间推出配合下一代芯片性能的云服务器。”他说，他们还在紧张研发支持vRDMA网络的新一代CVM机型。这能让底层硬件的数据传输能力进一步发挥出来。而且，在加密计算、可信计算这些对安全性要求很高场景里，他们也会继续改进。他们会利用最新的指令集，给企业的数字化转型和AI应用提供一个更高效、更安全、更省钱的基础。

我的想法

算力现在变得既要分开，又要一起用。我认为，这是AI产业从只谈技术，走向真正解决问题的必然。当大家的热情退去，企业会更理性地去看待算力。算力的核心竞争力，从来不是堆砌多少参数，而是能不能准确响应场景需求，并且把资源用得最好。

英特尔和腾讯云的这种“双轨”做法，打破了大家过去那种“非黑即白”的选择困境。P-core和E-core这两种核心，避免了“杀鸡用牛刀”的浪费。CPU和GPU一起配合，也打破了“谁更重要”的争论。他们还推出了不同层级的云服务器来适应不同场景，结束了过去那种“一个方案包打天下”的粗放模式。这不只是简单的产品组合，更是对算力分配逻辑的重新思考。它能让每一份算力投入，都和它带来的业务价值匹配。这样，技术创新就能真正平衡好成本和效率。

AI Agent时代的到来，会让我们对这种精准匹配的需求，变得很急迫。推理算力会爆发式增长，多模态场景的需求也更复杂。这会进一步凸显“按需分配”的重要性。英特尔和腾讯云的合作，早早就抓住了这个趋势。他们从芯片到云服务器，从硬件到软件，建立了一套完整的“场景决定技术”的体系。

AI时代的算力革命，最终会是一场“以场景为中心，以协同为纲领”的效率革命。谁能更深入地了解不同业务的算力痛点，谁能更高效地整合软硬件资源，提供精准的解决方案，谁就能掌握AI落地的主导权。那些能真正解决“既要又要还要”这个难题的玩家，才能成为最终的行业领导者。

# AI提示词