AI时代CPU不只打辅助!英特尔腾讯云聊聊它在算力里的“新角色”

现在,数字世界和AI发展很快。企业对算力的需求变得很不一样。以前大家可能用一套办法就行了。但是AI出来后,算力需求就变得特别复杂,大家必须更细致地去考虑。

李德铠说过一句话,很有道理:“AI算力的最终,是电费问题。”你想想,现在的大模型越来越大,它需要的电量简直是个天文数字。这样一来,电费在算力总开销里就占了大头。如果企业只追求算力跑得快,不考虑功耗,那肯定会陷入“高能耗、高成本”的循环。但是,像玩3A游戏或者用AI生成图片、视频,这些场景又很挑剔。它们需要算力主频高、内存带宽大、并行计算能力强。要是性能不行,用户体验就差了。

所以说,算力需求现在分成了两类:一类场景要算力全速跑,不计成本;另一类场景就要精打细算,最好又快又省电。陈葆立也说了,这种区分不是一阵子的事,而是AI时代一直都会这样。

AI时代CPU不只打辅助!英特尔腾讯云聊聊它在算力里的“新角色”

而且,除了跑得快不快、花钱多不多,数据安全和好不好用也很关键。现在数据特别值钱,所以企业对数据的存储、传输、计算,整个流程都要很安全。大家不希望自己的数据出问题。再说了,你选的算力方案,能不能和我现在用的系统配合好?要是不能,那部署起来就费劲,以后想换地方也麻烦,花钱还多。陈葆立强调,企业买的不是单单的算力,它还需要一套完整的安全保护和能一起用的服务。

以前企业总想用一个通用方案来解决所有算力问题,现在看,AI时代行不通了。不同业务的需求很不一样。比如,玩大型游戏,它需要CPU单核主频高,这样操作才不会卡顿;视频转码呢,它需要同时处理大量任务,这样能省钱;AI做推理,它就得要加速矩阵运算,才能提高效率;网页服务最重要的就是稳定,不能忽快忽慢。

这些细分的场景,就要求算力要“量身定做”,不能“一刀切”。腾讯云和英特尔看到了这个趋势。他们一起推出了好几种产品组合。这样,不同的业务场景都能找到最适合自己的算力方案。

英特尔和腾讯云是怎么做的

面对这些算力难题,英特尔和腾讯云一起想办法。他们不只是把各自的产品简单堆起来,而是从芯片设计到云服务器,从硬件优化到软件配合,把整个链条都重新设计了。他们的目标很明确:既要提供高性能的算力,也要提供人人都能用的普惠算力。

英特尔在新的至强®6处理器里,设计了两种不同的核心。陈葆立说:“一种是性能核P-core,另一种是能效核E-core。我们希望用这两种核心,给客户提供不同的算力服务。”

P-core主要追求极致性能。它有高主频、大缓存、高内存带宽这些特点。所以,它很适合AI训练、高性能计算这些需要算力全开的场景。而E-core呢,它更注重每个核心的密度和每瓦特的性能。它设计得更精简,在保证性能的同时还能降低功耗。所以,它特别适合像云服务、高并发处理这些既要效率又想省钱的场景。

腾讯云就基于英特尔至强®6的这两种核心,推出了S9E、S9Pro和S9三种云服务器。S9E和S9Pro主要提供极致性能,它们用了至强®6 P-core。这些服务器专门给AI、游戏、图像渲染这类高性能应用设计。而S9服务器,它是全球第一个搭载至强®6 E-core的云服务器。它主要目标就是高性价比,而且很适合高并发的应用。

高性能场景:CPU和GPU怎么一起干活

在RAG(检索增强生成)这种高性能场景里,大家以前都觉得GPU能干所有重要的活,CPU没啥用。但是,基于英特尔至强®6 P-core的S9E/S9Pro,用实际表现告诉大家,CPU也有大用。

陈葆立说:“现在是大模型时代,GPU和CPU各有优点。GPU算力强,但是CPU的内存更大。”他打了个比方,CPU就像篮球赛里的控球后卫。它不光能把球传给GPU这个前锋去得分,它自己也能投篮得分。

首先,CPU能帮助GPU把性能发挥得更好。陈葆立解释说:“大模型就像一个记性不太好的聪明人,它没办法在GPU里记住特别多的用户聊天内容。”但是,如果CPU和系统内存一起配合,它就能让GPU的能力变得最大。

举个例子,在RAG场景里,用CacheClip技术就能做到这一点。这是它的工作原理:CacheClip技术能提高KVCache的利用率。这样一来,它就能处理更长的用户输入,也能让程序跑得更快。

而且,英特尔还推出了一个叫HeteroFlow的框架。它的工作是这样的:MoE模型里有一些模块,它们不是总在用,就像“冷专家”。HeteroFlow能把这些“冷专家”直接交给CPU来处理。这样,GPU就能专心处理最核心的任务,不用担心内存不够用。整个系统的性能就提高了。

很多客户在做语音合成(TTS)、语音识别(ASR)、文字识别(OCR)这类预处理任务时,日常开销很大。这笔钱,甚至比之后大模型推理的费用还要多好几十倍。以前,GPU还得抽空去做这些AI的前期准备工作。但是,AI任务里的非结构化数据解析、格式转换、特征清洗,这些看起来是“细活”,其实需要强大的并行处理能力和快速的数据读写。这正是CPU的强项。

而且,数据预处理通常流程很复杂、数据量很大、需要灵活扩展。它对实时性要求不高,但是要求处理速度快。这些需求,都和至强®6的架构很搭。CPU把这些预处理的工作扛下来了,GPU就不用在训练和推理这些核心任务,以及预处理这种辅助任务之间来回切换了。这样一来,算力和时间一点儿都不会浪费。陈葆立这样解释。

李德铠也补充说,这种CPU和GPU一起干活的办法,不光帮客户解决了GPU资源紧张的燃眉之急,而且还能降低部署成本和系统延迟。整个流程的性能都提高了。

其次,CPU自己也能在AI任务上表现很好。英特尔至强®6 P-core里,有AMX加速引擎。这个引擎是专门给AI训练和推理用的。它能帮客户提高效率,还能降低推理、训练和部署的成本。这样,总拥有成本(TCO)也降低了。而且,AMX直接集成在CPU核心里,离系统内存很近。所以,它比单独的加速器用起来更方便,也更快。

李德铠举例说:“S9e/S9pro用AMX的矩阵加速能力,就能高效处理Embedding(向量嵌入)、数据清洗和中小型模型的推理任务。”腾讯云的实际测试数据显示,在处理千问4B小模型的Embedding任务时,搭载英特尔至强®6 P-core的S9E/S9Pro,比T4 GPU卡快了25%。而且,它的综合性价比直接高了66%。

当然,在玩游戏、AI渲染和处理图片这些传统高性能场景里,S9E/S9Pro也很受欢迎。它主频高,内存带宽也大。李德铠介绍说:“玩游戏时,玩家操作要立刻有反应,S9E/S9Pro能保证数据传输速度快、延迟低。这样,操作命令就能马上生效,不会卡顿。”另外,在AI渲染和图像处理时,S9E/S9Pro的多线程核心和高内存带宽,也能帮企业快速处理很多数据。这样能提高渲染效率,缩短项目完成时间。

普惠场景:便宜也能跑得好

李德铠强调:“普惠不代表性能差。搭载至强®6 E-core的S9服务器,比上一代产品性能快了15%到20%。”他说,S9能稳定支持网页服务、小程序这类轻负载场景,即使很多人同时访问也没问题。

S9可以做到“性能稳定不抖动,满载也不会降速”。这背后是英特尔和腾讯云在设计上很较真,不妥协。

陈葆立说:“我们肯定不希望普惠版的云服务器性能变差。”在硬件上,英特尔在E-core里关闭了超线程功能。这是它的工作原理:这样做,就能让每个虚拟机拥有自己独立的物理核心、显存和内存。这样,不同的用户就不会互相影响性能,系统就能稳定运行。

而且,能效核E-core就像它的名字一样,很省电。它在性能更好的同时,功耗却更低。这也很符合国家提倡的节能环保理念。

在软件优化上,腾讯云也做了很多普通用户看不到的工作。其中最关键的是“绑核设计”。这是它的工作原理:他们把CPU核心和虚拟机绑定起来。这样,即使某个虚拟机在处理大量任务,它也不会影响到整块CPU的其他性能表现。同时,他们还优化了CPU和总线、内存的配合方式。这样能缩短数据传输的距离,提高计算效率。李德铠补充说:“‘绑核设计’对那些需要大量计算的任务,帮助很大。”

这种软硬件一起优化,让S9在教育行业很受欢迎。教育机构的录播视频课程,通常需要转换成好几种清晰度,来适应不同的网络环境。S9服务器配上英特尔的软件库之后,视频转码的速度快了90%以上。这样不光降低了成本,还能保证课程传输很流畅。

李德铠补充说,S9能处理很多同时进行的请求,所以在网页服务和小程序场景里也很受欢迎。很多客户反馈,S9能稳定应对高峰期的访问量,而且比传统的服务器花钱更少。

而且,基于英特尔至强®6 E-core的S9云服务器,在腾讯内部的那些超大业务里,也得到了验证。

就拿微信存储来说吧。他们不光通过S9的高I/O配置和软件优化,解决了Gen5 SSD高速读写带来的存储压力。他们还用了英特尔的QAT(数据保护与压缩)加速器,让存储压缩效率提高了70%。这样,微信真的做到了“用更少的空间存储更多的数据”。

在搜索业务这边,腾讯新一代的大规模搜索引擎,也用了S9的平台能力。这样,他们的“元宝”搜索性能快了15%。另外,在大数据业务里,S9服务器的多核心并行处理能力和扩展性,也帮腾讯很明显地省了钱,提高了效率。

成功背后:合作是关键

英特尔和腾讯云的成功,不只是因为产品好,更是因为他们合作得很深入。李德铠说:“我们两个的合作,已经不只是简单的买卖关系了。我们是一起定义产品。”他说,腾讯的原则是用户价值第一,英特尔是客户场景为核心,所以他们想法很一致。他们不会盲目追求技术参数有多高,而是先听市场和用户的声音,然后再回来决定产品要怎么做。

这种想法一致,体现在整个合作过程里。在芯片设计时,英特尔就和腾讯云紧密沟通,了解最终用户到底需要什么,然后专门设计芯片。在定义产品时,他们一起规划S9E、S9Pro和S9这三种云服务器要怎么定位,确保硬件结构能和使用场景精准匹配。在技术优化时,双方的专家还会一起研发,用好AMX、QAT这些指令集。这样,才能把好的技术真正变成客户能感受到的价值。

AI Agent来了,算力要变

谈到未来,李德铠说:“AI现在的技术热点,已经从大模型转向了Agent(智能体)。”他认为,这会给算力需求带来新的变化。

在AI刚开始发展的时候,算力资源几乎都用在“模型训练”上。但是随着AI Agent时代的到来,这个重点正在改变。它从“侧重训练”变成了“侧重推理”。陈葆立指出:“专家们预测,未来推理算力的需求会是现在训练算力的10倍。”以前,模型训练主要是GPU在干,它算力强。但是,AI Agent架构里各种各样的推理任务,会让CPU的角色变得很重要。

李德铠说:“Agent的本质是‘大脑加上工具’。GPU负责思考,而CPU负责执行。”这是它的工作原理:CPU要跑Python代码、查询数据库、读写文件、处理网络通信等等。每做一步推理后,CPU都要介入处理那些非线性的逻辑。这会让CPU的工作量大大增加。腾讯云第九代云服务器和至强®6平台,就是为了提供更高性能、更省电的通用算力,帮助客户处理好推理和Agent带来的计算密度问题。

同时,在“算力就是钱”的AI时代,系统必须稳定可靠。AI计算集群现在正向几万张卡那么大的规模发展,系统越复杂,计算量越大,就越容易出现一些不容易察觉的数据错误。

陈葆立指出,至强®6有“99.999%的RAS能力”。RAS指的是可靠性、可用性和可维护性。这能全面保证整个系统稳定运行。而且,它还内置了TDX技术。这是它的工作原理:TDX技术能为云服务提供硬件级别的可信执行环境。它支持通用机密计算和异构机密计算,能帮助我们搭建从头到尾都可信的AI服务。

李德铠补充说:“TDX技术就像帮我们在云上打造了一个‘数据保险箱’。企业可以很顺利地把它的AI模型和Agent应用部署到S9系列服务器上,这样就能保证模型和数据的安全。”

而且,AI应用的爆发,也意味着需要处理的数据会越来越多。这会让内存、SSD这些硬件厂商面临更高的要求,也给系统兼容性带来新的挑战。陈葆立表示:“英特尔作为平台提供方,一直都和很多伙伴厂商紧密合作。我们互相验证,这样才能确保整个平台的高质量、高安全、高可用。”

另外,英特尔最新的18A制程工艺已经开始大规模生产了。它能让性能快15%,密度高30%。用18A工艺做的至强®6 Plus处理器(Clearwater Forest),会在2026年发布。现在英特尔已经和一些硬件厂商、腾讯云等伙伴,开始提前测试了。

李德铠说:“下一步,随着英特尔18A这些新工艺的发展,我们也会第一时间推出配合下一代芯片性能的云服务器。”他说,他们还在紧张研发支持vRDMA网络的新一代CVM机型。这能让底层硬件的数据传输能力进一步发挥出来。而且,在加密计算、可信计算这些对安全性要求很高场景里,他们也会继续改进。他们会利用最新的指令集,给企业的数字化转型和AI应用提供一个更高效、更安全、更省钱的基础。

我的想法

算力现在变得既要分开,又要一起用。我认为,这是AI产业从只谈技术,走向真正解决问题的必然。当大家的热情退去,企业会更理性地去看待算力。算力的核心竞争力,从来不是堆砌多少参数,而是能不能准确响应场景需求,并且把资源用得最好。

英特尔和腾讯云的这种“双轨”做法,打破了大家过去那种“非黑即白”的选择困境。P-core和E-core这两种核心,避免了“杀鸡用牛刀”的浪费。CPU和GPU一起配合,也打破了“谁更重要”的争论。他们还推出了不同层级的云服务器来适应不同场景,结束了过去那种“一个方案包打天下”的粗放模式。这不只是简单的产品组合,更是对算力分配逻辑的重新思考。它能让每一份算力投入,都和它带来的业务价值匹配。这样,技术创新就能真正平衡好成本和效率。

AI Agent时代的到来,会让我们对这种精准匹配的需求,变得很急迫。推理算力会爆发式增长,多模态场景的需求也更复杂。这会进一步凸显“按需分配”的重要性。英特尔和腾讯云的合作,早早就抓住了这个趋势。他们从芯片到云服务器,从硬件到软件,建立了一套完整的“场景决定技术”的体系。

AI时代的算力革命,最终会是一场“以场景为中心,以协同为纲领”的效率革命。谁能更深入地了解不同业务的算力痛点,谁能更高效地整合软硬件资源,提供精准的解决方案,谁就能掌握AI落地的主导权。那些能真正解决“既要又要还要”这个难题的玩家,才能成为最终的行业领导者。

© 版权声明

相关文章

暂无评论

暂无评论...