AI真开始“做事”了，推理需求大增，CPU和内存也要吃香了

你可能听说了 OpenClaw。这东西最近特别火。很多人觉得它就是个开源软件，或者一个有趣的 AI 应用。但是，如果你只看到这些，那就小看了它。

OpenClaw 重要的地方在哪儿？它不一定技术最好，也不一定功能最超前。但是，它第一次让很多人明白了：AI 不只是一个聊天框。它能持续帮你干活。它就像一个真的员工，能加入你的工作。

以前，我们说的那些 Agent 框架，听起来都挺厉害。比如 AutoGPT，各种 Agent 工具。它们说 AI 能自己动。但是，大部分产品都有问题。

要么，它们太像演示。演示的时候很酷。但是，真用起来就不行了。很容易出问题。
要么，它们像套壳的流程。像外部脚本在指挥模型。而不是模型自己安排任务。
要么，它们只是加强版的聊天工具。回答更聪明了。但是，离“帮你做事”还差一点。

OpenClaw 就不一样。它没有把自己包装成“超级智能生命”。它更像一个“数字工人”的原型。一个愿意帮你做事的小助手。

它具体是怎么做的？
能常驻后台。 也就是说，它不是用完就走。它能一直在那儿等着。
能记住很久的聊天内容。 它能记住你之前说过的很多话。这样它就知道你的背景。
能连接你电脑里的文件和系统。 比如，它可以读取你电脑里的文档。或者打开某个程序。
能连接外部工具和消息。 比如，它可以帮你发消息。或者调用某个网站的服务。
能做多步任务。 它不只是给你一个答案。它可以一步步完成复杂的任务。

这就意味着，大家对 AI 的看法变了。以前，AI 像个“更聪明的搜索引擎”。或者“更会聊天的助手”。现在，大家开始把它当成一个“正在工作的数字员工”。

这个想法非常关键。

从芯片行业看，OpenClaw 的火爆，改变了 AI 算力需求。以前，我们用 AI 主要是问一句，它答一句。算力需求是临时的。比如，你问一个问题，它立刻算一下，然后给出答案。这种是瞬时、交互式的。

但是，现在 AI 变成了一个长期运行的 Agent。它的工作方式就变了。它需要持续跑。任务是一连串的。有很多步骤。还需要经常和外部系统互动。这是一种系统级的算力需求。

这两种算力需求，对芯片和系统的要求完全不同。

所以，OpenClaw 的成功，不只是一个产品好卖。它是一个明确的信号。用户已经接受 AI 能真的帮他们干活了。一旦用户接受了，底层的算力结构和芯片的价值，都会跟着重新洗牌。

这就像大家以前只买计算器来算数。现在大家开始买机器人，让机器人帮你做家务。芯片厂就需要重新考虑，应该生产什么样的“机器人大脑”了。

Block 裁员 40%，重点不是裁员，而是“公司管理方式”变了

如果说 OpenClaw 代表的是用户怎么看 AI，那 Block 公司裁员 40%，就是企业怎么看 AI 了。他们开始用 AI 重新计算，到底需要多少员工。

2026 年 2 月 26 日，Jack Dorsey 领导的 Block 公司宣布裁员 4000 人。这个数字占了公司将近 40% 的员工。这消息让市场震动。为什么？因为它不是一家快倒闭的公司。

恰恰相反，Block 在 2025 年毛利超过 100 亿美元。这个数字比上一年增长了 17%。所以，它不是因为“活不下去”才裁员。而是在公司业务还健康的时候，主动改变公司结构。

Dorsey 的话其实已经很直接了。他说：更小的团队，用更强的 AI 工具，可以做更多、更好的工作。

这句话的分量，比我们想象的要重。

以前科技公司是怎么扩张的？默认的逻辑是，用人去解决复杂问题。
业务更复杂了，就加人。
流程更长了，就加中间管理层。
合作变多了，就加管理岗，加协调岗。
这套逻辑有个前提：公司里的复杂事，最终都要靠人来解决。

但是，AI 现在能做执行了。企业就发现，有很多工作其实不需要人来发挥顶尖创意。这些工作大部分都是流程化的、处理信息的、可以拆解的、可以重复的。

具体有哪些工作？
信息整理。 比如，把很多报告里的关键点提取出来。
文档生成。 比如，写一份标准的会议纪要。
数据汇总。 比如，把不同系统里的销售数据汇总到一个表格里。
推动标准流程。 比如，检查一份合同是否符合所有规定。
规则化分析。 比如，分析用户行为，找出符合某个规则的用户。
跨系统搬运数据。 比如，把客户信息从一个系统复制到另一个系统。
写一些初级的代码。 或者做一些简单的运营操作。

这些工作以前都必须靠人来做。不是因为人最适合。而是因为以前没有别的工具能做。

但是现在，这个“别的工具”出现了。就是 AI Agent。

所以，Block 这次裁员，最值得我们关注的，不是“AI 替代了哪些岗位”。而是：企业对“最合适的人员规模”的判断变了。

换句话说，AI 不再只是公司买工具的钱。它开始影响公司怎么设计组织结构。

这还会让公司的钱怎么花，方向也跟着变。以前花在工资、办公租金、管理费上的钱，现在一部分会慢慢转向：
模型调用费。 也就是用 AI 模型的钱。
推理平台。 搭建和运行 AI 系统的费用。
Agent 系统。 用来管理和运行 Agent 的软件。
本地部署算力。 自己买的服务器和芯片。
数据管理和 AI 运维。 管理 AI 数据和确保 AI 系统运行的钱。

到了这一步，“裁员新闻”和“算力投资”就不再是两件事了。它们其实是同一件事的两面。

从芯片行业看，这个变化很关键。AI 不再只是一个软件工具。它变成了一个长期消耗算力的东西。就像水电费一样，是长期存在的。

Agent 真正厉害的地方，不是嘴皮子好，而是会“拆、调、改”

很多人谈到 Agent，总觉得它就是“更聪明、更主动的大模型”。这个说法没错，但是不够全面。

从技术上说，Agent 和我们平时用的聊天机器人，或者 AI 助手，根本区别不在于它像不像人。而在于它有没有一个完整的、能自己驱动的“目标实现闭环”。

这个闭环是这样的：
感知环境。 它能知道现在周围的情况。
理解目标。 它能明白你到底想让它做什么。
拆解任务。 它能把一个大目标拆成一个个小步骤。
调用工具。 它能知道什么时候用哪个工具。
获取反馈。 它能看到自己执行的结果。
动态调整。 如果结果不好，它能修改计划。
持续推进。 直到任务完成。

也就是说，Agent 的关键不是“能回答问题”。而是“能围绕一个目标持续行动”。

要做到这一点，过去两年大模型发展中，有几个关键技术成熟了。

CoT（思维链）：这就像给模型装上了“大脑思考路径”。它最初被关注，是因为它能让模型推理更准。出错的概率更小。但是在 Agent 的场景里，它的意义更大。它第一次让模型能把一个复杂的目标，拆成很多个执行步骤。
一个只会“直接回答”的模型，说白了还是个填字游戏。它只是把最可能的文字补全。但是，一个有 CoT 能力的模型，就能在内部形成任务分解。它能分阶段判断。
ReAct（推理与行动）：光会想还不行。纯粹的 CoT 容易“闭门造车”。它自己推理，但是不知道什么时候该去查资料。不知道什么时候该用工具。也不知道什么时候应该根据实际情况修改计划。
ReAct 的价值就在这里。它把“思考（reasoning）”和“行动（acting）”连在了一起。它让模型能在“思考 -> 行动 -> 观察 -> 再思考”中形成一个循环。
比如，你让它写一份市场分析报告。它会先“思考”要分析哪些数据。然后“行动”，去调用一个数据库工具。然后“观察”工具返回的数据。如果数据不对，它会“再思考”，调整查询条件。
RAG（检索增强生成）：Agent 为什么会犯错？一个关键原因就是模型自己的知识是“死的”。而且它还可能“胡说八道”（幻觉）。RAG 的作用，不只是“查资料”。它给 Agent 开了一条通道，让它能接触到外部真实的信息。
以前的 RAG，系统大多是“先帮你查好资料，再让模型去读”。现在 Agentic AI 里，更厉害的是模型自己决定。它自己决定什么时候查。查什么内容。怎么把查到的结果用回任务链条里，继续推理。
这时候，AI 才不只是一个会读书的总结者。它开始变成一个能和真实环境持续互动的执行者。

从芯片行业看，这三项技术有个共同点。它们都让 AI 的算力需求，从单次生成，变成了多轮、多步骤、带外部互动的系统级算力需求。这会直接推高另一类硬件的价值。

为什么 Agentic AI 会把推理推到比训练更重要的位置？

过去几年，提到 AI 算力，大家主要盯着“训练”。
这很正常。训练决定了模型有多聪明。谁能做出最强的模型，谁就能领先。所以市场最先关注训练服务器、高速内存、互联技术和大批 GPU 卡。

但是，当 Agentic AI 真的开始落地后，算力的重心会变。训练依然重要。但是，它不再是唯一的焦点。推理会变成一个更大的产业需求。

原因不复杂。

训练的特点：
它主要发生在少数几家头部公司。
它的周期性强。不是每天都在训练。
它更像一次性投入，是“资本开支”。比如，买一大批设备。

推理的特点：
它会分散地发生在很多企业、设备和场景里。
它具有持续性。比如，AI Agent 一直在运行。
它更像日常开销，是“运营开支”。比如，每个月的水电费。

以前，我们用 AI 大多是问一句，答一句。一次请求，一次生成，一次返回。这种推理需求虽然重要，但总量上还是轻量的。

Agent 出现后，就不一样了。
一个 Agent 为了完成任务，通常需要很多步：
读取任务目标。
查看以前的记录。
拆解任务。
调用一个模型进行分析。
再调用另一个模型生成代码或文本。
然后调用外部工具执行。
根据执行结果，看看要不要修正。
再进入下一个步骤。

这时候，推理不再是简单地问答。它是一个持续运行的过程。如果一个公司里有几十个、几百个，甚至上千个 Agent 一直在后台运行，那推理消耗就会像水电费一样。它会成为一项长期存在，而且持续上涨的成本。

所以，有人说，“训练决定技术上限，推理决定产业规模”。这句话越来越像现实了。

从芯片行业看，这种变化意味着什么？未来真正值得关注的，不只是“最强的训练卡性能还能提高多少”。而是：
怎么把推理成本降下来？
怎么支持大规模的 Agent 同时运行？
怎么让推理系统更稳定，延迟更低，更容易部署？
怎么在不同成本的系统上，配置不同的模型和芯片？

这会让很多原本在“训练”叙事下不那么显眼的硬件和系统能力，重新变得重要。

当 Token 开始像工资，模型和芯片市场都会重新分层

对企业来说，AI 真的进入工作流程后，有一个变化很重要。就是 AI 模型调用成本的性质变了。

现在很多公司，还把 Token 费用看成一种软件服务费。就像买 SaaS 软件一样。但是一旦 Agent 真的开始承担一部分工作，这种看法很快就不够用了。

因为企业本质上是在购买劳动能力。

以前，企业通过发工资、给福利、提供办公位、管理和协作，来购买人的劳动能力。未来，企业通过付 Token 费、买推理算力、本地部署、Agent 管理和系统维护，购买的是另一种劳动能力——数字劳动力。

所以，Token 成本，本质上会越来越像工资。

一旦这个想法成立，企业选择模型和芯片的逻辑就跟着变了。
企业不会永远只问：“哪个模型最强？”。它会开始像一个管理者那样思考：
这个任务，值不值得用最贵的模型？
有没有更便宜的模型，也能完成得足够好？
能不能让成本低的模型先做预处理，把更难的工作交给高端模型？
哪些环节必须用最强的芯片？哪些其实不需要？

这其实就是一种“模型分层使用”的逻辑。

未来的模型市场，大概率不会是一家独大。它会像企业用人一样分层。
高端模型：负责复杂的推理和做高价值的决策。
中层模型：负责日常的分析、写作和处理流程。
低成本模型：负责高频的、标准化的、规则明确的任务。
专门模型：负责代码、图像、搜索或某个行业的特定流程。

一旦模型市场变成这种结构，推理硬件市场也会跟着分层。

这意味着，未来不只是最顶级的 GPU 有价值。大量性价比高的推理卡、边缘计算芯片、AI 一体机，还有本地部署平台，都会有很大的市场空间。

半导体行业过去几年，竞争主要集中在“训练芯片的高地”。但是，Agentic AI 时代更大的变化，可能恰恰出现在“推理分层”带来的新需求上。

半导体行业真正该盯住的，不只是 GPU，还有 CPU、内存和互连

一说到大模型算力，市场很容易把所有注意力都放在 GPU 上。但是，如果 Agent 的工作成为主流，系统的瓶颈不一定总在 GPU。

为什么？因为 Agent 的运行，不是简单的数学计算。它包含了大量需要 CPU 处理的工作。
比如：
处理用户输入的指令。
管理内存里存储的上下文数据。
进行 RAG 检索。
查询向量数据库。
调用代码解释器执行代码。
执行 Python、Bash、SQL 等脚本。
和外部的应用程序接口（API）互动。
读写文件和安排系统任务。

这些环节里，很多工作更依赖 CPU、内存系统和底层的调度。而不是 GPU。

换句话说，Agentic AI 的工作不是纯粹依赖 GPU。它是一种混合型负载，同时对 CPU 和 GPU 都有要求。

这就是为什么，站在半导体行业角度看，Agent 时代值得重新评估的，不只是 GPU 的出货量和显存带宽。还包括：

CPU 价值回归：以前，CPU 在大模型里经常被看作配角。它负责数据预处理、后处理和数据传输。但是在 Agent 场景下，CPU 变得更重要了。它更积极地参与到决策过程和系统调度中。
它会做检索，比如查找资料。
它会分发任务。
它会管理大量的上下文和工具进程。
它还需要和 GPU 配合，异步准备数据。
如果 AI 推理越来越依赖 RAG、工具调用、外部反馈和长上下文，那 CPU 的利用率和它的系统价值都会明显提高。
大内存和分层存储的重要性提升：Agent 不只是运行模型。它还需要加载知识库、历史记忆、工具环境和上下文信息。无论是 RAG，还是像 Engram 这种条件记忆模块，它们都在拉高对内存容量、内存带宽和分层存储架构的要求。
这会提升 DDR 内存、SCM 存储、HBM 内存以及更广义的内存池化和存储层级设计的重要性。
比如，Agent 在处理一个复杂任务时，可能需要同时调取大量的历史数据、用户偏好和外部信息。这些都需要快速的内存来支持。
互连技术重新变得关键：当 CPU 需要和 GPU 更频繁地交换中间结果、检索结果和上下文状态时，PCIe、CXL 这类互连技术的价值会被重新放大。
以前在纯粹的训练场景下，一些技术可能没那么受关注。但是在 Agent 时代，它们可能重新成为竞争力的核心。特别是当系统需要承载大量本地知识、长上下文、异步预取以及 CPU 和 GPU 协同工作时，互连和内存一致性问题会变得更实际。
比如，一个 Agent 需要 CPU 从数据库里查出一堆数据。然后快速传给 GPU 来分析。再把结果传回 CPU 进行下一步操作。这个过程中，CPU 和 GPU 之间的数据传输速度就变得非常重要。

从这个角度看，Agentic AI 的扩张，其实正在把半导体行业的价值，从“单一芯片的性能极限”，拉回到“系统整体的协同效率”。这对很多没有在最顶尖训练卡赛道里的厂商来说，反而是一个机会。

AI 不只是让芯片需求变大，也开始反过来加快芯片设计

前面我们谈了需求侧的变化。接下来，值得芯片从业者警惕，但也更值得乐观的是：供给侧的变化。AI 不只是需要芯片，它也开始反过来改变芯片研发本身。

这件事很多人提到过。但是，在行业判断里，常常只是一笔带过。其实它应该被单独拿出来讲。因为这可能是中国半导体行业，最现实、最短期，也最能带来长远好处的机会之一。

为什么这么说？

因为中国芯片行业有一个很大的现实问题。工程师很多，项目也很多，应用场景也很多。但是，协同成本高、资深人才稀缺、流程不规范、文档质量参差不齐、跨团队信息不通畅，这些问题长期存在。很多项目最后不是因为“没人做”，而是因为“人很多，但是流程效率太差”而失败。

而 Agent，最适合先解决这些低效的问题。

Spec（规格说明书）梳理与文档联动：芯片设计流程中，Spec 是源头。但它也是最容易出现模糊不清的地方。需求一改，架构文档、接口文档、验证计划、测试说明、寄存器表格、版本说明，所有这些都可能跟着出错。
这类工作以前完全靠人去盯着。最常见的问题是：
文档版本不一致。
一个地方改了，另一个地方没改。
等到评审的时候才发现，不同团队理解的不一样。
Agent 在这里不一定能替代架构师的判断。但是，它非常适合做“检查文档之间是否一致”和“扫描某个改动会影响哪些地方”。如果这些能力能真正做好，对大型芯片项目的协同效率提升会非常明显。
比如，你改了某个接口的定义。Agent 可以立刻检查所有相关的文档，并告诉你哪些地方需要更新。
RTL（寄存器传输级）辅助与模板化实现：现在的大模型，当然还远远不能“独立完成复杂的芯片前端设计”。但是，它已经开始在一些明确的领域发挥价值了。
比如，生成接口模板。
比如，生成基础模块的样板代码。
比如，写一些常见状态机的框架。
比如，给出初步的约束条件。
比如，把代码写得更容易阅读，并自动添加注释。
这些事情单独看可能不觉得多厉害。但是，它们能共同减少资深工程师被低价值、重复劳动占用的时间。
验证用例补全与测试点展开：验证一直是芯片设计中最耗费人力的环节之一。很多团队真正的瓶颈不在于“有没有人写测试代码”。而在于“测试覆盖率够不够、边界条件考没考虑到、特殊情况有没有遗漏、回归测试是否系统”。
Agent 在这里特别有潜力：
它能根据 Spec 自动生成测试点。
它能根据历史 Bug，生成补充的回归测试项。
它能从接口定义，反推出可能遗漏的测试场景。
它能把零散的验证知识，整理成结构化的测试用例库。
它不能替代高级验证工程师。但是，它能显著减少初级验证的工作量，也能减少遗漏的概率。
CDC / DFT / 约束检查的辅助分析：CDC（时钟域交叉）、DFT（可测试性设计）、时序约束这些环节，本身就带有很强的规则性和检查性。虽然最终的判断仍然需要工程师把关。但是，AI 在“问题归类、规则解释、潜在遗漏提示、整改建议整理”这类任务上，很适合先切入。
这类价值不会像“替代工程师”那样夸张。但是，它很容易带来稳定的效率提升。
PPA（功耗、性能、面积）优化建议与多版本比较：PPA 优化通常不是靠某个灵光一闪，而是大量的迭代、对比和经验积累。Agent 未必能直接给出最优的设计方案。但是，它在以下方面会越来越有用：
整理不同版本设计的 PPA 对比数据。
提醒某个设计改动，会如何影响功耗、面积和时序。
总结历史项目里的相似经验。
给出一些可能的优化方向清单。
它更像一个“设计分析副驾驶”。而不是替代主驾驶。
Sign-off 前材料整理与项目管理提效：在实际项目中，最后拖慢进度的，往往不是某个技术动作本身。而是：
材料的整理。
版本同步。
评审会议纪要的归档。
风险项的跟踪。
任务的拆解与回收。
跨团队状态的同步。
这些事情非常繁琐。但是，它们又非常关键。Agent 非常适合在这一层先发挥价值。因为它本质上就是处理流程和信息的。

所以，站在半导体行业的角度看，AI 提升效率最现实的路径，不一定是“自动设计芯片”。而是：先把芯片设计流程中那些大量重复、琐碎、容易出错的辅助性劳动，系统性地减少。

这对中国尤其重要。因为中国芯片行业的优势，本来就在于工程师多、产业场景多、项目数量多。如果 AI 能显著降低文档成本、沟通成本、评审成本、验证成本和项目管理成本，那中国芯片行业的工程红利会被重新激活。

这意味着，中国厂商的机会不只是来自需求变大。也来自自己供给效率的提高。

如果这两件事同时发生，整个行业的弹性会比市场预期的更大。

中国半导体的机会，不只是国产替代，而是承接新增需求 + 提高供给效率

如果把前面的所有分析串起来，一个结论会越来越清楚：当 AI 的核心工作，从训练这个“高地”，扩展到推理这个“主战场”时，半导体行业的价值结构就会被重新划分。

这件事对中国厂商特别重要。

因为高端训练芯片的竞争壁垒，现在依然非常高。
比如，先进的制造工艺。
比如，HBM（高带宽内存）的供应链。
比如，高速的互连技术。
比如，编译器和软件栈。
比如，超大型集群的稳定性。
这条路依然最难走，竞争也最激烈。

但是，推理市场就不完全一样了。它更看重的是：
产品的性价比。
芯片的功耗。
响应的延迟。
供货能力。
私有化部署。
本地的适配和交付能力。

这意味着，国产的 GPU、推理芯片、边缘计算芯片、AI 一体机，即使性能没有追上全球最顶尖的训练系统，只要在推理场景里能做到“够用、稳定、成本可控、能按时交付”，就具备很强的商业价值。

更关键的是，中国厂商面对的，不一定是简单的“替代”机会。还有大量的“新增需求”机会。

因为 Agentic AI 正在带来很多以前不存在的，或者规模远没有这么大的新市场。比如：
企业私有的推理平台。
行业专属的 Agent 基础设施。
本地部署的 AI 一体机。
机器人和终端设备用的执行芯片。
AI 物联网的控制器。
面向垂直行业的整体解决方案。

这些需求很多不是简单地把国外芯片换成国产芯片。它们是随着 Agent 落地而新长出来的市场。

中国半导体行业在这些方面并非没有优势：
应用场景特别多。
工业和政府、企业客户很多。
对私有化部署的需求很强。
板卡、整机、服务器、封测的产业链比较完整。
工程实现和系统交付的能力很强。

对很多客户来说，他们真正愿意买单的，不只是某个芯片的峰值性能。而是：
整个系统能不能跑起来。
AI 模型能不能适配他们的业务。
能不能融入他们现有的流程。
能不能在本地部署。
谁来交付，谁来提供服务，谁来保障出问题的时候有人负责。

在这些问题上，中国厂商并不处于劣势。

所以，从半导体行业看，这一轮 AI 的机会，不只是“能不能做出最强的训练卡”。而是：当 Agentic AI 带来大规模新增需求时，中国厂商能不能先把推理和系统级的供给做起来。同时，能不能利用 AI 反过来提高自己的芯片设计和交付效率。

前者决定了中国厂商能不能抓住市场。后者决定了能不能把市场真正吃下来。

最后说几句：半导体行业该盯的，不是一个产品，而是一场系统性大调整

如果把这篇文章的核心观点再浓缩一下，我认为至少有下面几点。

首先，OpenClaw 的意义，不只是一个开源产品火了。而是它让很多人第一次直接感受到：AI 作为一个执行者，已经快要能真的用了。

其次，Block 裁员 40% 的意义，也不只是一个劳动力市场新闻。而是企业开始用 AI 重新计算公司的规模、成本结构和人机分工。

而且，Agentic AI 一旦真的开始部署，最大的变化不只是模型更聪明。而是推理算力需求，从单一问答，变成多步骤、持续性、系统性的执行工作。

但是，这种变化会让半导体行业的价值重心，从“最强训练卡”的单一竞争，扩展到推理芯片、CPU 和 GPU 协同、内存、互连和系统级交付能力。

还有，AI 不只是增加芯片需求。它也在反过来提高芯片研发的效率。规格梳理、RTL 设计、验证、时序分析、功耗优化、项目管理，这些环节都会逐步被 AI 改造。

最后，对中国半导体行业来说，真正值得抓住的，不只是国产替代。更是 Agentic AI 带来的新增需求，以及用 AI 提高自身供给效率。

所以，这一轮变化最终可能不是一场简单的模型竞赛。而是一场围绕“谁能支撑 AI 持续干活”的系统竞赛。

谁能让 Agent 运行得更稳定，谁能让推理成本更低，谁能让本地部署更容易，谁能把系统交付做得更完整，谁能把芯片设计流程的效率提高起来，谁就更有机会在下一轮产业大调整中占据一席之地。

从这个角度回看 OpenClaw，你会发现它的重要性，不在于它是不是最终的赢家。而在于它像一个非常具体的提示：Agentic AI 已经不只是一个概念验证。它开始变成真实的算力需求入口。它也开始变成重塑半导体行业逻辑的关键因素。

而这，正是半导体行业现在最该提前理解的事情。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...