AI也能当“数字员工”了?OpenAI这样教它处理复杂任务

AI提示词2小时前更新 jinlian
0 0

OpenAI最近发了篇新文章。我看完了,觉得他们搞了件大事。简单说,他们想让大模型不只是聊天,还能自己做事

我觉得他们说的很对。你光跟一个大模型聊天,它只是告诉你一些东西。就像你看到一棵树。但是,如果你给它一台电脑,让它自己去操作,那它就能给你一片森林

模型自己能用程序,能从API拿数据,还能做表格、写报告。这样一来,它能做的事情就太多了。就像一个真正的数字员工

AI也能当“数字员工”了?OpenAI这样教它处理复杂任务

但是,想让AI这么干,其实挺难的。他们也提到了几个大问题,我听着都觉得麻烦:

  • 文件存哪儿? 比如AI生成了个大表格。你不可能让它把几万行内容都贴到对话框里吧?那怎么办?
  • 安全咋办? 如果给AI上网的权限,它万一乱来怎么办?比如删掉数据库,或者把密码泄露了?我们怎么保证安全?
  • AI容易忘事:任务稍微复杂一点,对话内容就长了。模型自己就记不住之前说了什么,做过什么。这不就“断片”了吗?
  • 任务失败咋办? 如果任务超时了,或者出错了,怎么重试?难道每次都得人去管吗?

这些问题,如果解决不好,AI智能体就没办法真的干活。OpenAI想了个办法。

OpenAI的答案:给模型一台隔离的“电脑”

为了解决这些麻烦,OpenAI自己做了一套东西。

他们不是光给模型一个对话框。他们给模型配了一台隔离的“电脑”

这台“电脑”其实是一个容器工作空间。它有文件系统,就像你电脑里的文件夹。它也有数据库(SQLite),能存结构化的数据。而且,它能上网,但有严格的限制

OpenAI的 Responses API 是核心。它和 shell 工具一起用。模型会说它想干什么,提出步骤和命令

这个平台就在那个隔离环境里跑这些命令。结果会实时反馈给模型。这样,模型就知道下一步该怎么做了。

我觉得这很聪明。就像给AI一个工具箱,还给它一个自己的小房间。它在里面爱怎么折腾就怎么折腾,但不会影响到外面。而且,它每做一步,你都能看到结果。

OpenAI团队的早期经验教训

OpenAI在这个过程中,学到了不少。

1、核心大招:Shell Tool

我觉得,让AI干活,最关键的就是这个循环。就是:模型提出一个操作 → 平台执行 → 结果反馈给模型 → 模型再决定下一步

他们说, Shell Tool 就是看这个循环跑得好不好的最简单方法

他们还解释了一个重点。模型怎么用工具?其实,模型不是真的会用工具。它只是学过很多例子。它知道在什么情况下,该“说”出调用哪个工具,以及会得到什么结果。

就像一个项目经理。他知道该让哪个工程师写哪段代码,他不用自己会写。

所以, Shell 工具对模型来说,就是另一种工具。但是,这个工具非常厉害。它让模型能通过命令行跟电脑打交道。

以前的 Code Interpreter 只能跑 Python。现在这个 Shell Tool,就厉害多了。它用了 Unix 的命令行工具。像 curl、grep、awk 这些命令,它都能用。甚至能跑 Go、Java 或 NodeJS 的程序。

有了这个,模型能做的事情就多了。它能处理更复杂的任务

它是怎么工作的?

  1. 模型提建议:模型需要处理数据。它会提出要跑一段 Shell 命令
  2. 平台执行Responses API 会在隔离的容器里跑这段命令。
  3. 结果反馈:命令跑完的结果,比如从API拿到的数据,或者抓下来的网页内容,会马上传给模型。

模型拿到结果后,它就能决定接下来是继续跑命令,还是给出最终答案。我觉得,这个过程特别直接有效

2、智能体循环的编排

模型光能提出 shell 命令还不行。这些命令谁来执行?结果谁来传给模型?这就需要一个编排器

这个编排器就像是总指挥。它接收模型的输出,然后去调用工具,再把工具执行后的结果传回给模型。这样一直循环,直到任务完成。

开发者平时用 OpenAI Responses API 和模型打交道。如果用自定义工具,API会把控制权交回给开发者。但是,他们现在能让API自己在模型和工具之间直接完成编排

Responses API 收到一个请求时,它会准备好模型需要的上下文信息。这些信息包括你的问题、之前的对话,还有工具的使用说明。要让 shell 执行生效,你得在请求里告诉它用 shell 工具。而且,模型本身也得训练过,知道怎么提出 shell 命令。他们说,从 GPT-5.2 开始的模型,就有这个能力了。

Responses API 的流式传输 Shell命令

有了这些信息,模型就决定下一步干啥。如果模型想执行 shell 命令,它会给 Responses API 返回一个或几个命令。API 服务会把这些命令发到容器环境去跑。

Shell 跑出来的结果会实时传回。API会把这些结果作为上下文,在下次请求时再提供给模型。

然后,模型会看这些结果。它可以提出新的命令,或者给出最终答案。Responses API 会一直重复这个过程。直到模型给出最终结果,不再需要执行 shell 命令。

Responses API 跑 shell 命令时,它和容器服务是一直连接着的。命令一有输出,API就马上把结果给模型。这样,模型能实时决定是继续等输出,还是跑新命令,或者直接给出答案。我觉得这个“实时”特别重要。

而且,模型在一次步骤里可以提出好几个 shell 命令Responses API 能同时用几个容器来跑这些命令。每个容器会独立返回结果。API 会把这些结果整合起来,再给模型。

这意味着,AI可以同时干好多件事。比如,它能一边找文件,一边拿数据,还能一边检查中间结果。这效率就高多了。

但是,命令跑出来的东西可能很多。如果都塞给模型,会占满上下文窗口,还没啥用。所以,模型可以为每个命令设置一个输出限制

Responses API 会执行这个限制。它会返回一个开头和结尾都在的结果,中间多余的就截断。它还会标记被省略的部分。比如,你会看到“开头文字…省略1000字…结尾文字”。

这样,AI跑得又快,又不浪费上下文空间。模型能专注于重要的结果,不会被太多没用的信息淹没。这就像我们看报告,只看总结和关键数据,不用看所有原始日志。

3、三大基石:文件、数据库、安全联网

除了核心工具,OpenAI还为这个“电脑”加了三个重要功能

  • 文件系统:我们以前不能把大数据给模型。现在好了。你可以把文件直接上传到容器里。AI就像人一样,可以用 lscat 命令去按需要读文件。这样就方便多了。
  • 结构化数据库:AI现在能操作 SQLite 这种数据库了。你想问“哪个产品卖得不好?”AI不会傻傻地把所有数据都看一遍。它会自己写一条SQL语句,直接查出结果。这查数据就精准又快速
  • 侧车Agent联网(Sidecar Proxy):这个设计,我觉得特别棒。AI想上网时,所有的请求都得先经过一个“代理”
    • 安全:你把敏感的密码给AI,它不会直接暴露。这些密码会被替换成占位符。只有AI真的要发送请求到被允许的网站时,密码才会被注入进去。这样就很安全
    • 可控:我们开发者可以设置白名单。只让AI去访问特定的网站,防止它乱跑。这样就不用担心AI会去干坏事了。

这三个功能,让AI的“电脑”变得更完整、更安全

4、解决“健忘”:原生的上下文压缩(Compaction)

智能体跑任务久了,上下文窗口会满。AI就容易忘事。这个问题,大家都很关心。

为了让AI长时间跑任务时也能记住重要信息,同时删除没用的内容,OpenAI在 Responses API 里加了一个功能:原生的上下文压缩

OpenAI说,他们新的模型专门训练过。模型能自动分析之前的对话状态。然后它会生成一个“压缩项”。这个压缩项用一种高效的加密方式,把关键的历史状态保留下来。

压缩好之后,新的上下文窗口就会包含这个压缩项。还有之前窗口里最有价值的一些内容。这样一来,即使任务时间长、步骤多、老是调用工具,AI也能保持清醒,不会“断片”。

这就像给AI做了一份**“会议纪要”。它省钱**,因为节省了Token。它也保命,因为没有丢掉关键信息。

他们还说了个小故事。OpenAI的 Codex 团队也参与了开发。Codex在测试时发现错误,还会自己开一个新的实例去调试、修复自己。这真的说明AI的能力在进化

而且,这个压缩功能可以自动在服务器端运行。你也可以通过一个独立的接口去调用。服务器端压缩很方便,开发者不用自己写复杂的逻辑。你设个限度,系统自己决定什么时候压缩。

系统还允许输入上下文稍微超出限制,然后再压缩。这样,快要超限的请求也能被处理,不会直接被拒绝。这个设计挺人性化的。

OpenAI说,他们的模型训练一直在进步。这个原生压缩机制也会跟着模型更新,越来越好用

5、智能体技能(Agent Skills)

Shell 命令很好用,但是有些任务,其实是重复的步骤。每次都让AI重新想一遍怎么做,那效率就不高,结果也可能不稳定。

这时候,**Skills(技能)**就派上用场了。

简单说,Agent Skills 就是把这些重复的模式打包起来。变成可以重复使用、组合起来的“模块”。

一个 skill 其实就是一个文件夹。里面有 SKILL.md 文件,放着这个技能的说明和信息。还有一些需要的辅助文件,比如API的说明文档。

Skills 的结构,和前面说的运行架构很搭。容器提供持久的文件和运行环境shell 工具提供执行接口

有了这两样,模型就能在需要时,用 shell 命令去发现这些技能文件。它会读说明,然后在同一个智能体循环里,去执行技能里的脚本。

OpenAI的平台有 API 来管理这些 skills。开发者可以把技能文件夹上传上去,系统会给它一个版本。以后需要用的时候,就通过 skill ID 来拿。

在你把请求发给模型之前, Responses API 会先加载这些 Skills。然后把它们加入模型的上下文。这个过程是固定的。

它会:

  1. 拿到技能的名字和描述。
  2. 拿到技能包,复制到容器里,然后解压。
  3. 更新模型上下文,告诉它技能的信息和路径。

当模型觉得某个技能有用时,它会一步步地看技能里的说明。然后通过容器里的 shell 命令,去执行对应的脚本。

我觉得,这就像是给AI造了一本**“专业手册”。遇到常见问题,它不用从头思考,直接翻手册就能找到解决方案,然后执行。这样就能让AI干活更快、更准**。

最后一步:智能体是如何造出来的?

所有这些组件和机制都准备好了。把它们组合起来,就成了真正的智能体。

整个结构其实很清楚:

  • OpenAI Responses API 负责任务的总指挥
  • shell 工具负责实际操作
  • 托管容器提供一个稳定的工作环境
  • skills 提供可以重复利用的工作流程
  • 上下文压缩让AI在长时间任务中也能记住重要的信息

有了这些基础的东西,你给AI一个简单的问题,它就能变成一个完整的、端到端的工作流程。它会自己找合适的技能,获取数据,处理数据,最后生成你需要的东西,比如一个电子表格。

举个例子。你让它帮你分析销售数据。系统可能会自动干这些事:

  1. 找技能:先看看有没有现成的技能,能处理销售数据。
  2. 规划任务,准备环境:它会规划好步骤,准备好容器环境。
  3. 获取数据:去数据库或者文件系统里,把销售数据拿出来。
  4. 处理数据:用 shell 命令或者其他工具,对数据进行分析。
  5. 生成结果:最后生成一份报告或者电子表格给你。

整个过程,都是 OpenAI Responses API 在后台自动编排的。这就像一个项目经理,自己带着团队,把所有活都干完了。

网友:价值含量超高

看到网友们对这篇文章的看法,我觉得他们说得特别到位

有人说:“这比那些花里胡哨的演示有价值多了!”我同意。概念再好,也要看能不能落地。OpenAI这次是真的把技术细节都摆出来了。

有个社区说,缩短执行循环****非常关键。他们说OpenAI解决了智能体延迟的问题,还解决了文件系统状态保存的难点。我觉得这是一个很大的进步

很多网友也觉得 OpenAI 缩短的智能体循环****很厉害

还有网友说,OpenAI提出的安全防护机制,大家低估了它的重要性。AI能上网干活,但又特别安全,这真的很不容易。

当然,大家觉得最有价值的,还是长时间运行智能体的工作流设计。因为现实中的任务,很少是几秒钟就搞定的。让AI能长时间、有条理地干活,这才是真本事

我觉得,OpenAI的这篇文章,其实就是告诉大家,他们是怎么让AI变得更像人一样干活的。它不是个遥远的梦想,而是一套看得见、摸得着架构和工具

© 版权声明

相关文章

暂无评论

暂无评论...