AI编程最近有了大新闻。OpenAI和Anthropic,这两家AI公司,在同一天发布了新模型。这是一个很重要的时刻。
先说结果。OpenAI的新模型叫GPT-5.3-Codex。它出来27分钟后,成绩就出来了。在Terminal-Bench 2.0测试里,GPT-5.3-Codex得了77.3分。Anthropic的Opus 4.6得了65.4分。GPT-5.3-Codex比Opus 4.6高了12个百分点。GPT-5.3-Codex赢了第一轮。
但是,事情没有这么简单。Anthropic也做了厉害的事。他们用了16个AI机器人。这些机器人一起合作。两周内,它们从零开始。写出了一个C语言编译器。这个编译器能把Linux内核编译出来。这是一个巨大的突破。

这不是普通的发布会。这是AI编程领域第一次真正的“战斗”。
GPT-5.3-Codex:会“自己学自己”的模型
OpenAI觉得,GPT-5.3-Codex是现在最厉害的编程AI。
它做了几个大升级。首先,它的计算速度比之前的5.2版本快了25%。而且,它用的“token”(你可以理解为它处理信息的基本单位)比以前少了一半多。这意味着它干活更快,你花钱更省。
看下测试分数:
| 测试项目 | GPT-5.3-Codex | Opus 4.6 | GPT-5.2 | 赢家 |
| Terminal-Bench 2.0 | 77.3% | 65.4% | 64.0% | GPT-5.3 |
| SWE-Bench Pro | 56.8% | 52.1% | 49.2% | GPT-5.3 |
| ARC-AGI 2 | 54.2% | 68.8% | 54.2% | Opus 4.6 |
| OSWorld | 64.7% | 61.2% | 58.1% | GPT-5.3 |
这张表看得出来,大部分编程任务,GPT-5.3-Codex表现都很好。它跑分很高。
还有一些对比:
| 功能 | GPT-5.3-Codex | Opus 4.6 |
| 上下文窗口 | 256K | 1M |
| 最大输出 | 64K | 128K |
| 多AI合作 | 不支持 | 支持 |
| 速度 | 比 5.2 快 25% | 标准 |
| 输入定价 | $3/百万 | $5/百万 |
| 输出定价 | $15/百万 | $25/百万 |
最值得我们关注的是这一点:这是第一个能自己训练自己的模型。OpenAI团队用早期的5.3-Codex来调试它的训练过程。它还管理部署,检查测试结果。OpenAI的老板Sam Altman说,他们看着5.3-Codex来构建5.3-Codex。他说这预示了未来方向。
你想,一个AI能“监督”自己学习,这听起来有点科幻。但是,它现在做到了。
这个模型不只写代码。它还能帮你调试程序。能帮你部署代码。能监控系统运行情况。能写文档。能分析数据。甚至能检测出安全漏洞。开发人员在电脑上做的很多事,它都能做。OpenAI说,这是他们第一个被评为“高级”网络安全能力的模型。这意味着它在保护网络安全方面很厉害。
Claude Opus 4.6:百万上下文,还能“团队合作”
Anthropic也没闲着。他们的Opus 4.6也非常强。
这个模型有100万个token的上下文窗口。这是第一次有这么大的窗口。输出上限能到12.8万token。这意味着它能“记住”更多的信息。它能处理很长的代码。能生成很详细的文档。
但是,它最大的亮点是“智能体团队”(Agent Teams)。这个功能让多个Claude AI实例一起工作。它们能把大任务分解成小任务。然后同时做这些小任务。这就像一个真正的软件开发团队。这不再是一个AI和你聊天。这是一个AI团队帮你干活。
在ARC-AGI 2测试里,Opus 4.6得了68.8分。而之前的Opus 4.5只有37.6分。GPT-5.2是54.2分。这个测试是看AI解决新问题的能力。它不是考AI“背了多少答案”。Opus 4.6在这个项目上表现很好。这说明它会独立思考。
Opus 4.6的定价没变。输入是每百万token 5美元。输出是每百万token 25美元。你现在就能在API、claude.ai和各种云平台上用它。
16个AI,两周写出了Linux编译器
Anthropic用Opus 4.6的智能体团队功能做了一个演示。这个演示让人印象深刻。
他们让16个Claude AI一起合作。目标是:从头开始,用Rust语言写一个C语言编译器。这个编译器要能编译Linux内核。
这些AI一起工作了将近2000次。花了大约2万美元的API费用。用了两周时间。结果呢?它们写出了10万行代码。这个编译器支持x86、ARM、RISC-V这三种常见的电脑芯片架构。它能编译Linux 6.9版本。还能编译QEMU、FFmpeg、PostgreSQL、Redis这些常用软件。GCC测试程序的通过率是99%。
项目负责人Nicholas Carlini说:“我没想到2026年初就能做到这个。”
当然,这个AI写的编译器也有局限。比如,它生成的代码效率不如GCC。它还不能编译16位的x86代码。而且,它需要GCC来帮忙完成一些启动工作。
但是,这些小问题不重要。重要的是什么?AI现在能独立完成一个很复杂的系统工程。以前,一个有经验的工程师可能要好几个月才能完成。现在AI只用了两周。这说明AI做复杂项目的能力,远超我们想象。
对于做跨境电商的你来说,这意味着什么?它告诉你,很多重复的、复杂的编程和开发任务,未来都能交给AI团队。比如,你可能需要一个定制的数据分析工具。或者需要为你的跨境平台开发一个新功能。AI团队可以帮你省下大量时间和金钱。
OpenAI Frontier:帮你打造“AI同事”
在发布编程模型的同时,OpenAI还推出了Frontier平台。这个平台专门给企业用。它帮你构建、部署和管理企业内部的AI机器人。
Frontier平台的核心功能是,它能打通企业内部的各种系统。比如,你的数据仓库、客户关系管理(CRM)系统、工单系统。这样,AI机器人就能知道你公司的所有业务情况。它能处理文件。能运行代码。能调用各种工具。
而且,这个平台是开放的。它能兼容Google、Microsoft、Anthropic等公司的AI机器人。这意味着你可以选择最适合你的AI工具。
Uber、State Farm、Intuit、Thermo Fisher这些大公司,已经是它的第一批客户。
OpenAI应用业务的CEO Fidji Simo说得很直接:“到今年底,大公司的大部分数字化工作,将由人类指挥,AI机器人来执行。”
这句话很重要。它说明了工作模式的变化。以后,我们可能更多地扮演“管理者”的角色。我们告诉AI要干什么。AI就会去具体执行。对于跨境卖家来说,这意味着你可以用AI机器人来处理大量的运营细节。比如,自动回复客户邮件。分析产品销售数据。甚至帮你自动发布TikTok内容。你不用再盯着这些小事。你可以把精力放在更重要的策略上。
马斯克:AI未来会在太空运行?
当OpenAI和Anthropic在地上竞争时,马斯克又说了一个更大胆的预测。他说:未来30到36个月内,太空会成为AI运行成本最低的地方。
他的理由是:
- 全球发电量增长很慢。但是,芯片的生产却在飞速增长。
- 到了2026年底,可能会出现一种情况。就是我们有很多芯片,但是没足够的电来运行它们。
- 太空里的太阳能,效率是地面上的5倍。而且,在太空不需要像地面一样,专门的储能系统。这能省很多钱。
- 地面上建发电厂,需要很多审批。还有光伏关税、涡轮机短缺等问题。太空部署AI,可以绕过这些限制。
- xAI的孟菲斯数据中心,光是用来冷却的电,就占了总用电的40%。这笔开销很大。
- 他说,芯片在地面调试好后,在太空运行很稳定。在太空维护也不是大问题。
马斯克这个说法,解释了SpaceX为什么要买xAI。他不是为了合并资源。他想建一个地球上建不出来的AI基础设施。
你想,如果AI算力真的都在太空运行。这会彻底改变AI的成本结构。对于我们做跨境生意的。如果我们的AI工具能用到这种低成本的太空算力。那我们的运营成本也会大大降低。这可能会给出海企业带来新的竞争优势。
我的看法
这次发布,AI编程领域有三件事特别值得关注:
第一,模型本身的能力。GPT-5.3-Codex在一些编程任务上跑分高。但是,Opus 4.6在解决新问题上更强。这不是简单的“谁快谁慢”的问题。这是两种不同的AI发展思路。一个追求效率和速度。一个追求解决新问题的智慧。
第二,AI的合作方式。Anthropic的Agent Teams和OpenAI的Frontier平台,都在说同一件事:未来的软件开发,不再是人写代码。而是人指挥AI团队去合作。对于跨境电商。这意味着你可以让AI团队帮你做很多事。比如,根据市场数据,自动生成不同地区的产品描述。然后,把这些描述发布到TikTok或其他平台上。这能帮你提高效率。
第三,AI的基础设施。马斯克的太空AI,听起来很远。但是,它点出了一个真实的问题:地球上的能源限制。如果地面能源不够用。那么谁能掌握太空算力,谁就能掌握未来的AI。对于全球做生意的公司来说,未来AI算力的成本和可用性,会是一个核心的竞争点。
所以,那27分钟的跑分,其实不那么重要。重要的是,AI正在从“辅助工具”变成我们的“合作伙伴”。这种变化的速度,比我们想的要快很多。我们做跨境生意的,要跟上这个变化。不然,很快就会被市场淘汰。