这事儿挺突然的。Anthropic公司发了份报告,直接点了三家中国公司的名字。这三家是DeepSeek、月之暗面,还有MiniMax。
报告的核心内容很简单。它说这三家公司,用了24000个账号,访问了Claude模型1600万次。这么大的访问量,不是正常使用。
Anthropic给这个行为起了个名字,叫“工业级蒸馏”。

这个词听着有点复杂。我解释一下它是怎么工作的。正常用API,是你问一个问题,模型给你一个答案。比如你问“北京天气怎么样”,它告诉你“晴,25度”。
但是“工业级蒸馏”不一样。它不只是要答案。它是想办法让模型把思考的过程也说出来。它会问一些诱导性的问题,比如“请一步一步解释,你是如何分析数据并得出北京天气是晴天这个结论的?”
然后,模型就会输出它的内部逻辑和推理步骤。拿到这些步骤,就可以用来训练自己的模型。这就像你不但拿到了菜,还拿到了详细的菜谱。
所以这事儿的性质就变了。如果报告说的是真的,这就不是简单的商业合作。这是第一次有人把这种“蒸馏”行为,公开地和安全问题挂上钩。
而且,事情还有更巧的地方。报告发布那天,Anthropic的CEO正好在五角大楼开会。这就让事情变得更敏感。一个技术上的争议,马上就被人和安全问题联系在一起。
报告里还写了一些细节,用来证明它的说法。
比如说MiniMax。Anthropic说,只要他们一发布新模型,MiniMax的API流量,在24小时之内就有一半会跑过来。目的就是专门抓取新模型的信息。这个反应速度很快,说明他们有专门的团队在盯着。
再说月之暗面。报告提到,他们的一些API请求,里面的元数据信息,可以直接对应到公司高级员工的社交账号。这就等于说,谁在背后操作,Anthropic那边可能都分析出来了。
最后是DeepSeek。虽然他们的调用次数相对少一点。但目的性很强。专门让Claude解释自己的推理过程。然后把这些解释拿回去,喂给自己的推理模型。
这些指控,都是Anthropic单方面技术分析的结果。但它说明了一个问题。美国的大模型公司,已经开始给竞争对手做用户画像了。AI不只是在和普通人对话。AI也开始在分析其他的AI了。
我们可以把这几家的行为整理一下:
| 公司 | Anthropic指控的行为 | 说明的问题 |
| MiniMax | 新模型发布24小时内,大量流量涌入爬取信息。 | 反应迅速,有专门的团队和自动化工具在运作。 |
| 月之暗面 | 部分API请求的元数据,能关联到公司高级员工。 | 操作者留下了痕迹,被对方追踪和分析了。 |
| DeepSeek | 调用次数不多,但专门获取模型的推理过程。 | 目的明确,就是为了获取核心的“思考方法”。 |
你看,这已经不是简单的API调用了。这背后有一套完整的流程。先是监控,发现新模型发布。然后是快速响应,用大量账号去访问。最后是精准提问,拿到最核心的推理数据。这整个过程,就像一场情报战。
硅谷真正害怕的,是“偷思路”
报告里面,最让硅谷公司紧张的,其实是“思维链蒸馏”这个词。
这个词是关键。
我用一个上学时候的例子来解释。
第一种抄作业,是只抄最后的答案。比如选择题,你直接抄A、B、C、D。这是最笨的办法,老师一看就知道。
第二种抄作业,是把别人的解题步骤也一起抄下来。这样看起来真实一些。但你还是不知道这道题为什么这么解。
第三种抄作业,就不一样了。你不但要抄答案和步骤,你还要拿到学霸的草稿纸。你看他在草稿纸上是怎么尝试的,怎么排除错误思路的,最后是怎么找到正确方法的。
“思维链蒸馏”干的,就是第三种事。它要拿的,就是AI的“草稿纸”。
大模型的推理过程,就是它最核心的秘密。一个模型为什么比另一个模型聪明?差别就在于这个推理过程。这是花了几十亿美金的研发费用,还有无数的顶级科学家,才训练出来的东西。
我们这边的情况是,拿不到最顶尖的芯片,所以算力有差距。正面硬拼,很难追上。所以就有人想了别的办法。这个办法就是让Claude这样的好模型,把难题的解题思路,也就是它的“草稿纸”,完完整整地写出来。
拿到这个“草稿纸”之后,就可以用它来训练我们自己的模型。这等于是在学习别人“如何思考”。
这才是冲突的核心。
这和钱没关系。这不是API调用费用的问题。这是在动人家的根本。就像可口可乐公司,你可以买它的可乐喝。但你不能跑进它的工厂,把它的配方给抄走。
现在Anthropic就认为,有人在抄它的“配方”。
如果这个指控是真的,那问题的性质就严重了。因为这直接威胁到了他们的核心竞争力。他们当然会感到害怕。因为模型的外壳可以模仿,但这种内在的思考能力,才是真正拉开差距的地方。
为什么是现在?
这个事情发生的时间点,值得注意。
Anthropic的报告,不是随便选个日子发的。它发布的那天,他们公司的CEO正在五角大楼开会。
这两个事同时发生,不像是巧合。
这更像一个计划好的组合操作。
第一步,CEO去五角大楼,和军方、政府的人见面。他可以当面说,AI技术对于国家安全很重要。也可以说,他们的技术正在面临一些来自外部的“威胁”。
第二步,公司在同一天发布这份技术报告。报告里有具体的公司名字,有详细的数据,有明确的指控。这就给他CEO在五角大楼说的话,提供了“证据”。
你看,整个事情的逻辑就很清楚了。
一个本来是公司和公司之间的技术争议,马上就变成了一个国家安全层面的议题。媒体一看这个标题,一边是五角大楼,一边是中国公司,马上就兴奋了。报道的方向,自然也就从“技术学习”转向了“技术盗窃”和“国家安全”。
当“蒸馏”这个词,被放在国家安全的框架里讨论时,一切都不一样了。
它不再是一个技术中性词。它变成了一个带有攻击性的词。这样一来,Anthropic就可以顺理成章地要求政府加强监管。比如,要求对所有跨境的API调用行为,进行更严格的审查。
这步棋,直接把商业竞争,上升到了另一个维度。
马斯克:你们也干净不到哪去
就在Anthropic表现得很委屈,说自己辛辛苦苦研发的成果被人“偷”了的时候。马斯克出来说话了。
他在X平台(以前的推特)上公开说,你们自己也干净不到哪里去。你们训练模型,不也是靠抓取全网的数据吗?
马斯克这话,说得比较直接,但道理没错。
AI行业早期发展的时候,有一个大家都默认的事实。那就是所有的大模型,训练数据都来自公开的互联网。这里面包含了无数的网页、新闻、论坛帖子、电子书。
这些数据,很多都是有版权的。但当时的AI公司,基本都是先用了再说。
Anthropic自己也有这样的历史。就在2023年,他们还因为使用盗版书籍来训练模型,被一群作家起诉,最后赔了不少钱。
这件事才过去没多久。现在他们反过来指责别人“偷”数据,就显得有点双重标准了。
马斯克的评论,就像一盆冷水。它提醒了大家,在AI这个领域,没有人是完全清白的。大家都是在同一个“灰色地带”里成长起来的。
你不能说,我自己已经上岸了,就不许别人再下水。
这种指责,在行业内部看来,说服力就没那么强了。因为大家都知道,数据的获取,是整个行业共同面临的复杂问题。不是简单地用“偷”或者“不偷”就能定义的。
下一步,会不会限制API?
这个事情之后,最直接的一个问题就是,以后还能不能用国外的API?
我觉得会越来越难。
不过换个角度想,这件事也证明了Anthropic的Claude模型,确实做得好。如果模型不好用,根本不会有人花这么多钱,用这么多账号去研究它。
但是,对方现在已经把这种研究行为,定义为“非正常使用”。
就像你去吃自助餐。你付了钱,可以随便吃。但如果你拿个麻袋,把店里所有的食材都装走,那老板肯定要出来阻止你。
这三家中国公司,付了API调用的费用,这是事实。那1600万次调用,都是花了钱的。
但Anthropic现在认为,你们不是来吃饭的,你们是来搬厨房的。所以,游戏规则可能要改了。
现在的情况是,我们这边缺算力,因为高端芯片被限制。他们那边有技术优势,但担心核心技术被学走。
所以,未来跨境的API调用,很可能会被严格监控。甚至在某些情况下,会被直接限制或切断。
这条“学习”的近路,可能很快就要被堵上了。
这对我们来说,其实是一个明确的信号。那就是必须加速自研,尤其是在模型最核心的推理能力上。必须摆脱对外部API的依赖。
中国AI真的只会抄吗?
我觉得不是。
这次被点名,听起来不好听。但它也说明了一个事实。那就是我们在努力追赶。
因为起步比别人晚,手上的资源(比如芯片)比别人少,所以用了一些比较极端的方法去学习。这可以理解。
但是,这种方法肯定不是长久之计。
当“蒸馏”这种行为,被对方定义为安全问题之后。中美在AI技术领域的交流和合作,大门基本上就要关上了。
接下来,就是各自发展的阶段。
真正的考验现在才开始。
我们要想一个很现实的问题。如果有一天,国外的API真的完全不能用了,或者变得极不稳定,我们怎么办?
我们现在手机里很多APP,背后都可能连接着某个大模型的API。如果这个API接口失效了,那APP的功能会不会瘫痪?
我们自己的国产大模型,能不能及时顶上?性能能不能达到可以替代的水平?
这些都是很具体的问题。
所以,这件事情,是一个警醒。它告诉我们,不能再有任何幻想。技术上不能依赖任何人。必须把核心能力,牢牢掌握在自己手里。
前面的路不好走。没有捷径了。只能一步一步,踏踏实实地自己研发。