“偷师”被抓现行:留给国产AI的捷径不多了

AI提示词6小时前更新 jinlian
0 0

这事儿挺突然的。Anthropic公司发了份报告,直接点了三家中国公司的名字。这三家是DeepSeek、月之暗面,还有MiniMax。

报告的核心内容很简单。它说这三家公司,用了24000个账号,访问了Claude模型1600万次。这么大的访问量,不是正常使用。

Anthropic给这个行为起了个名字,叫“工业级蒸馏”。

“偷师”被抓现行:留给国产AI的捷径不多了

这个词听着有点复杂。我解释一下它是怎么工作的。正常用API,是你问一个问题,模型给你一个答案。比如你问“北京天气怎么样”,它告诉你“晴,25度”。

但是“工业级蒸馏”不一样。它不只是要答案。它是想办法让模型把思考的过程也说出来。它会问一些诱导性的问题,比如“请一步一步解释,你是如何分析数据并得出北京天气是晴天这个结论的?”

然后,模型就会输出它的内部逻辑和推理步骤。拿到这些步骤,就可以用来训练自己的模型。这就像你不但拿到了菜,还拿到了详细的菜谱。

所以这事儿的性质就变了。如果报告说的是真的,这就不是简单的商业合作。这是第一次有人把这种“蒸馏”行为,公开地和安全问题挂上钩。

而且,事情还有更巧的地方。报告发布那天,Anthropic的CEO正好在五角大楼开会。这就让事情变得更敏感。一个技术上的争议,马上就被人和安全问题联系在一起。

报告里还写了一些细节,用来证明它的说法。

比如说MiniMax。Anthropic说,只要他们一发布新模型,MiniMax的API流量,在24小时之内就有一半会跑过来。目的就是专门抓取新模型的信息。这个反应速度很快,说明他们有专门的团队在盯着。

再说月之暗面。报告提到,他们的一些API请求,里面的元数据信息,可以直接对应到公司高级员工的社交账号。这就等于说,谁在背后操作,Anthropic那边可能都分析出来了。

最后是DeepSeek。虽然他们的调用次数相对少一点。但目的性很强。专门让Claude解释自己的推理过程。然后把这些解释拿回去,喂给自己的推理模型。

这些指控,都是Anthropic单方面技术分析的结果。但它说明了一个问题。美国的大模型公司,已经开始给竞争对手做用户画像了。AI不只是在和普通人对话。AI也开始在分析其他的AI了。

我们可以把这几家的行为整理一下:

公司Anthropic指控的行为说明的问题
MiniMax新模型发布24小时内,大量流量涌入爬取信息。反应迅速,有专门的团队和自动化工具在运作。
月之暗面部分API请求的元数据,能关联到公司高级员工。操作者留下了痕迹,被对方追踪和分析了。
DeepSeek调用次数不多,但专门获取模型的推理过程。目的明确,就是为了获取核心的“思考方法”。

你看,这已经不是简单的API调用了。这背后有一套完整的流程。先是监控,发现新模型发布。然后是快速响应,用大量账号去访问。最后是精准提问,拿到最核心的推理数据。这整个过程,就像一场情报战。

硅谷真正害怕的,是“偷思路”

报告里面,最让硅谷公司紧张的,其实是“思维链蒸馏”这个词。

这个词是关键。

我用一个上学时候的例子来解释。

第一种抄作业,是只抄最后的答案。比如选择题,你直接抄A、B、C、D。这是最笨的办法,老师一看就知道。

第二种抄作业,是把别人的解题步骤也一起抄下来。这样看起来真实一些。但你还是不知道这道题为什么这么解。

第三种抄作业,就不一样了。你不但要抄答案和步骤,你还要拿到学霸的草稿纸。你看他在草稿纸上是怎么尝试的,怎么排除错误思路的,最后是怎么找到正确方法的。

“思维链蒸馏”干的,就是第三种事。它要拿的,就是AI的“草稿纸”。

大模型的推理过程,就是它最核心的秘密。一个模型为什么比另一个模型聪明?差别就在于这个推理过程。这是花了几十亿美金的研发费用,还有无数的顶级科学家,才训练出来的东西。

我们这边的情况是,拿不到最顶尖的芯片,所以算力有差距。正面硬拼,很难追上。所以就有人想了别的办法。这个办法就是让Claude这样的好模型,把难题的解题思路,也就是它的“草稿纸”,完完整整地写出来。

拿到这个“草稿纸”之后,就可以用它来训练我们自己的模型。这等于是在学习别人“如何思考”。

这才是冲突的核心。

这和钱没关系。这不是API调用费用的问题。这是在动人家的根本。就像可口可乐公司,你可以买它的可乐喝。但你不能跑进它的工厂,把它的配方给抄走。

现在Anthropic就认为,有人在抄它的“配方”。

如果这个指控是真的,那问题的性质就严重了。因为这直接威胁到了他们的核心竞争力。他们当然会感到害怕。因为模型的外壳可以模仿,但这种内在的思考能力,才是真正拉开差距的地方。

为什么是现在?

这个事情发生的时间点,值得注意。

Anthropic的报告,不是随便选个日子发的。它发布的那天,他们公司的CEO正在五角大楼开会。

这两个事同时发生,不像是巧合。

这更像一个计划好的组合操作。

第一步,CEO去五角大楼,和军方、政府的人见面。他可以当面说,AI技术对于国家安全很重要。也可以说,他们的技术正在面临一些来自外部的“威胁”。

第二步,公司在同一天发布这份技术报告。报告里有具体的公司名字,有详细的数据,有明确的指控。这就给他CEO在五角大楼说的话,提供了“证据”。

你看,整个事情的逻辑就很清楚了。

一个本来是公司和公司之间的技术争议,马上就变成了一个国家安全层面的议题。媒体一看这个标题,一边是五角大楼,一边是中国公司,马上就兴奋了。报道的方向,自然也就从“技术学习”转向了“技术盗窃”和“国家安全”。

当“蒸馏”这个词,被放在国家安全的框架里讨论时,一切都不一样了。

它不再是一个技术中性词。它变成了一个带有攻击性的词。这样一来,Anthropic就可以顺理成章地要求政府加强监管。比如,要求对所有跨境的API调用行为,进行更严格的审查。

这步棋,直接把商业竞争,上升到了另一个维度。

马斯克:你们也干净不到哪去

就在Anthropic表现得很委屈,说自己辛辛苦苦研发的成果被人“偷”了的时候。马斯克出来说话了。

他在X平台(以前的推特)上公开说,你们自己也干净不到哪里去。你们训练模型,不也是靠抓取全网的数据吗?

马斯克这话,说得比较直接,但道理没错。

AI行业早期发展的时候,有一个大家都默认的事实。那就是所有的大模型,训练数据都来自公开的互联网。这里面包含了无数的网页、新闻、论坛帖子、电子书。

这些数据,很多都是有版权的。但当时的AI公司,基本都是先用了再说。

Anthropic自己也有这样的历史。就在2023年,他们还因为使用盗版书籍来训练模型,被一群作家起诉,最后赔了不少钱。

这件事才过去没多久。现在他们反过来指责别人“偷”数据,就显得有点双重标准了。

马斯克的评论,就像一盆冷水。它提醒了大家,在AI这个领域,没有人是完全清白的。大家都是在同一个“灰色地带”里成长起来的。

你不能说,我自己已经上岸了,就不许别人再下水。

这种指责,在行业内部看来,说服力就没那么强了。因为大家都知道,数据的获取,是整个行业共同面临的复杂问题。不是简单地用“偷”或者“不偷”就能定义的。

下一步,会不会限制API?

这个事情之后,最直接的一个问题就是,以后还能不能用国外的API?

我觉得会越来越难。

不过换个角度想,这件事也证明了Anthropic的Claude模型,确实做得好。如果模型不好用,根本不会有人花这么多钱,用这么多账号去研究它。

但是,对方现在已经把这种研究行为,定义为“非正常使用”。

就像你去吃自助餐。你付了钱,可以随便吃。但如果你拿个麻袋,把店里所有的食材都装走,那老板肯定要出来阻止你。

这三家中国公司,付了API调用的费用,这是事实。那1600万次调用,都是花了钱的。

但Anthropic现在认为,你们不是来吃饭的,你们是来搬厨房的。所以,游戏规则可能要改了。

现在的情况是,我们这边缺算力,因为高端芯片被限制。他们那边有技术优势,但担心核心技术被学走。

所以,未来跨境的API调用,很可能会被严格监控。甚至在某些情况下,会被直接限制或切断。

这条“学习”的近路,可能很快就要被堵上了。

这对我们来说,其实是一个明确的信号。那就是必须加速自研,尤其是在模型最核心的推理能力上。必须摆脱对外部API的依赖。

中国AI真的只会抄吗?

我觉得不是。

这次被点名,听起来不好听。但它也说明了一个事实。那就是我们在努力追赶。

因为起步比别人晚,手上的资源(比如芯片)比别人少,所以用了一些比较极端的方法去学习。这可以理解。

但是,这种方法肯定不是长久之计。

当“蒸馏”这种行为,被对方定义为安全问题之后。中美在AI技术领域的交流和合作,大门基本上就要关上了。

接下来,就是各自发展的阶段。

真正的考验现在才开始。

我们要想一个很现实的问题。如果有一天,国外的API真的完全不能用了,或者变得极不稳定,我们怎么办?

我们现在手机里很多APP,背后都可能连接着某个大模型的API。如果这个API接口失效了,那APP的功能会不会瘫痪?

我们自己的国产大模型,能不能及时顶上?性能能不能达到可以替代的水平?

这些都是很具体的问题。

所以,这件事情,是一个警醒。它告诉我们,不能再有任何幻想。技术上不能依赖任何人。必须把核心能力,牢牢掌握在自己手里。

前面的路不好走。没有捷径了。只能一步一步,踏踏实实地自己研发。

© 版权声明

相关文章

暂无评论

暂无评论...