我得说句心里话,我不太喜欢“通用人工智能”(AGI)这个词。不是我不相信机器能变聪明,甚至超过人类。但是,你仔细想想,我们人类自己的智能,它就不是“通用”的。
我们每个人,其实都是特别专业化的。你看,医生看病很厉害,但让他去修车,他可能就不会。修理工修车很拿手,但要他去做手术,那肯定不行。一个优秀的厨师,能做出美味佳肴,但你让他去解一道复杂的数学题,他可能就傻眼了。我们的智慧,都是在漫长的生物进化中,为了生存,为了适应环境,慢慢“长”出来的。这些能力,有很强的适用范围。

但是,现在行业里很多人太兴奋了。大家觉得,我们很快就能做出像人一样聪明的AI了。我觉得这种想法有点想当然。我们现在做的这些AI,其实已经走到头了。你想想,你只是给电脑更多的计算能力,让模型更大,或者喂给它更多网上的文字。这样就能让AI真的变得有智慧吗?我觉得不行。
这种做法,就像你觉得只要给一个孩子看更多的书,他就能学会游泳。这是错的。孩子学会游泳,他得跳进水里,感受水的浮力,练习划水,然后才能学会。他需要和真实的世界互动。同样,小猫小狗学习怎么抓老鼠,它们也不是看书学的。它们是通过观察,通过一次次地扑空,一次次地追逐,最后才学会的。这个过程充满了真实的体验和反馈。
但是,我们现在的AI,尤其是那些大型语言模型,它学习的都是文字。文字只是对真实世界的一种描述,一种很贫乏的描述。它不是世界本身。你不能靠看菜谱就学会做饭,你得动手去切菜、炒菜。你不能靠看地图就学会开车,你得坐进车里,感受路况,踩油门,转方向盘。
所以,我觉得现在这样,只靠堆数据、堆算力,想让AI变得像人一样有智慧,是不可能的。我们现在的这种路子,已经走不通了。我们必须换个方向,让AI学会理解真实的世界。这是关键。
LLM的问题:它们没有“常识”
现在的大语言模型(LLM),它们有个大问题。它们只懂文字。但是,文字很有限,它只是人对世界的描述。文字不是真实的世界。比如说,你读一万本关于苹果的书,你还是不知道苹果尝起来是什么味道。你只有真正咬一口,才知道。
所以,如果一个AI助手,它只靠这些文字来工作,那会出大乱子。你想想,一个AI要帮你做件事,它得知道它做了以后会发生什么。如果它推倒一个杯子,它得知道杯子会摔碎。如果它连这个都不知道,它就没法好好计划。它没办法推理,也没有安全性可言。
这就像一个小孩子。他知道摸火会烫手,他知道把玩具扔出去会掉到地上。这是因为他有“世界模型”,他理解这个世界的运行规律。他会预测。
但是,现在的LLM没有这个。它们没有我们说的“世界模型”。它们不能预测物理世界里会发生什么。比如,一个17岁的年轻人,他可能练10个小时就能学会开车。他脑子里已经知道重力、惯性这些物理规则。但是,我们的自动驾驶系统呢?我们给它看了几百万小时的驾驶视频,它还是会出问题。在一些复杂的突发情况面前,它还是搞不定。
这个差距太大了。人学习效率很高,AI学习效率很低。人能很快地理解一个新环境。但是,AI只能通过海量的数据去“猜”。一个AI可能能写出关于汽车的完美文章,但是它不知道踩油门车会加速,松油门会减速。它没有这个最基本的“常识”。它缺乏对“物体恒存性”的理解,比如一个杯子藏起来,它知道杯子还在那里,而不是消失了。它缺乏对“因果关系”的理解,比如按下开关灯会亮。
你看,我们想让AI去真实世界里做事情,它就必须先理解这个世界怎么运转。它得有像人一样的“常识”。这是我们现在大语言模型做不到的。
换个思路:物理AI才是未来
我觉得,真正的变化,不会再是那些和AI聊天的对话框了。真正要来的,是“物理AI”(Physical AI)。
我们人总是觉得,语言能力是最厉害的智能。其实,这是一种错觉。你想想,让AI预测文字里下一个词是什么,这在数学上没那么难。它就是算概率。但是,真正难的是什么?是理解我们这个真实的世界。这个世界很大,很复杂,而且充满了各种不确定性。它不是文字能简单描述的。
所以,我提倡一种新的方法。我们叫它 JEP-A(联合嵌入预测架构)。这种AI,它不再是笨拙地去预测每一个像素点。它会更聪明,它是在一个更抽象的“表征空间”里做预测。这就像什么呢?就像我们看一幅画,我们不是去分析每个颜色点,而是去理解画里有什么东西,它们之间的关系。
这个JEP-A是怎么工作的?它会看很多很多没有标签的视频。比如,它会看一个球在地上滚,看一个人在走路,看水流动的样子。它从这些视频里,自己去学习最基本的物理常识。它会学到物体不会凭空消失(物体恒存性)。它会学到推一个东西,它就会动(因果律)。它还会学到东西会往下掉(重力)。
当AI能够真正理解这些物理规律时,它才能像动物一样。比如,它能理解“如果我把这个杯子推到桌边,它会掉下去”。它知道这是板上钉钉的事。当AI能理解这种最基础的物理事实时,我们才算是真正找到了通往真实智能的大门。这才不是文字游戏,这是真刀真枪地理解世界。这样才能让AI真正地和现实世界打交道。
开源:这是大家的事
过去十年,AI发展得这么快,只有一个原因,就是“开放研究”。大家把研究成果分享出来,一起进步。如果现在我们都把门关上,自己玩自己的,那整个AI行业的发展速度肯定会一下子慢下来。就像一辆车,本来开得好好的,你突然把发动机关了,它肯定就停了。
我现在很担心行业里的情况。你看,像OpenAI和Anthropic这些公司,它们变得越来越封闭。就连谷歌,也在慢慢收紧。这种不开放的想法很危险。而且,现在全球最好的那些开源模型,很大一部分都来自中国。如果我们西方国家放弃开源,那我们不只是会输掉技术竞争。我们还会输掉未来的技术主导权。这会影响我们很多年。
我从来不担心什么“AI会毁灭人类”这种电影里的情节。我觉得那是瞎想。我真正担心的是什么?是我们的网络生活,未来会不会被几家大公司控制住。如果只有少数几家公司掌握了最强的AI,那它们就可以决定我们能看到什么,能做什么。这就像它们掌握了所有信息一样。
所以,AI必须像互联网的规则一样,它是公开的,大家都能用的(开源)。这样我们才能保护好不同国家的文化,不同的语言,不同的价值观。比如,一个AI模型,它需要理解不同地方的方言和习俗。如果只有一个公司来做,它肯定做不好。我们需要很多不同的AI,就像我们需要很多不同的媒体一样。这是为了我们人类文明能一直有活力。如果AI只有一种声音,那会很可怕。
工作和学习:学什么才靠谱?
AI肯定会大大提高我们的工作效率,这是挡不住的。但是,这不代表会有很多人失业。历史上每次技术发展,都说明一件事:新技术的普及速度,总是比人学习和适应的速度慢。所以,我们总有时间去适应。
我对现在的年轻人有个很重要的建议:不要只去学那些很快就过时的热门技能。比如,现在很火的某种编程语言,或者做手机APP的技术。这些东西,AI很快就能自己做了。可能几年后,AI就能把这些活儿全部干完。到时候,你学了可能就没用了。
你真正应该做的,是回到最基础的知识上(Fundamentals)。比如说,如果你要在学“量子力学”和“应用编程”之间选一个,你一定要选量子力学。就算你以后想做电脑科学,这些更深的基础学科,会让你学会怎么去学习新东西。它会给你一种底层的思考方式。这种能力,AI是永远都抢不走的。
我给你举个例子。学编程语言,就像学开车一样。你学会了开自动挡,但是如果将来所有车都自动驾驶了,你就不需要这个技能了。但是,如果你学的是物理学的基本原理,就像你学会了汽车的发动机原理,知道它怎么运作的。那么,就算将来汽车变成自动驾驶,你也能理解它的底层逻辑,甚至能去设计更好的汽车。
或者想想学数学。现在有很多软件能帮你算很复杂的题。但是,如果你理解数学的逻辑,你就能提出新的问题,设计新的算法。这是软件做不到的。学这些基础的东西,它会让你有更强的分析问题和解决问题的能力。这比只会用某个工具更重要。
所以,别只盯着眼前的热门。那些东西很快就会变。但是,那些基础的、底层的东西,它能让你走得更远。
2035年展望:让世界变得更聪明
到2035年,AI会变得很不一样。它不会只是一个网页上的小工具,或者一个聊天机器人。它会通过像AR眼镜这样的设备,更深地进入我们的生活。它会和我们的眼睛、耳朵结合起来,帮助我们感知世界。
我们做AI,不是为了做出一个怪物来取代人类。我们是想让这个地球上的“智能总量”变得更多。就像我们发明了计算器,它让我们算数更快更准。我们发明了电脑,它让我们处理信息更有效率。AI也是一样,它是来帮忙的。
未来,人跟那些很厉害的AI,关系会像什么呢?就像一个很棒的领导,身边有很多特别聪明的智囊团。AI可能在很多专业领域,都比你更懂。比如,AI可能比你更懂医学诊断,或者比你更会分析金融市场。但是,它始终是在人的指挥下工作的。它会按照人的价值观,给我们提供好的建议,帮我们完成任务。
AI的出现,不是为了跟人作对。它是来完善我们的文明的。它能弥补人的不足,让人类变得更强。就像杨立昆说的那样:“未来的本质,是增加这个星球上的智能总量。” 那时的世界,会非常聪明。但是,它依然会由我们人类来掌控。我们是主人,AI是最好的帮手。