上海发布了一个叫SNPBag的模型。这个模型是专门用来分析人类基因的。我们的基因里有很多微小的差异点,叫SNP。这些点决定了我们每个人长得不一样,体质也不一样。比如,有的人天生就能喝酒,有的人一杯就倒,这背后可能就是SNP在起作用。过去分析这些东西特别慢,也很费钱。但是现在有了SNPBag,速度直接快了10到100倍。

技术突破与模型发布
它的工作原理是这样的。它先学习了100万个完整的人类基因组数据。通过学习,它自己找到了不同SNP之间的复杂关系。而且,它还有一个很厉害的功能,就是数据压缩。一个人身上大概有600万个SNP位点,信息量很大。SNPBag可以把这些信息压缩成一个只有0.75MB的数据包。这就像把一本很厚的书,变成了一个小小的文本文件,方便存储和传输。
这个技术对找罕见病的原因帮助很大。举个例子,如果一个孩子得了一种怪病,医生一直找不到原因。以前,医生可能需要花很长时间,手动比对海量的基因数据。现在可以这么做:第一步,给这个孩子做一个全基因组测序。第二步,把测序得到的数据输入到SNPBag模型里。第三步,模型会利用它学到的知识,快速把孩子的基因数据和数据库里百万人的数据进行比对。它可能会立刻标出几个可疑的SNP组合。这些组合在其他类似病例中出现过。这样一来,医生就有了明确的方向,可以集中精力去研究这几个基因点。这能大大缩短诊断时间,也可能为开发新药提供线索。
然后,视频生成技术也有了新东西。爱诗科技发布了一个叫PixVerse R1的模型。它是一个可以实时生成视频的模型。以前的AI生成视频是单向的。你给AI一段文字,比如“一只狗在沙滩上冲浪”,然后就只能等着。模型会给你一个最终的视频,好坏你都得接受,中间不能修改。
但是PixVerse R1完全不一样。它让你可以在视频生成过程中随时插手。这就好像你不是观众,而是导演。你可以这样做:第一步,你先输入一个简单的想法,比如“一个宇航员走在火星上”。模型开始生成画面。第二步,你看着正在生成的画面,觉得有点单调。你就可以直接说“让天上出现两个月亮”。画面里的天空就会立刻多出两个月亮,而且光影效果都是对的。第三步,你又觉得宇航员走得太慢了,可以说“让他跑起来”。画面里的宇航员就会从走到跑,动作很自然。整个过程是连续的,你可以随时加东西,改东西,模型都会马上反应。而且它生成的视频分辨率能到1080P,清晰度足够了。这让AI视频从一个“玩具”,变成了一个可以正经用的创作工具。
另外,智谱AI和华为也合作搞了个图像生成模型,叫GLM-Image,还把它开源了。这个模型画图的效果很好。它能理解很复杂的指令,而且画出来的文字很清晰,不会像很多模型那样画出一些奇形怪状的符号。比如,你可以让它画“一个机器人坐在图书馆里看书,书的封面上写着‘人工智能简史’”,它能准确地把这几个字画出来。
但这个模型最重要的点,不是它画得多好。而是它整个训练过程,用的全都是我们国产的技术。具体来说,跑训练用的硬件,是华为的昇腾芯片。支持训练的软件框架,是华为的昇思。这说明,从硬件到软件,我们自己的一整套东西,已经能支撑起一个很好的大模型了。这对于建立我们自己的AI技术体系很重要,以后就不用太担心被国外“卡脖子”了。
市场动态与商业化进展
技术上很热闹,资本市场更直接。智谱AI和MiniMax这两家国内做大模型的头部公司,前后脚在香港上市了。
智谱AI是1月8号上的,成了“全球大模型第一股”。它的发行价是116.2港元,上市没几天就涨了超过80%。MiniMax是1月9号上的,发行价165港元,当天盘中最高涨了97%,市值一度超过一千亿港元。买它的股票的人特别多,公开发售的部分,认购申请的资金总额是原计划的1837倍。
这两家公司上市,总共拿到了差不多一百亿港元的资金。但是,如果你去看它们的财务报表,会发现它们都在亏大钱。智谱在过去三年半里亏了62亿多。MiniMax也累计亏了大概92亿。按理说,亏这么多钱的公司,股价应该不行才对。但现实恰恰相反。
这是因为,现在投资人看大模型公司,看的不是它当下赚不赚钱。他们看的是未来。他们在赌一个可能性,就是这些公司未来能做出真正的通用人工智能(AGI)。他们认为,一旦做出来了,那回报将是巨大的,现在这点亏损不算什么。所以,这两家公司的上市,给整个行业打了一针强心剂,也说明中国的AI公司开始在全球资本市场上有一席之地了。
除了上市,应用落地也很快。阿里的千问APP,才上线两个月,每个月的活跃用户就超过了一个亿。这个增长速度很快。用这个APP最多的是两类人:学生和白领。学生可以用它来查资料、写论文提纲。白领可以用它来写周报、写邮件、做活动策划的初稿。这些都能帮他们省下不少时间。
而且,不光是普通用户喜欢用,开发者也很认阿里的千问模型。在全球最大的AI开源社区Hugging Face上,千问模型的累计下载量达到了7亿次。在排名前十的开源模型里,它的下载量增长是最快的之一。这意味着,有很多程序员正在用千问的模型作为基础,去开发各种各样新的应用。一边是大量的普通用户,一边是活跃的开发者,阿里这样两手抓,可能会在AI时代再造一个像淘宝或者支付宝那样的超级应用。
用户获取信息的方式变了,商业模式也跟着变。以前大家都是用搜索引擎,所以就有了SEO(搜索引擎优化)。做生意的人都想办法让自己的网站排在搜索结果的前面。现在,很多人开始直接问AI了。比如,你想买车,可能会直接问AI助手“20万左右的家用SUV哪个好?”。
于是,一个新概念就出来了,叫GEO(生成式引擎优化)。它的目的,就是让AI在回答用户问题的时候,能提到你的品牌或产品。想实现这个目的,可以分几步走。第一步,你要把你自己产品或服务的信息,整理得非常清晰、结构化,让AI能读懂。不能只是写一些华丽的广告词。第二步,你要把这些信息发布在一些比较权威的平台,比如行业网站、知名的百科等等。这样AI会认为你的信息来源可靠。第三步,你还可以主动为AI提供数据。比如建立一个关于你自己产品的知识库,通过API接口让AI来调用。这样,当用户问到相关问题时,AI就很有可能直接引用你提供给它的标准答案。有分析说,GEO这个新市场,到2030年规模可能会超过240亿。所有做营销和品牌的人,都得开始研究这个了。
企业动作与战略布局
在行业一片火热的时候,有些公司选择静下心来研究更底层的东西。DeepSeek就是这样一家公司。他们没有急着去做各种应用,也没有急着去上市。他们最近在GitHub上开源了一个叫Engram的模块代码,还发了一篇论文。
他们研究的核心问题,是现在大模型的“记忆力”问题。现在的大模型,上下文窗口是有限的。也就是说,你跟它聊天的内容一多,它就会忘了最开始聊了什么。这限制了它处理复杂任务的能力。DeepSeek提出的方案叫“条件记忆”。简单来说,就是想办法给模型外挂一个像“硬盘”一样的记忆模块。这样,模型就可以存储和检索海量的信息,记忆力就不会受限了。目前他们正在大量招聘研究员和工程师,看样子是在为他们的下一个大模型(DeepSeek V4)做技术储备。这种做法更看重长期价值。
汽车行业的变化也很大。理想汽车最近调整了内部的AI团队。他们现在把重点资源,都集中在了“具身智能”和VLA模型上。具身智能的意思,就是让AI拥有一个“身体”,能跟真实世界互动。对汽车来说,这个身体就是车本身。理想的目标,就是把车打造成一个智能机器人。
为了实现这个目标,他们选择的技术路线是VLA模型。VLA是三个词的缩写:Vision(视觉)、Language(语言)、Action(行动)。他们想用这一个统一的模型,来同时负责智能驾驶和智能座舱。视觉,就是让车能看懂路况、交通标志,甚至乘客的表情。语言,就是让车能听懂人说话,并且能和人自然地对话。行动,就是车根据它看到和听到的信息,做出具体的动作,比如打方向盘、刹车,或者调节车里的空调和音乐。
举个例子,以后你开着理想汽车,如果打了个哈欠。车上的摄像头(Vision)捕捉到了这个动作。VLA模型会判断你可能有点困了。然后它可能会主动通过语音(Language)问你:“您是不是有点累了?需要我把音乐调得动感一点,并且打开外循环通风吗?”。等你同意后,它就会立刻执行这些操作(Action)。这就是把智能驾驶和智能座舱打通之后的效果。
这个领域的上游供应商英伟达,也在不断推出新工具。他们最近发布了两样东西。第一个是一个叫TensorRT Edge-LLM SDK的软件开发工具包。它的作用很简单,就是帮助汽车公司把大模型高效地部署在汽车的芯片上。因为汽车芯片的算力通常比不上数据中心的服务器,直接跑大模型会很慢。英伟达这个工具就是通过各种优化,让大模型在车上也能跑得顺畅。
第二个东西叫Cosmos,是一个世界基础模型平台。它解决的是自动驾驶训练数据不足的问题。训练自动驾驶,需要大量各种各样的路况数据。尤其是一些危险的、极端的场景,比如深夜暴雨天在盘山公路上开车,或者前方车辆突然爆胎。这种数据在现实世界里很难采集到,成本高,而且危险。Cosmos的作用,就是在电脑里生成一个高度逼真的虚拟世界。在这个虚拟世界里,开发者可以随便创造各种极端路况,想要多少就有多少。然后让自动驾驶算法在这个虚拟世界里进行训练和测试。这种用合成数据来训练的方法,可以大大加快自动驾驶的开发速度,也更安全。