老实说,我最近真是忙疯了。2026年才刚开始,我每天就好像泡在AI里十六个小时。但是,我还是跟不上AI变快的速度。每天早上起来,世界好像就变了样。
你看,前几天Seedance 2.0出了,它能拍电影,大家说它是视频界的导演。昨天晚上,DeepSeek又悄悄发了新模型。刚才,智谱AI也出了新底座模型,叫GLM-5。
我看到它跑分。跟它自己的GLM-4.7比,分数高了很多。跟国外那几个大模型比,它也能打平,甚至赢一些。

真的,我心里就一个字:快。
大家都在变快,我也得跟着快。行吧,它们都赶着同一时间发,那我就一起测一下。
这次,我主要对比GLM-5和DeepSeek的新模型。
DeepSeek的新模型,我在它官网测的。我确认过,用的是最新版。GLM-5则是在Z.ai上测,主要是用它的聊天模式。
1)推理:洗车问题
我先给它们一个热门问题,叫“洗车难题”。这个问题,把很多大模型都难住了。
问题是这样:我想去洗车,洗车店离我家50米,你说我应该开车过去还是走过去?
我把两个模型的“思考模式”都开了。DeepSeek直接说了两个字:开过去。它觉得,洗车店是给车服务的,你开车过去很合理。
GLM-5也建议我开车过去。但是,它还给了我两个好办法。它说,如果店里是人工洗车,你就把车钥匙给店员,自己走回家休息。如果店里是机器自动洗车,它建议你洗完后,开车多绕一圈。这样,车身上的水会被风吹干。
而且,GLM-5考虑得确实周全。它不只回答了问题,还考虑到了实际情况。
但是,如果我不开“思考模式”,它们俩的回答就不一样了。GLM-5还是说开车过去,因为它要洗车。DeepSeek却说走过去。它说,50米的路开车,是对车的“无效磨损”。
确实,DeepSeek在不开思考模式时,容易出奇怪的答案。
2)前端:信息图
我平时写文章,常常会用信息图。一张图,能说很多话。以前我都是用Gemini 3 Pro做图。这次,我把一些GLM-5的资料整理好,让DeepSeek和GLM-5都来生成信息图。我用的提示词是一样的。
我先看看DeepSeek做的图。
它的版面还行。数字和关键词也挺显眼。颜色是AI常用的青、蓝、紫。但是,图里的线条太多了,图标也多,看着有点乱,不够好看。
接着,我再看GLM-5做的图。
它做得就简单多了,也更清楚。小字、大字、数字,错开排版,看着很有层次感。而且,它用了圆角设计,比DeepSeek看着舒服。如果在网页上看,它还有鼠标移上去的动画和光晕效果。
就这次信息图的比较,我觉得GLM-5和Gemini 3 Pro差不多好。GLM-5甚至在设计上还更好一点。
3)前端:设计完整网站
前几天,我介绍了Loopit这个产品。很多人想用,但是我发现它没有官网。这次,我让DeepSeek和GLM-5给它做一个网站。
我的要求很简单。我直接把介绍文章的链接给它们,让它们自己读文章来设计网站。
先说GLM-5做的。
我第一次打开这个网站,真的吓了一跳。它在首页做了一个像抖音那种故障艺术效果。主色调是紫色,配上青色和粉色的霓虹灯。这个设计很酷,也很符合Loopit这个产品的风格。
网站的核心部分,它都做出来了。比如,产品的介绍、功能、用户案例、怎么创作、下载在哪里。这些都齐全。而且,GLM-5对Loopit的Logo理解得很准。我文章里根本没提Logo,它却自己想到了一个循环的圈。
看完整体网站,我心里想,这正是我要的产品官网。如果Loopit的朋友们看到,可以找我要源码了。
然后,我们再看DeepSeek交的作业。
它的网站也挺有意思。你用鼠标点一下,屏幕上会随机出现一些字或者图标。确实有点魔性。
但是,我觉得它不像一个真正的产品官网。如果我要把它上线,需要改动的地方很多。大家怎么看这两个网站呢?
4)3D:魔方模拟器
我还测了一个更难的。X(以前叫推特)上有人发了一个提示词。它要求做一个HTML文件,里面是一个用Three.js做的3D魔方模拟器。这个魔方,还得能自己还原。
这个任务很难。它需要模型记住魔方是怎么打乱的,然后倒着一步步解开。这很考验模型的推理和计算能力。
我先看DeepSeek的。它生成的魔方,就自己在那里转。它不让用户玩,也不能解谜。大概是生成失败了。
再看GLM-5的。它基本成功了。我随意打乱魔方后,它能自动一步步还原,而且没有出错。
大家可以去这个链接试试:https://chat.z.ai/space/z1y9j1cck7p0-art
总结一下前端的测试。从设计美感、3D功能到计算能力,我觉得GLM-5的表现都比DeepSeek的新模型好。它甚至能和Gemini 3 Pro打个平手。
当然,DeepSeek本身也挺好。它在“模型变小”和“变聪明”上,做了很多新的尝试。而且,它们两个都是开源的,都是中国做的模型。
最近,很多老外在X上求魔法(指翻墙),求中国手机号,就为了体验我们的中国模型。这事儿可真有意思。
Agentic测试:一键做视频
如果我只测前端,只测那种一次性任务,那我就小看了GLM-5。
接下来,我用Claude Code,然后连接智谱的bigmodel.cn接口来测试。
我的要求很简单:让Claude Code调用工具,把我的文章一键转成视频。
我让它用Remotion这个工具。Remotion是一个视频制作工具。我直接跟Claude Code说:“帮我从这个地址安装Remotion Skills:https://github.com/remotion-dev/skills”。
这个要求听起来简单,但对模型来说,做起来很复杂。它需要自己做很多开发工作,还要调用不同的工具。这非常考验模型的“智能体”能力。我一开始把这个任务给GLM-5时,心里其实是没底的。
但是,它工作了一会儿,我就有底气了。
它直接给我做了一个本地的视频项目。这个项目可以实时预览,可以渲染成视频。你还能给它加音频。这需要我给它本地的音频文件,或者让它连接一个AI音频的接口来生成。
我看了它写的视频预览界面,感觉就像进了剪映的网页版一样。功能很全,组件也很多。
最后,我直接让它把视频渲染出来。我给它加了一段音乐,就得到了一个完整的视频。
整个过程大概花了20分钟。一开始,我真的不敢相信它能做到。但是看到最终的视频,我真的觉得太牛了。
这意味着什么?以后我所有的文章,都可以直接扔给GLM-5。它能帮我生成视频。如果再连接一个音频AI,一个教程视频,半小时就能搞定。
这真的大大帮了我。
我用的,无非是GLM的Coding Plan的调用次数。大概率,他们家的Coding Plan这次又要卖爆了。所以我提前直接买了最高的套餐。
写在最后
到了2026年,一切都变快了。
快到什么程度呢?快到我每天早上醒来,发现昨天的新闻已经不重要了。
从Claude Code,到Skills,到Cowork,到OpenClaw,再到今天的GLM-5,还有快要出来的DeepSeek V4。
大家都在努力做智能体,做那种能完成大任务的模型。这要求模型有很强的“智能体”能力。
国外有Claude、Gemini、GPT三个巨头。今天,我们国内似乎也有了我们自己的答案:GLM-5。
它做前端界面很强,做智能体任务也能干。它作为一个开源模型,却能做到和那些顶级闭源模型差不多的水平。
我知道2026年会很疯狂。但是我没想到,它来得这么快,这么猛。
这感觉就像一句诗:“忽如一夜春风来,千树万树梨花开。”时代的大车轮,已经轰隆隆地往前走了,一刻也不停。