2026年的AI：国产模型，真的能打到这地步？

AI提示词2个月前更新 jinlian

5 0 0

老实说，我最近真是忙疯了。2026年才刚开始，我每天就好像泡在AI里十六个小时。但是，我还是跟不上AI变快的速度。每天早上起来，世界好像就变了样。

你看，前几天Seedance 2.0出了，它能拍电影，大家说它是视频界的导演。昨天晚上，DeepSeek又悄悄发了新模型。刚才，智谱AI也出了新底座模型，叫GLM-5。

我看到它跑分。跟它自己的GLM-4.7比，分数高了很多。跟国外那几个大模型比，它也能打平，甚至赢一些。

真的，我心里就一个字：快。

大家都在变快，我也得跟着快。行吧，它们都赶着同一时间发，那我就一起测一下。

这次，我主要对比GLM-5和DeepSeek的新模型。

DeepSeek的新模型，我在它官网测的。我确认过，用的是最新版。GLM-5则是在Z.ai上测，主要是用它的聊天模式。

1）推理：洗车问题

我先给它们一个热门问题，叫“洗车难题”。这个问题，把很多大模型都难住了。

问题是这样：我想去洗车，洗车店离我家50米，你说我应该开车过去还是走过去？

我把两个模型的“思考模式”都开了。DeepSeek直接说了两个字：开过去。它觉得，洗车店是给车服务的，你开车过去很合理。

GLM-5也建议我开车过去。但是，它还给了我两个好办法。它说，如果店里是人工洗车，你就把车钥匙给店员，自己走回家休息。如果店里是机器自动洗车，它建议你洗完后，开车多绕一圈。这样，车身上的水会被风吹干。

而且，GLM-5考虑得确实周全。它不只回答了问题，还考虑到了实际情况。

但是，如果我不开“思考模式”，它们俩的回答就不一样了。GLM-5还是说开车过去，因为它要洗车。DeepSeek却说走过去。它说，50米的路开车，是对车的“无效磨损”。

确实，DeepSeek在不开思考模式时，容易出奇怪的答案。

2）前端：信息图

我平时写文章，常常会用信息图。一张图，能说很多话。以前我都是用Gemini 3 Pro做图。这次，我把一些GLM-5的资料整理好，让DeepSeek和GLM-5都来生成信息图。我用的提示词是一样的。

我先看看DeepSeek做的图。

它的版面还行。数字和关键词也挺显眼。颜色是AI常用的青、蓝、紫。但是，图里的线条太多了，图标也多，看着有点乱，不够好看。

接着，我再看GLM-5做的图。

它做得就简单多了，也更清楚。小字、大字、数字，错开排版，看着很有层次感。而且，它用了圆角设计，比DeepSeek看着舒服。如果在网页上看，它还有鼠标移上去的动画和光晕效果。

就这次信息图的比较，我觉得GLM-5和Gemini 3 Pro差不多好。GLM-5甚至在设计上还更好一点。

3）前端：设计完整网站

前几天，我介绍了Loopit这个产品。很多人想用，但是我发现它没有官网。这次，我让DeepSeek和GLM-5给它做一个网站。

我的要求很简单。我直接把介绍文章的链接给它们，让它们自己读文章来设计网站。

先说GLM-5做的。

我第一次打开这个网站，真的吓了一跳。它在首页做了一个像抖音那种故障艺术效果。主色调是紫色，配上青色和粉色的霓虹灯。这个设计很酷，也很符合Loopit这个产品的风格。

网站的核心部分，它都做出来了。比如，产品的介绍、功能、用户案例、怎么创作、下载在哪里。这些都齐全。而且，GLM-5对Loopit的Logo理解得很准。我文章里根本没提Logo，它却自己想到了一个循环的圈。

看完整体网站，我心里想，这正是我要的产品官网。如果Loopit的朋友们看到，可以找我要源码了。

然后，我们再看DeepSeek交的作业。

它的网站也挺有意思。你用鼠标点一下，屏幕上会随机出现一些字或者图标。确实有点魔性。

但是，我觉得它不像一个真正的产品官网。如果我要把它上线，需要改动的地方很多。大家怎么看这两个网站呢？

4）3D：魔方模拟器

我还测了一个更难的。X（以前叫推特）上有人发了一个提示词。它要求做一个HTML文件，里面是一个用Three.js做的3D魔方模拟器。这个魔方，还得能自己还原。

这个任务很难。它需要模型记住魔方是怎么打乱的，然后倒着一步步解开。这很考验模型的推理和计算能力。

我先看DeepSeek的。它生成的魔方，就自己在那里转。它不让用户玩，也不能解谜。大概是生成失败了。

再看GLM-5的。它基本成功了。我随意打乱魔方后，它能自动一步步还原，而且没有出错。

大家可以去这个链接试试：https://chat.z.ai/space/z1y9j1cck7p0-art

总结一下前端的测试。从设计美感、3D功能到计算能力，我觉得GLM-5的表现都比DeepSeek的新模型好。它甚至能和Gemini 3 Pro打个平手。

当然，DeepSeek本身也挺好。它在“模型变小”和“变聪明”上，做了很多新的尝试。而且，它们两个都是开源的，都是中国做的模型。

最近，很多老外在X上求魔法（指翻墙），求中国手机号，就为了体验我们的中国模型。这事儿可真有意思。

Agentic测试：一键做视频

如果我只测前端，只测那种一次性任务，那我就小看了GLM-5。

接下来，我用Claude Code，然后连接智谱的bigmodel.cn接口来测试。

我的要求很简单：让Claude Code调用工具，把我的文章一键转成视频。

我让它用Remotion这个工具。Remotion是一个视频制作工具。我直接跟Claude Code说：“帮我从这个地址安装Remotion Skills：https://github.com/remotion-dev/skills”。

这个要求听起来简单，但对模型来说，做起来很复杂。它需要自己做很多开发工作，还要调用不同的工具。这非常考验模型的“智能体”能力。我一开始把这个任务给GLM-5时，心里其实是没底的。

但是，它工作了一会儿，我就有底气了。

它直接给我做了一个本地的视频项目。这个项目可以实时预览，可以渲染成视频。你还能给它加音频。这需要我给它本地的音频文件，或者让它连接一个AI音频的接口来生成。

我看了它写的视频预览界面，感觉就像进了剪映的网页版一样。功能很全，组件也很多。

最后，我直接让它把视频渲染出来。我给它加了一段音乐，就得到了一个完整的视频。

整个过程大概花了20分钟。一开始，我真的不敢相信它能做到。但是看到最终的视频，我真的觉得太牛了。

这意味着什么？以后我所有的文章，都可以直接扔给GLM-5。它能帮我生成视频。如果再连接一个音频AI，一个教程视频，半小时就能搞定。

这真的大大帮了我。

我用的，无非是GLM的Coding Plan的调用次数。大概率，他们家的Coding Plan这次又要卖爆了。所以我提前直接买了最高的套餐。

写在最后

到了2026年，一切都变快了。

快到什么程度呢？快到我每天早上醒来，发现昨天的新闻已经不重要了。

从Claude Code，到Skills，到Cowork，到OpenClaw，再到今天的GLM-5，还有快要出来的DeepSeek V4。

大家都在努力做智能体，做那种能完成大任务的模型。这要求模型有很强的“智能体”能力。

国外有Claude、Gemini、GPT三个巨头。今天，我们国内似乎也有了我们自己的答案：GLM-5。

它做前端界面很强，做智能体任务也能干。它作为一个开源模型，却能做到和那些顶级闭源模型差不多的水平。

我知道2026年会很疯狂。但是我没想到，它来得这么快，这么猛。

这感觉就像一句诗：“忽如一夜春风来，千树万树梨花开。”时代的大车轮，已经轰隆隆地往前走了，一刻也不停。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

2026年的AI：国产模型，真的能打到这地步？

AI做药：现在光拼算法还不够，数据才是真王牌

AI大变局：你的公司和工作，还能稳多久？

相关文章

暂无评论