AI不会跟你说“不”,这才是它开始替代工作的关键

我最近一直在做一个事。就是用AI生成的图片和视频,去训练别的AI模型。因为在很多行业场景里,真实的训练数据太难找了。比如高空巡检的视频,你总不能为了收集数据,天天派无人机去飞吧。

之前我用Kimi家的生图模型试过。效果还行。但是它生成的自然环境,有时候会出问题。比如山川河流的样子,不符合地理常识。

刚好,字节跳动发布了 Seedance 2.0。这个模型据说很厉害,能生成导演级的视频。它昨天上线了豆包APP,我马上去试了试。我想看看,这个为影视制作设计的模型,能不能帮我生成工业场景里需要的训练数据。

试用次数不多,所以我没法反复去微调一个场景。但我还是测试了几个核心的业务场景。

AI不会跟你说“不”,这才是它开始替代工作的关键

楼顶有人、湖边有人、道路乱停车

我上来就给了它一个挺复杂的任务。我想模拟无人机在学校上空巡检的场景。

我的提示词是这样的:
「生成一个无人机固定高度巡检的航拍视频,视频画面以一个固定的高度在学校上空飞行,楼顶有几个学生在活动 还有的离楼顶边缘比较近,有点危险,另外还有一些学生在校园的内湖边活动 学校的内部道路有一些乱停车的车辆」

拿到生成的视频后,第一感觉是,效果可以。画面很真实,没什么大的破绽。我要求的几个关键信息,它都生成出来了。楼顶边缘确实有学生。湖边也有人。道路上也有乱停的车辆。

但是,问题马上就暴露了。我要求的是“固定高度巡检”。这种巡检,镜头应该是平稳、匀速移动的。这样截取出来的每一帧图像,目标物的尺寸和角度才比较一致。这样才适合做数据标注。

Seedance 2.0 生成的视频,运镜太花哨了。它默认给了一个环绕拍摄的镜头。无人机围着教学楼转圈。这拍出来的感觉,特别像学校的宣传片。画面是好看了。但是对我来说,这是不合格的巡检数据。因为目标物,比如楼顶的学生,在画面里的角度和大小一直在变。这给后续的标注和训练带来了麻烦。

它好像没理解“巡检”的枯燥。它满脑子想的都是怎么运镜才好看。

工地工人安全帽佩戴

第一个场景,算及格,但不算好用。我又试了第二个,这是一个工业场景的刚需。就是识别工地工人有没有戴安全帽。

我的提示词写得很直接:
「生成一个无人机固定高度(120米左右)施工工地巡检的航拍视频视频,在工地上有工人在工地施工,有人带了安全帽 有人没有带安全帽,同时还有一些工人在边界处违规工作」

这次的结果,就有点偏离我的要求了。视频的真实感还是没话说。工地的环境,钢筋、水泥、塔吊,都做得很逼真。

但是,它没听懂我最核心的要求。我特意说了“有人带了安全帽 有人没有带安全帽”。这是我做这个数据集的关键。我需要大量的“没戴安全帽”的负样本。结果呢,视频里出现的工人,所有人都把安全帽戴得好好的。一个违规的都找不到。

而且,我要求的“120米固定高度航拍”也没有实现。它生成的视频,视角很低。感觉就像一个人站在地面,拿着手机在工地上转了一圈拍的。这完全不是我想要的航拍巡检视角。

这个模型,骨子里还是一个“影视导演”。你让它拍工地,它就想拍出工地上热火朝天的建设场面。至于你说的那些“违规”的小细节,它好像觉得不重要,就自动忽略了。

换个方法:用AI写提示词

前面两个场景,提示词都是我自己写的。我寻思,是不是我的描述太口语化了,AI理解得不够准确?

于是我换了个策略。我让另一个AI模型 Qwen,来帮我写更专业、更结构化的提示词。这就好比让一个懂技术的产品经理,来写需求文档。

我先试了河道漂浮物识别的场景。Qwen生成的提示词是这样的:
「生成如下固定高度无人机巡检航拍视频:河道漂浮物识别,晴天正午,低空40m垂直俯拍,城市景观河道水面平静,密集漂浮白色塑料袋+深色塑料瓶(部分浸没),桥墩阴影遮挡区边缘可见油膜彩虹色反光,无植被干扰,#环境-晴天 #参数-低空垂直 #目标-混合垃圾 #干扰-桥墩阴影」

你看,这个提示词写得就很细。时间、天气、高度、角度、目标物、干扰项,都用标签标出来了。

我又试了一个占道经营识别的夜间场景。Qwen生成的提示词:
「生成如下固定高度无人机巡检航拍视频:占道经营识别, 节假日夜间,补光模式80m俯拍,商业街人行道烧烤摊连片聚集(含车辆卸货),灯光反射导致目标模糊,#环境-夜间 #参数-补光俯拍 #目标-多摊位聚集 #干扰-灯光反射」

用这种提示词生成视频,效果怎么样呢?

我只能说,有好有坏。好处是,Seedance 2.0 确实变听话了。它基本上是严格按照提示词的要求来生成画面的。高度、角度、场景元素,都对得上。

但是,坏处也来了。视频的多样性变得很差。比如河道漂浮物,生成的视频里,那些塑料袋和塑料瓶的样式、分布,几乎一模一样。占道经营的烧烤摊,也像是用同一个模板复制粘贴出来的。

这对我训练模型来说,是个大问题。如果训练数据都是一个样,那训练出来的模型,泛化能力就会很差。它在现实世界里看到稍微有点不一样的烧烤摊,可能就认不出来了。

跟AI打交道,这个度真的很难把握。你写得简单了,它就自由发挥,不按你的要求来。你写得太详细,它又会变得死板,失去创造性和多样性。

再换策略:把镜头写死,把问题列清单

经历了前面的失败,我决定再把策略调整一下。这次我要自己写提示词。但是写法要变。

第一,我要把镜头的运动方式写死。不给它任何自由发挥的空间。怎么飞,多高,多快,视角如何,全都规定好。
第二,我不去详细描述环境了。我直接把需要识别的“问题”或者“缺陷”,用清单的方式列出来。

我用建筑外立面玻璃幕墙巡检这个场景来验证我的新方法。

我的提示词是这么写的:
「生成一个无人机针对高层玻璃幕墙建筑的巡检视频,视频是无人机相机的第一视角,且视角一直处于垂直于玻璃幕墙表面,无人机的移动是完全匀速,相机焦距也是固定的,无人机沿着建筑表面距离固定的距离进行平视的拍摄,无人机机距离玻璃目前1米左右,玻璃幕墙上有如下的缺陷:整片缺失、开启扇脱落风险、结构胶大面积脱粘、钢化玻璃自爆裂纹、连接件严重锈蚀、私自加装重物,视频中不要出现隐患的文字显示或者说明」

这次,视频一生成,我就知道,对了。

镜头终于老实了。无人机就那么稳稳地、匀速地从玻璃幕墙前平移过去。视角也完全符合我的要求。

最重要的是,我清单里列出的那些缺陷,它都一个个给我生成出来了。画面先是正常的玻璃幕墙,然后出现了一块有自爆裂纹的玻璃。再飞一会儿,出现了一处连接件严重锈蚀的痕迹。再飞,又出现了一块结构胶脱粘的地方。

这个视频,简直就是为我量身定做的训练数据集。我只要把视频一帧一帧截取下来,每一张图片都是一个清晰的、可以用于标注的样本。这次的效果很好。

还有一些小问题

我用同样的方法,又试了两个场景。

一个是耕地地面硬化巡检。我要求它生成耕地被混凝土、沥青、水泥砖硬化的画面。它确实生成了。但是,它把这几种不同的硬化方式,混在同一个画面里了。这就给我后续的标注带来了困难。我没法单独标注“这是混凝土硬化”。我希望的是,一个画面里只出现一种违规类型。这个还需要在提示词里继续优化。

另一个是城管违规建筑巡检。我要求它在街道上生成彩钢板房、屋顶加建这些违章建筑。这次的镜头控制得很好。但是,那些违章建筑出现的方式很奇怪。它们不是自然地存在于环境中,而是像游戏里的bug一样,凭空地、一点点地“刷新”出来。跟周围的道路和建筑完全不协调,看起来很假。

一些想法

经过这一轮测试,我大概摸清了 Seedance 2.0 的脾气。它默认就是一个影视制作工具。你不对它的镜头做严格的限制,它就会给你生成一个运镜复杂的宣传片。如果你想用它来生成标准化的数据,就必须把每一个细节都写得清清楚楚,不给它任何即兴发挥的余地。

这次测试也改变了我对AI的一些看法。

在2025年年初的时候,我还认为,AI主要是提高专业人士工作效率的工具。它不会真的让谁失业。

但是现在,我的想法变了。

当我用这些AI工具的时候,我发现,有些工作岗位,可能真的没必要存在了。

当然,AI现在生成的东西还不是完美的。你看我上面的测试,也反复失败了好几次。但是,它修改和迭代的速度太快了。

我们以前是怎么工作的?一个产品经理提出需求,设计师做出第一版方案。这个方案通常不会是最终版。然后大家开会,评审,产品经理提出修改意见。设计师再回去改。来来回回好几轮,中间可能还会有争论和妥协。最后才能得到一个大家满意的结果。这个过程,是以天或者周来计算的。

现在用AI呢?我给它一个提示词,它给我一个结果。我觉得不好。我马上修改我的提示词,把要求写得更清楚。几分钟后,它就给我一个新版本。它不会抱怨,不会反对,不会有情绪。整个迭代的过程,是以分钟来计算的。

你仔细想想,这个“提要求-修改-再提要求-再修改”的循环,是不是已经可以替代掉过去工作流程里的很多人了?以前需要一个团队协作好几天才能完成的事情,现在可能只需要一个人,和AI对话几个小时,就能搞定。而且效果可能还更好。

我不知道大家有没有这种感觉。我只是觉得,这个变化的速度,比我们想象的要快得多。

© 版权声明

相关文章

暂无评论

暂无评论...