AI不会跟你说“不”，这才是它开始替代工作的关键

AI提示词2个月前更新 jinlian

5 0 0

我最近一直在做一个事。就是用AI生成的图片和视频，去训练别的AI模型。因为在很多行业场景里，真实的训练数据太难找了。比如高空巡检的视频，你总不能为了收集数据，天天派无人机去飞吧。

之前我用Kimi家的生图模型试过。效果还行。但是它生成的自然环境，有时候会出问题。比如山川河流的样子，不符合地理常识。

刚好，字节跳动发布了 Seedance 2.0。这个模型据说很厉害，能生成导演级的视频。它昨天上线了豆包APP，我马上去试了试。我想看看，这个为影视制作设计的模型，能不能帮我生成工业场景里需要的训练数据。

试用次数不多，所以我没法反复去微调一个场景。但我还是测试了几个核心的业务场景。

楼顶有人、湖边有人、道路乱停车

我上来就给了它一个挺复杂的任务。我想模拟无人机在学校上空巡检的场景。

我的提示词是这样的：
「生成一个无人机固定高度巡检的航拍视频，视频画面以一个固定的高度在学校上空飞行，楼顶有几个学生在活动还有的离楼顶边缘比较近，有点危险，另外还有一些学生在校园的内湖边活动学校的内部道路有一些乱停车的车辆」

拿到生成的视频后，第一感觉是，效果可以。画面很真实，没什么大的破绽。我要求的几个关键信息，它都生成出来了。楼顶边缘确实有学生。湖边也有人。道路上也有乱停的车辆。

但是，问题马上就暴露了。我要求的是“固定高度巡检”。这种巡检，镜头应该是平稳、匀速移动的。这样截取出来的每一帧图像，目标物的尺寸和角度才比较一致。这样才适合做数据标注。

可 Seedance 2.0 生成的视频，运镜太花哨了。它默认给了一个环绕拍摄的镜头。无人机围着教学楼转圈。这拍出来的感觉，特别像学校的宣传片。画面是好看了。但是对我来说，这是不合格的巡检数据。因为目标物，比如楼顶的学生，在画面里的角度和大小一直在变。这给后续的标注和训练带来了麻烦。

它好像没理解“巡检”的枯燥。它满脑子想的都是怎么运镜才好看。

工地工人安全帽佩戴

第一个场景，算及格，但不算好用。我又试了第二个，这是一个工业场景的刚需。就是识别工地工人有没有戴安全帽。

我的提示词写得很直接：
「生成一个无人机固定高度（120米左右）施工工地巡检的航拍视频视频，在工地上有工人在工地施工，有人带了安全帽有人没有带安全帽，同时还有一些工人在边界处违规工作」

这次的结果，就有点偏离我的要求了。视频的真实感还是没话说。工地的环境，钢筋、水泥、塔吊，都做得很逼真。

但是，它没听懂我最核心的要求。我特意说了“有人带了安全帽有人没有带安全帽”。这是我做这个数据集的关键。我需要大量的“没戴安全帽”的负样本。结果呢，视频里出现的工人，所有人都把安全帽戴得好好的。一个违规的都找不到。

而且，我要求的“120米固定高度航拍”也没有实现。它生成的视频，视角很低。感觉就像一个人站在地面，拿着手机在工地上转了一圈拍的。这完全不是我想要的航拍巡检视角。

这个模型，骨子里还是一个“影视导演”。你让它拍工地，它就想拍出工地上热火朝天的建设场面。至于你说的那些“违规”的小细节，它好像觉得不重要，就自动忽略了。

换个方法：用AI写提示词

前面两个场景，提示词都是我自己写的。我寻思，是不是我的描述太口语化了，AI理解得不够准确？

于是我换了个策略。我让另一个AI模型 Qwen，来帮我写更专业、更结构化的提示词。这就好比让一个懂技术的产品经理，来写需求文档。

我先试了河道漂浮物识别的场景。Qwen生成的提示词是这样的：
「生成如下固定高度无人机巡检航拍视频：河道漂浮物识别，晴天正午，低空40m垂直俯拍，城市景观河道水面平静，密集漂浮白色塑料袋+深色塑料瓶（部分浸没），桥墩阴影遮挡区边缘可见油膜彩虹色反光，无植被干扰，#环境-晴天 #参数-低空垂直 #目标-混合垃圾 #干扰-桥墩阴影」

你看，这个提示词写得就很细。时间、天气、高度、角度、目标物、干扰项，都用标签标出来了。

我又试了一个占道经营识别的夜间场景。Qwen生成的提示词：
「生成如下固定高度无人机巡检航拍视频：占道经营识别，节假日夜间，补光模式80m俯拍，商业街人行道烧烤摊连片聚集（含车辆卸货），灯光反射导致目标模糊，#环境-夜间 #参数-补光俯拍 #目标-多摊位聚集 #干扰-灯光反射」

用这种提示词生成视频，效果怎么样呢？

我只能说，有好有坏。好处是，Seedance 2.0 确实变听话了。它基本上是严格按照提示词的要求来生成画面的。高度、角度、场景元素，都对得上。

但是，坏处也来了。视频的多样性变得很差。比如河道漂浮物，生成的视频里，那些塑料袋和塑料瓶的样式、分布，几乎一模一样。占道经营的烧烤摊，也像是用同一个模板复制粘贴出来的。

这对我训练模型来说，是个大问题。如果训练数据都是一个样，那训练出来的模型，泛化能力就会很差。它在现实世界里看到稍微有点不一样的烧烤摊，可能就认不出来了。

跟AI打交道，这个度真的很难把握。你写得简单了，它就自由发挥，不按你的要求来。你写得太详细，它又会变得死板，失去创造性和多样性。

再换策略：把镜头写死，把问题列清单

经历了前面的失败，我决定再把策略调整一下。这次我要自己写提示词。但是写法要变。

第一，我要把镜头的运动方式写死。不给它任何自由发挥的空间。怎么飞，多高，多快，视角如何，全都规定好。
第二，我不去详细描述环境了。我直接把需要识别的“问题”或者“缺陷”，用清单的方式列出来。

我用建筑外立面玻璃幕墙巡检这个场景来验证我的新方法。

我的提示词是这么写的：
「生成一个无人机针对高层玻璃幕墙建筑的巡检视频，视频是无人机相机的第一视角，且视角一直处于垂直于玻璃幕墙表面，无人机的移动是完全匀速，相机焦距也是固定的，无人机沿着建筑表面距离固定的距离进行平视的拍摄，无人机机距离玻璃目前1米左右，玻璃幕墙上有如下的缺陷：整片缺失、开启扇脱落风险、结构胶大面积脱粘、钢化玻璃自爆裂纹、连接件严重锈蚀、私自加装重物，视频中不要出现隐患的文字显示或者说明」

这次，视频一生成，我就知道，对了。

镜头终于老实了。无人机就那么稳稳地、匀速地从玻璃幕墙前平移过去。视角也完全符合我的要求。

最重要的是，我清单里列出的那些缺陷，它都一个个给我生成出来了。画面先是正常的玻璃幕墙，然后出现了一块有自爆裂纹的玻璃。再飞一会儿，出现了一处连接件严重锈蚀的痕迹。再飞，又出现了一块结构胶脱粘的地方。

这个视频，简直就是为我量身定做的训练数据集。我只要把视频一帧一帧截取下来，每一张图片都是一个清晰的、可以用于标注的样本。这次的效果很好。

还有一些小问题

我用同样的方法，又试了两个场景。

一个是耕地地面硬化巡检。我要求它生成耕地被混凝土、沥青、水泥砖硬化的画面。它确实生成了。但是，它把这几种不同的硬化方式，混在同一个画面里了。这就给我后续的标注带来了困难。我没法单独标注“这是混凝土硬化”。我希望的是，一个画面里只出现一种违规类型。这个还需要在提示词里继续优化。

另一个是城管违规建筑巡检。我要求它在街道上生成彩钢板房、屋顶加建这些违章建筑。这次的镜头控制得很好。但是，那些违章建筑出现的方式很奇怪。它们不是自然地存在于环境中，而是像游戏里的bug一样，凭空地、一点点地“刷新”出来。跟周围的道路和建筑完全不协调，看起来很假。

一些想法

经过这一轮测试，我大概摸清了 Seedance 2.0 的脾气。它默认就是一个影视制作工具。你不对它的镜头做严格的限制，它就会给你生成一个运镜复杂的宣传片。如果你想用它来生成标准化的数据，就必须把每一个细节都写得清清楚楚，不给它任何即兴发挥的余地。

这次测试也改变了我对AI的一些看法。

在2025年年初的时候，我还认为，AI主要是提高专业人士工作效率的工具。它不会真的让谁失业。

但是现在，我的想法变了。

当我用这些AI工具的时候，我发现，有些工作岗位，可能真的没必要存在了。

当然，AI现在生成的东西还不是完美的。你看我上面的测试，也反复失败了好几次。但是，它修改和迭代的速度太快了。

我们以前是怎么工作的？一个产品经理提出需求，设计师做出第一版方案。这个方案通常不会是最终版。然后大家开会，评审，产品经理提出修改意见。设计师再回去改。来来回回好几轮，中间可能还会有争论和妥协。最后才能得到一个大家满意的结果。这个过程，是以天或者周来计算的。

现在用AI呢？我给它一个提示词，它给我一个结果。我觉得不好。我马上修改我的提示词，把要求写得更清楚。几分钟后，它就给我一个新版本。它不会抱怨，不会反对，不会有情绪。整个迭代的过程，是以分钟来计算的。

你仔细想想，这个“提要求-修改-再提要求-再修改”的循环，是不是已经可以替代掉过去工作流程里的很多人了？以前需要一个团队协作好几天才能完成的事情，现在可能只需要一个人，和AI对话几个小时，就能搞定。而且效果可能还更好。

我不知道大家有没有这种感觉。我只是觉得，这个变化的速度，比我们想象的要快得多。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...