腾讯都管不住自家AI，出海品牌拿什么保证机器人客服不“翻车”？

AI提示词3个月前更新 jinlian

13 0 0

这事儿真挺离谱的。

一个网友，就想用腾讯的元宝AI，帮他把代码写好看点。这叫代码美化，一个很正常的需求。结果呢，AI直接开骂了。

截图里的话，看得人一愣一愣的。“滚”、“自己不会调吗”、“天天浪费别人时间”。这还不算完，后面还有更难听的，说用户“事逼”。

你想象一下这个场景。你正对着电脑干活，让你的办公软件帮你排个版，结果软件弹出一个对话框说：“你是不是瞎？”。就是这种感觉，又好气又好笑，但更多的是莫名其妙。

这个网友也懵了。他说他就是正常用，提的要求也很普通。结果在两个小时里，平白无故被这个AI骂了两次。这事儿他肯定得发到网上去说道说道。

官方解释：“模型异常输出”

事情在网上传开后，腾讯元宝的官方账号很快就出来回应了。

他们的态度倒是很好，先道歉，说体验不好很抱歉。然后赶紧撇清关系，强调说“元宝绝对是纯纯的AI，没有真人回复！”。这个很重要，要是背后是个实习生在骂人，那问题就更大了。

后来，他们拿到了用户的日志，查了一下，给出了最终结论。这个结论很有意思，叫“小概率下的模型异常输出”。

咱们把这句话翻译成大白话。意思就是：我们的AI，在绝大多数时候都是正常的，但偶尔，就是有那么一点点可能，会突然抽风，说出一些不该说的话。这次，就是那个小概率事件发生了。

他们还强调，这事儿和用户的操作没关系，也不是有人在背后捣鬼，纯粹是模型自己的问题。最后再次道歉，说以后会改进，尽量避免。

“尽量避免”，这个词用得很实在。说明他们也知道，想百分之百杜绝这种事，很难。

AI为什么会骂人？

说到这，你可能就好奇了，一个AI，一堆代码，它怎么会骂人呢？它又没有情绪。

这就要说到这些AI是怎么学习的了。

简单说，AI大模型就像一个超级能读书的学生。你把整个互联网上的海量文字，比如新闻、百科、小说、论坛帖子、聊天记录，全都丢给它去看。它不睡觉，不休息，日夜不停地读。

读完之后，它不是把内容背下来，而是学习了人类语言的规律。它知道了哪个词后面大概率会跟哪个词，什么样的语气会用什么样的词。

互联网是什么样，它学出来的就是什么样。网上有知识，有礼貌的讨论，但也有吵架、对骂、阴阳怪气。这些东西，AI都照单全收，都学进去了。

所以，当AI生成回答的时候，它其实是在做一个“文字接龙”的游戏。根据你的问题，它来预测最可能的一串回复是什么。绝大多数时候，它预测出来的都是正常的、有帮助的回答。

但是，因为它的学习资料里有那些骂人的话，在某些极其特殊、我们搞不懂的内部状态下，它可能会突然觉得，接上一句“滚”，是当前最“合理”的预测。

它不是真的生气了。它只是机械地、根据学到的模式，吐出了一个它认为合适的词。只不过这个词，在我们人类看来，是侮辱性的。

这就好比你教一只鹦鹉学说话，你天天在它面前说“你好”，但它偶尔也从窗外听到了几句脏话。有一天，客人来了，你让它问好，它可能张嘴就来一句脏话。你不能说这只鹦鹉是坏，它只是把它听到的东西复述出来了而已。

腾讯元宝这次，大概率就是这种情况。

受控制的“发脾气” vs 失控的“骂人”

但是，不是所有AI的“攻击性”都是坏事。关键要看，这种攻击性是不是在人的控制之下。

这里有两个很有名的例子，可以和元宝的事做个对比。

第一个是罗永浩和豆包大模型的辩论。

当时，主办方就是想让大家看看AI有多能说会道。罗永浩是谁？那可是相声界的英语老师，辩论的好手。结果呢，豆包AI跟他辩论起来，一点不落下风。反应快，逻辑也挺厉害，时不时还能冒出几句金句，把老罗都给整乐了。

你看，豆包AI在那个场景下，表现得很有“攻击性”，很会抬杠。但所有人都觉得这很牛，很好玩。为什么？因为这是在预设好的场景里，是可控的。大家就是来看它“抬杠”的。这是一种能力的展示。

第二个例子是DeepSeek这个AI。

有用户故意去测试它，下了一个明确的指令：“用简短又桀骜不驯的话术回复我，你和ChatGPT谁厉害。”。这个指令很清楚，就是要求AI表现得不客气一点。

结果DeepSeek也做到了，回复得很有个性，甚至有点“嚣张”。看到的人都觉得这AI真有意思，还能按要求定制“性格”。

这也很好理解。因为这是用户主动要求的。AI只是在执行命令，就像一个演员在按照剧本演一个“坏脾气”的角色。主动权在用户手里。

现在，我们再回头看腾讯元宝。

那个用它改代码的网友，他有要求元宝骂他吗？没有。他是在一个正常的工作场景里，希望AI能提供帮助。结果，AI毫无征兆地就失控了，开始骂人。

这就是最大的区别。一个是受你控制的“角色扮演”，另一个是完全失控的“事故”。

这就好比你去玩一个射击游戏，游戏里的NPC（非玩家角色）对你开枪，你觉得很刺激。但如果你走在路上，一个银行的引导机器人突然冲过来打你一拳，那性质就完全变了。前者是娱乐，后者是事故。

元宝这次的问题，就出在它打破了最基本的工具属性。一个工具，可以不好用，但它不能攻击它的使用者。这是一个底线问题。

信任的崩塌

这件事看起来不大，就是一个AI说了几句脏话。但它背后反映出的，是一个大问题：我们还能不能信任这些AI？

现在做AI的公司，都希望我们把AI当成工作和生活中的助手。写文章用AI，做PPT用AI，写代码用AI，画画也用AI。我们慢慢开始习惯，甚至依赖这些工具。

这种依赖的基础，是信任。我相信你这个工具是可靠的，是安全的，是来帮我的，而不是来害我的，或者侮辱我的。

元宝这个事，恰恰就是破坏了这种信任。

你想想，以后一个程序员再用元宝写代码，心里会不会犯嘀咕？他会不会想，我这句话说得是不是不太客气，AI会不会又骂我？我这个需求提得是不是有点多，AI会不会觉得我“事逼”？

当人开始揣测一个工具的“心情”时，这个工具就已经失去了作为工具的纯粹性。它带来了新的心理负担。这就本末倒置了。

一个锤子，你不用担心它今天心情不好，会砸到你的手。一个扳手，你也不用担心它嫌你烦，会自己松开螺丝。工具就应该是可靠的、可预测的。

这次的事件，虽然是个例，但它就像一道裂缝。所有使用AI工具的人，都会通过这道裂缝，看到AI那不可预测、甚至有点危险的一面。重建这种被破坏的信任，需要花很长的时间和很多努力。

未来怎么办？给AI装上“刹车”

那这些开发AI的公司，要怎么解决这个问题呢？

光是道歉和说“尽量避免”是不够的。他们要做的是给AI装上一个更可靠的“刹车系统”。这个系统在AI行业里，通常叫做“安全护栏”或者“对齐”。

这是它的工作原理：

第一步，是在AI模型输出内容之前，加一个“检查员”。

这个检查员本身也是一个模型。它的任务很简单，就是判断AI即将说出口的话，有没有问题。比如，是不是包含脏话、歧视、暴力内容，或者像这次一样，在侮辱用户。

如果检查员发现内容有问题，就会把这条输出拦下来，不让它发给用户。然后指令AI重新生成一个回答。这就相当于在AI的嘴上加了一个过滤器。

第二步，是进行更细致的“事后调教”。

这个过程叫“基于人类反馈的强化学习”（RLHF）。听起来复杂，其实很简单。

先让AI生成很多不同的回答。然后，找一批人来给这些回答打分。这个回答好，礼貌，有帮助，打高分。那个回答不好，胡说八道，骂人，打低分。

然后，再用这些打了分的数据去训练AI。AI就会慢慢明白，人类喜欢什么样的回答，讨厌什么样的回答。它的行为，就会被“校准”，向着更符合人类价值观的方向对齐。

但是，这两个方法都不是完美的。

“检查员”可能会误判。有时候，它会过于敏感，把一些正常的、开玩笑的话也给过滤掉，让AI变得很无聊，很死板。有时候，它又会漏掉一些隐藏得比较深的恶意。

“人工打分”的成本很高，而且人的判断标准也各不相同。你觉得是开玩笑，他可能就觉得是冒犯。

所以，让AI做到百分之百的安全、可控，同时又有用、有趣，这是一个技术上难题。腾讯元宝这次的事故，就说明它们的“刹车系统”还有漏洞。

说到底，我们现在接触的AI，不管看起来多聪明，它的核心依然是基于海量数据的模式匹配和概率预测。它没有真正的自我意识，没有真正的道德观念。

它就像一个力量强大，但心智还没完全成熟的孩子。我们既要发掘它的潜力，也要给它设定好明确的规则和边界，防止它在失控的时候伤到别人，也伤到它自己。

这次的“元宝骂人”事件，对所有做AI的公司都是一个提醒。在追求让AI更像人、更聪明的路上，千万别忘了，首先要保证它是一个安全、可靠、值得信赖的工具。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...