你有没有那么一瞬间,盯着AI生成的文字,后背有点发凉?

AI知识库2个月前发布 yixiu
9 0

ai 写作的原理 从 0 到 1 科普!AI 写作的原理之机器学习模型训练与自然语言生成技术

它有时写得滴水不漏,有时又蠢得让人啼笑皆非。这玩意儿到底是怎么回事?别听那些云里雾里的概念了,今天我给你掰扯掰扯,用大白话,从0到1,讲讲这背后真正的“巫术”——机器学习模型训练自然语言生成技术

咱们先忘掉“人工智能”这个被说烂了的词。你得把现在这些写作AI想象成一个孩子,一个记忆力超群、不知疲倦,但没有真正“自我意识”的孩子。

你有没有那么一瞬间,盯着AI生成的文字,后背有点发凉?

这个孩子的成长,分两步。

第一步,是“读书破万卷”。这就是所谓的机器学习模型训练

但它读的“书”,可不是你书架上那几本。它的图书馆,是整个互联网。维基百科、新闻网站、古登堡计划里的所有公共领域书籍、程序员们写的代码、论坛里的吵架帖子、甚至是你我他公开发表的博客文章……所有这些,都被打包成一个叫“语料库”的玩意儿,海量到你无法想象。

这孩子就被扔进这个数据海洋里,没日没夜地“读”。

但它怎么“读”?它不是去理解“爱”是什么,“正义”是什么。它在做的,是一件极其枯燥、极其暴力的事:玩填字游戏

想象一下,把一句话里的某个词挖掉,让它猜。

比如,“今天天气真___,我们去公园散步吧。”

它可能会猜“好”,也可能猜“不错”,或者“糟糕”。一开始,它就是瞎猜。但你手里有“答案”,你告诉它,正确答案是“好”。它猜错了,就挨一下“巴掌”(当然是比喻),然后调整自己内部的亿万个“神经元连接”,也就是我们常说的参数。下一次再遇到类似“今天天气真…”的句子,它猜“好”的概率就会高一点点。

这个过程,重复进行。不是一百次,一千次,而是一万亿次,甚至更多。

它见的句子多了,就慢慢学到了规律。它发现,“天气”后面经常跟着“好”、“晴朗”、“炎热”;“公园”前面经常是“去”、“逛”;“散步”和“天气好”强相关。这些都不是我们教给它的规则,是它自己从天文数字般的文本中“悟”出来的统计规律。

这个用来“悟”的“大脑结构”,现在最火的就是Transformer模型。你不用管它具体多复杂,只需要记住它最牛的一点:它极其擅长理解上下文。它不像我们以前用的那些老模型,只看一个词前后的几个词。Transformer能把一整段话,甚至一整篇文章都“看”在眼里,然后判断出每个词和其它所有词之间的关联强度。这就是为什么现在的AI写东西,读起来那么连贯,不像以前那样前言不搭后语。

所以,机器学习模型训练的本质,就是一个基于海量数据、通过不断试错来调整内部参数,最终学会根据上下文预测下一个词的概率的暴力美学过程。它没有顿悟,没有灵感,只有冷冰冰的计算和优化。这个过程耗费的电力,足以点亮一座小城市。

好,这个孩子“书”读完了,成了一个“学富五车”的“概率大师”。现在,我们让他“下笔如有神”。

这就到了第二步,自然语言生成(NLG)

我们给它一个开头,比如“从前有座山”。

它的大脑(那个训练好的模型)立刻开始飞速运转。根据它“读过”的一万亿句话,它计算出“山”后面最可能出现的词是什么。也许“上”的概率是30%,“里”的概率是25%,“下”的概率是10%……

它就像一个站在无数分叉路口的旅行者,每一步都选择概率最高的那条路走下去。

“从前有座山,山……”好了,现在上下文变成了“山上”,它又开始计算下一个词的概率。也许“有”的概率最高。“从前有座山,山上……”再下一步,“座”的概率最高。“从前有座山,山上有一……”“庙”。……

就这样一个词一个词地往外“吐”,直到凑成一篇看起来像模像样的文章。这就是它写作的基本逻辑:一个基于上下文、不断预测下一个最可能词汇的链式反应

所以你明白了吗?它不是在“创作”,它是在“回忆”和“组合”。它写出的每一句话,都是它在庞大的语料库中见过的无数个句子的统计学“缝合体”。它之所以能写出莎士比亚风格的十四行诗,是因为它读完了莎士比亚全集,并把那种独特的词汇、句式、韵律的概率分布给“刻”在了骨子里。

当然,如果每次都只选概率最高的那个词,那写出来的东西就会很死板,缺乏惊喜。所以工程师们加了一些“调料”,比如一个叫“温度(Temperature)”的参数。温度调高一点,它就会更大胆,偶尔会选择一些概率没那么高、但更有趣的词,文章就显得更有“创造力”;温度调低一点,它就更保守,严格按照概率来,文章就更准确、但可能更无聊。

现在,我们可以回头看开头的那个问题了。

为什么AI有时写得那么好?因为它见过的东西,比任何一个人类作家都多得多得多。它掌握的语言模式,细致入微到我们自己都意识不到。它就是一个终极的语言模式模仿大师

那为什么它又会一本正经地胡说八道,编造一些不存在的事实?

因为它的世界里,没有“事实”,只有“概率”。在它的训练数据里,如果“爱因斯坦提出了相对论”和“爱因斯坦喜欢吃草莓冰淇淋”(一个被广泛传播的谣言)这两个句子都大量出现,它就会认为这两件事的“可能性”都很高。它无法去验证哪个是真,哪个是假。它的任务只是生成一个读起来通顺、符合语言模式的句子。真实性,从来不是它的首要目标。

这就是AI写作的真相。没有神秘的灵魂,没有闪光的智慧。有的,只是巨大的数据、变态的算力,和一个极其精妙的数学模型。它是一个模仿者,一个概率的计算器,一面映照出我们人类语言文明所有精华与糟粕的镜子。

当你下一次使用它时,不妨带着这样的视角去看待它生成的内容。你会发现,那些惊艳的文字,是人类集体智慧在数据维度的回响;而那些荒谬的错误,则暴露了它作为一个“机器”最根本的、无法逾越的局限。

它很强大,是的。但它离真正的“思考”,还差着十万八千里呢。

© 版权声明

相关文章

暂无评论

暂无评论...