AI自动写作生成原理 机器创作机制

AI知识库3周前发布 yixiu
4 0

说起来,这AI自动写作,刚开始听到,脑子里就冒出一堆问号。怎么可能?文字,那不是人脑子里的灵光一闪吗?是那些弯弯绕绕的情绪,是读过的书,是走过的路,统统搅拌在一起,熬出来的一碗汤。机器?它有情绪吗?它懂啥是“情深缘浅”,啥是“夕阳无限好”?

后来,慢慢去看,去琢磨,才知道,哎呀,这背后的玩意儿,跟我们想的那种“懂”或者“感觉”,完全不是一回事儿。它是一套复杂的、概率的游戏,是一场在海量数据里捉迷藏的把戏。

AI自动写作生成原理 机器创作机制

你想啊,一台机器,它怎么“学写字”?就像个嗷嗷待哺的小婴儿,只不过它不是听我们说话,而是“读”——读天文数字那么多文本。书籍、文章、网页、论坛帖子、代码……啥都有。这个“读”,其实是把这些密密麻麻的文字,一股脑儿塞进它巨大的胃里,也就是那个被称为大规模预训练模型的玩意儿。

它可不是逐字逐句理解意思。至少,不是以我们人类那种方式去“理解”。它干的是一件听起来有点笨,但量变引发质变的活儿:找出文字里的规律。哪个词常常跟哪个词挨着出现?“天晴了”后面多半接“雨停了”还是“我出门了”?“伤心”后面可能会跟着“哭泣”,但也可能是“故作坚强”。它像个 tireless 的统计员,给每个词、每个短语,乃至更长的片段,都编上号,建立起一个无比巨大的关系网。

这个关系网,或者说它的核心——那个神经网络,尤其是现在大红大紫的Transformer架构,厉害就在于它那个独门的绝活——注意力机制。你想想我们人是怎么读书的?我们不会把每个字的重要性都看成一样。读到一篇侦探小说,我们脑子会自动“注意”那些看起来是线索的地方;听人说话,我们也会“注意”那些关键词。机器以前做不到这么灵活,它看文字,像个流水线工人,一个字一个字往后搬。但有了“注意力”,它就能在处理当前这个词的时候,回头看看前面已经处理过的词,甚至看看后面的(虽然训练时有点不一样),然后决定哪些词对理解当前这个词最重要,哪些可以稍微忽略。这一下子,它就像有了某种模糊的“语境理解”能力。它不是真懂意思,但它学会了如何根据上下文来调整自己的“注意力资源”。

于是,当你想让它写点什么的时候,比如给它一个开头:“夕阳西下,断肠人在……” 机器就开始工作了。它不会挠头去想什么意境。它只是飞快地在它那个巨大的关系网里搜索:“‘夕阳西下,断肠人在’后面,根据我读过的无数文本,哪个词出现的概率最高?” 可能是“天涯”,可能是“酒楼”,可能是别的什么。它算出一个概率分布,然后根据某种解码策略(比如,不一定每次都选概率最高的那个,偶尔也冒险选个稍微低一点的,这样写出来的东西才不会千篇一律,有点随机性,有点“创造力”的错觉),吐出第一个词。

比如,它吐出了“天涯”。好,现在输入序列变成了“夕阳西下,断肠人在天涯”。它再以此为基础,去预测下一个词。如此循环往复,一个词一个词地往外蹦,直到它觉得这段话“完整”了,或者达到了你设定的长度。

你看,整个过程,其实就是一场基于概率预测序列生成。它不是在“思考”要表达什么,而是在预测“根据我学到的模式,接下来最有可能出现什么”。它写出来的优美句子,它模仿出来的各种文风,都来自于它“见过”的无数例子。它把这些例子里的词汇搭配、句式结构、段落组织方式,都内化成了它数以亿计的参数里复杂的数值关系。

这就是为什么有时候你会被AI写的东西惊艳到。它能瞬间调动起亿万文本中积累的语言智慧,那个量级是任何一个人脑子都没法比的。它写出来的句子,可能你觉得“有点像”谁谁谁的风格,那是因为它在训练时“看”了无数谁谁谁或者类似风格的文章。

但它的局限性也很明显。它没有真的生活体验。它不知道失恋的锥心痛是什么滋味,不知道久别重逢的欣喜是什么感觉。它写“爱”,写“痛”,写“希望”,都是基于它在文本里看到的这些词如何被人类使用、如何搭配。它能模仿出悲伤的语气,但它没有真的悲伤。

有时候,它会一本正经地胡说八道,捏造事实,或者写出逻辑不通的段落。那是因为它的目标是生成“看起来像”人类语言的文本,而不是保证内容的真实性或内在逻辑的严密性。它的预测,是基于统计相关性,不是基于因果关系或事实判断。

所以,说到底,AI自动写作的机制,是大规模数据+复杂模型(特别是Transformer的注意力机制)+概率预测+序列生成。它是一台极其擅长模仿和组合语言模式的机器。它像一个勤奋的学生,把全世界的文字都背了下来(当然不是死记硬背,是理解了背后的统计规律),然后在你给它一个提示的时候,它能从记忆库里抽取、组合出一段全新的文字。

把它叫做“创作”,总觉得少了点什么。也许叫“生成”更准确。它是在已有的语言素材和模式上进行高超的排列组合和预测。它没有那个“我”想要表达的心情,没有那种非说不可的冲动,没有那种从无到有的、真正的灵感爆发。它的文字是冰冷的参数和复杂的算法涌现出的表象,是无数前人语言印记的叠加和重现。

但即便如此,它的能力已经足够让人类瞠目结舌了。它正在改变很多事情,比如内容生产的效率,比如信息的传播方式。面对这台“写作机器”,我们人类创作者,大概更应该去思考,那些机器永远学不会、模仿不来的东西到底是什么?或许是那份独一无二的生命体验,是那种不基于概率、而基于灵魂深处的表达欲望吧。这机器厉害归厉害,它终究还是个没有体温的影子,而文字,本该是带着作者体温的。

© 版权声明

相关文章

暂无评论

暂无评论...