说实话,第一次看到那些号称AI写出来的文章,心里是有点犯嘀咕的。这玩意儿,真能写出个像样的东西?不就是把网上扒拉下来的句子拼拼凑凑吗?哪儿有我们人脑子里那些弯弯绕绕、那些灵光一闪,那些不经意间的感触呢?可日子一天天过去,你再看,那些机器写的,嘿,还真像那么回事儿。有时候甚至,你盯着屏幕,得使劲儿眨巴眨巴眼,心想:这遣词造句,这情感拿捏,真是那堆冰冷的芯片和代码鼓捣出来的?
重点关键字:智能机器写作。就这个词,听着就有点儿科幻,有点儿让人既好奇又警惕。它不再是只会生成流水账报告的小把戏了。现在的AI,似乎正在偷偷学习我们说话、我们写字、我们表达喜怒哀乐的方式。它们到底是怎么做到的呢?那种所谓的“类人创作能力”,究竟是高级的模仿秀,还是真触碰到了创作的边缘?
要我说,这事儿没那么玄乎,也没那么简单。往根本里刨,它就是海量的数据加上疯狂的计算力,再套上那些我们这些“门外汉”听起来像咒语一样的算法模型。但具体到写作这件事上,它可不是简单的“输入-输出”机器。它得先“读”懂你,或者说,“读”懂全世界写过的字儿。
想象一下,把你这辈子、你爸妈这辈子、你爷爷奶奶这辈子,甚至人类出现以来所有印在纸上、刻在石头上、留在互联网上的文字,统统倒进一个无底洞。不是随便倒啊,得像图书馆管理员整理书那样,分门别类,但不是按主题,而是按更奇特的规律——比如,这个词经常跟哪个词挨着?这句话后面通常跟着什么样的句子?这种语气是表达高兴还是悲伤?这种句式用在散文里多还是科技报告里多?
这就是所谓的自然语言处理 (NLP),机器尝试去理解我们人类弯弯绕的语言。它不像咱们人,靠生活经验和情感去体会“梨花带雨”是啥滋味,它靠的是统计和模式。当它看过几百万、几千万次“梨花带雨”出现在描写哭泣、离别、伤感的语境里,它就在自己的数字世界里建立了关联:哦,这个词组,跟悲伤、跟眼泪,跟某种脆弱的美感有关。它不理解“美感”,但它知道跟这些词一起出现,在那些被标记为“文学作品”的文本里,通常能引起读者的某种反应。
再往下深挖一层,这背后藏着一个巨兽:深度学习。它就像一个拥有无数层级的大脑,每一层都负责识别和处理语言中不同抽象程度的特征。最底层可能识别字母、单词;往上一点儿,识别词组、短语;再往上,识别句法结构、语义关系;再再往上,甚至能“感受”(引号里的“感受”)文本的情绪、风格、意图。这个“大脑”是通过一种叫做神经网络的复杂结构来实现的。密密麻麻的节点互相连接,像我们大脑里的神经元一样,通过调节连接的强度(也就是参数),来学习和记忆从海量数据中提取到的语言规律。
那些我们现在津津乐道的大规模语言模型 (LLM),就是这个“深度学习”和“神经网络”的孩子,而且是体型极其庞大、吃数据吃到撑的孩子。它们是在无法想象的语料库上训练出来的,语料库的规模,比我们这辈子读过的所有书加起来还要多无数个数量级。训练的结果,就是模型里那天文数字般的参数。每一个参数,都是它从海量文本中“提炼”出来的一点点关于语言、关于知识、关于世界的“经验”。
有了这些经验,机器怎么把它变成文字呢?关键在于文本生成。它不像我们写作,心里先有个大概的想法,然后组织语言去表达。它更像一个超级厉害的“猜词游戏”玩家。给定一个开头(比如一个提示词,prompt),模型就开始预测下一个最有可能出现的词。但如果只是预测最有可能的词,那写出来的东西就会特别平淡无奇,全是套话。
这里的精妙之处在于,它预测下一个词,会考虑前面已经生成的所有词,甚至还通过一种叫做注意力机制的神奇玩意儿,重点“关注”前面句子中对当前预测最有影响的词。比如写到“她抬起头,看到…”,模型不仅仅考虑“看到”后面可能跟“天空”、“月亮”,它还会“注意”到前面的“她”,知道后面要写的是跟“她”的视觉有关的东西。更高级的模型甚至能兼顾到几百、几千个词之前的上下文。
而且,为了让生成的文本不那么死板,模型在预测下一个词时,并不会总是选择概率最高的那个。它会引入一点“随机性”,或者说“温度”(在技术术语里真有这个词)。调高“温度”,生成的文本会更跳跃、更“有创意”,但也可能胡说八道;调低“温度”,文本更稳重、更符合常规,但也可能缺乏新意。所以,我们现在看到的那些还不错的AI作品,其实是“概率预测”和“有限随机性”巧妙结合的产物。
那么,风格呢?机器有自己的风格吗?或者说,它能模仿别人的风格吗?这是风格迁移的范畴。通过学习大量不同风格的文本——比如王家卫电影的台词风格、村上春树小说的叙事风格、或者某个论坛红人的插科打诨风格——模型会去学习这些风格的独特模式:是长句多还是短句多?是多用陈述句还是疑问句?是词汇华丽还是朴实无华?是情绪外放还是内敛?它把这些模式编码在自己的参数里。当你想让它模仿某个风格时,它就会尝试按照那种模式去生成文本。
但即便如此,我还是忍不住问自己:这算不算真正的“创作”?人类的创作,往往源于内心的冲动、对世界的观察、对生活的体验、对情感的提炼。它可能是非理性的、是模糊的、是充满个人印记的。而机器的写作,目前看来,再怎么像,也是基于对过去文本的学习和重组。它没有经历过失恋的痛苦,没有体会过成功的喜悦,没有在深夜的街头吹过冷风,没有为了一个字而绞尽脑汁。
所以,类人创作能力,这个词用得很巧妙。它没说就是“人类创作能力”,加了个“类人”。就像仿真机器人,再像人,它毕竟不是血肉之躯。AI的写作,更像是一个拥有超强模仿能力和海量素材库的学徒,它能以惊人的速度和准确度模仿你给它的任何样本,甚至能在此基础上生成一些新颖的组合,这些组合有时候看起来像是“创意”。但这种“创意”,是基于它对已有“创意”模式的学习,而非真正从零开始、源于生命体验的涌现。
当然,我们也不能小瞧了这种能力。在信息爆炸的时代,让机器承担一部分重复性、模式化的写作工作,比如新闻稿、商品描述、格式化报告,效率是惊人的。甚至在需要一些初步创意的地方,比如生成诗歌的草稿、小说的情节梗概,它也能提供意想不到的起点。它是一个强大的工具,一个越来越像样的助手。
可总有一些东西,我觉得机器目前还难以企及。那种字里行间透出的、属于特定个体的灵魂;那种在词句选择中流露出的、不按常理出牌的个性;那种只有亲身经历才能写出来的、微小而真实的细节和情感。这些,好像还是人类专属的领域。
智能机器写作系统的发展势头很猛,它不断地在打破我们对它能力的认知边界。也许有一天,它真的能写出让你难辨真假、甚至让你感动落泪的作品。但到那时,我们可能需要重新定义“创作”和“类人”的含义了。是机器变得更像人,还是人在某些方面变得更像机器?这问题,想想就觉得挺有意思,也有点儿复杂。至少现在,我看着电脑屏幕上这篇我自己敲出来的文字,虽然磕磕绊绊,虽然不够完美,但我知道,每一个字,都带着我的体温,我的思考,我的那些说不清道不明的,属于我自己的东西。这感觉,机器目前还给不了我。