ChatGPT出来后我才搞懂:我们分析用户评论的方法,可能从一开始就错了。

AI提示词1个月前更新 jinlian
6 0

理工科的东西很确定。比如一个数学公式,答案只有一个。这让人有安全感。但是语言完全不一样。语言很主观,意思也多变。同一个词,不同人听着感觉可能完全不同。

01 确定性的锚点,与高维的自由变量

我以前是理科生。后来进入人工智能行业,天天跟语言打交道。我慢慢明白一件事。这个世界本来就挺混乱的,信息又多又杂。我们的工作,就是用算法在这种混乱里,找到一点点规律。这就像在一个杂乱的房间里整理东西。你得先找到分类的规则,比如“所有书放这里,所有衣服放那里”。

所以,我想在这里聊聊我这几年的想法。主要就是关于语言智能的底层逻辑。比如人脑到底是怎么理解一句话的。还有,现在很火的大模型,它们又是怎么学会说话的。

语言不只是一个沟通工具。它能反映我们怎么看世界,怎么想问题。而且,现在的人工智能技术,正在改变我们对语言的看法。

ChatGPT出来后我才搞懂:我们分析用户评论的方法,可能从一开始就错了。

02 逻辑的骨架,与思维的脚手架

我从小就喜欢数学和逻辑。原因很简单,答案是固定的。只要你掌握了规则,就能推导出唯一的结果。我玩游戏也喜欢数独、魔方这种。在固定的框框里找答案,我很享受这个过程。考试的时候,我甚至喜欢从最后一道最难的题开始做。

但是我讨厌死记硬背。那种不需要思考,纯粹重复记忆的东西,让我觉得很烦。奇怪的是,我喜欢看小说,看故事。可我的语文成绩一直很普通。我写不出那种辞藻华丽的作文。

后来上大学,我选了法语。这个决定没想太多,就是想换个环境。想知道除了公式和数字,还有什么东西能解释这个世界。

但是,刚开始学我就有点后悔。我发现语言的规则,比如语法,我学得很快。可剩下的东西,比如口语练习,就得全靠自己。我当时很怀疑,英语学了那么多年都说不好,一门新语言能很快学会吗?

结果让我很意外。我发现不同语言之间,有很多相通的地方。这是一个重要的发现。

这是它的工作原理。先做拆解,然后做连接。

第一步,拆解。我把法语的音标,跟我已经会的英语音标和汉语拼音做对比。比如,法语里的一些元音,发音位置和拼音里的“ü”很像。这样一联系,我就不用从零开始记了。

第二步,连接。我发现很多法语单词的结构,和英语单词有关系。比如“nation”(国家)这个词,法语和英语拼写一样,意思也一样。语法上也是。句子的基本结构,主语、谓语、宾语,这个逻辑是通用的。

我把这些逻辑关系找出来后,只用了一个月,就把法语的所有语法都搞懂了。我把语法当成数学公式来记。比如,法语的动词变位很复杂。但我把它看成一个函数。输入“主语”和“时态”这两个变量,就能得到一个固定的动词形式。这样一来,语法就不是问题了。

但是,语法会了不等于会说。剩下的部分就是苦功夫。你需要不停地背单词,做听写,模仿别人说话。嘴巴和耳朵的肌肉需要形成记忆。这个过程没有捷径,只能靠时间和重复。脑子学会了规则,但身体跟不上,这是学语言最痛苦的地方。

03 符号的虚无,与入世的无力

大学的时候,我看了很多哲学和艺术方面的书。思考了很多关于“意义”的问题。但是,这些思考并不能帮我解决现实的烦恼。

快毕业了,我必须面对找工作这件事。生存的压力一下就来了。我开始认真地想,我学的语言专业,到底有什么用。

语言就像一扇窗户,你可以通过它看到外面的世界。比如学了法语,你能看懂法国的电影,了解他们的文化。

但是,问题也在这里。你只是“看到”了。你只懂语言这个工具本身,并不能让你真正理解窗外那个世界的运行规则。

我举个具体的例子。你法语很好,能和一个法国人无障碍交流。但是,如果他拿一份法文的理财产品合同给你签,你能看懂里面的金融陷阱吗?如果你们发生了法律纠纷,你能用法语和对方的律师辩论吗?大概率是不能的。

这时候,我感觉到一种无力感。语言这个工具,在解决很多现实问题的时候,好像没什么力量。这就让我很焦虑。

我也做过翻译。但说实话,大部分翻译工作,就是信息的搬运工。把A语言的信息,原封不动地换成B语言。当然,顶级的翻译家很厉害,他们是艺术家。但是对大多数从业者来说,这更像是一个体力活,成就感不强。

只有几次经历是开心的。那几次是翻译一些艺术和哲学的文章。因为我自己对这些东西有兴趣,有自己的理解。所以翻译的过程,不只是转换语言,更像是在用另一种语言,重新思考和表达那个思想。这种感觉很好。

但这种机会太少了。大多数时候,我还是觉得自己只是一个“传话筒”。

04 形式化的闪电:语言的可计算性

毕业时,我还是不知道自己想干什么。翻译、老师、外贸,这些传统语言专业的出路,我都不太想选。

后来,我误打误撞去学了语言学。在学习过程中,我接触到一个叫“计算语言学”的方向。这个东西改变了我的看法。

我第一次知道,原来语言是可以被计算的。

这听起来可能有点抽象。我用一个具体的工具来说明。当时我接触到一个叫Analec的软件。它的工作原理是这样的:你输入一句话,它能自动把这句话的结构分析出来。比如,它会告诉你哪个是主语,哪个是动词,这个词是什么词性,它和哪个词有修饰关系。

语言在我眼里,第一次从一团模糊的、凭感觉的东西,变成了一个可以被拆解、被分析的系统。就像修理一台机器,你可以把所有零件都拆开,研究每个零件的功能,以及它们之间是怎么组合的。

这个发现像一道闪电。我突然意识到,只要一个东西可以被拆解成零件,那它就可以被计算。

05 特征:连接万物的原子

所有可以被计算的东西,背后都有一个共同的逻辑。这个逻辑就是“特征”。

特征,说白了就是规律,是特点。任何事情,不管看起来多乱,只要你能从中找出特征,你就能对它进行分析和计算。

你可以把“特征”想象成乐高积木里最小的那个颗粒。只要你有很多这样的颗粒,你就能用它们拼出各种各样的模型。

理工科的特征很明显。比如物理学的定律,化学的分子式,这些都是高度浓缩的特征。

但是人文学科呢?比如文学、艺术、社会学,这些东西看起来很感性,没有固定公式。它们的特征是什么?

其实也能找到。比如,我们要分析一部小说的写作风格。我们可以提取这些特征:

  1. 句子长度:统计一下,作者是喜欢用长句还是短句。
  2. 词汇使用:他喜欢用哪些形容词?是华丽的,还是朴素的?
  3. 叙事结构:故事是按时间顺序讲的,还是插叙、倒叙?

把这些特征都量化之后,我们就可以用数据来分析一个作家的风格了。甚至可以比较不同作家之间的风格差异。你看,文学这样感性的东西,也被我们拆解成了可以计算的特征。

我在学校里学画句法树,其实就是在做类似的事情。就是把一个句子的语法结构,用一种树状的图给画出来,把它所有的语法特征都标示清楚。

不过说实话,在读研的时候,我并没有想得这么深。我当时还是被找工作的压力困扰。我觉得这些理论太空了,不知道学了到底有什么用。

06 误打误撞:踏入AI的门槛

毕业后,我为了找工作,选择了一家技术公司。我的想法很简单:语言这个技能太空了,如果能和技术结合一下,路可能会宽一些。

没想到,我这一步,正好踏进了人工智能行业的大门。

我找到了自己的位置,也找到了之前所有困惑的答案。

我的第一份工作,是给语音助手做语料数据。简单说,就是写很多句子,让机器去学习。工作中,我接触到一种叫GF(Grammatical Framework)的编程语言。

这个东西,让我把之前学的语言学理论,和现实的技术应用,完美地连接了起来。

它的工作原理是这样的:

第一步,定义语法框架。我不用写具体的句子,而是先写下一套抽象的语法规则。比如,定义一个最简单的句子结构 S = NP + VP (一个句子由一个名词短语和一个动词短语构成)。

第二步,填充词汇。我再分别给名词短语(NP)和动词短语(VP)提供一些具体的词。比如,NP可以是“我”,VP可以是“吃饭”。

第三步,自动生成。计算机就会根据我定义的框架和词汇,自动生成句子:“我吃饭”。

而且,如果我把中文词汇换成一套法语词汇,它就能自动生成对应的法语句子“Je mange”。

这个工作让我特别兴奋。我大学里学的那些抽象的句法理论,一下子都有了用武之地。我第一次在实践中感受到,编程语言和我们平时说的自然语言,在底层的逻辑上是相通的。

07 代码即语言:梦幻联动

有了第一份工作的经验,我后来又换了一个更有意思的工作。这个工作是专门分析真实的人类对话,用它来做商业分析。

这和我毕业论文的方向不谋而合。

我们的任务是分析销售人员和客户的电话录音。目标是找出哪些说话的方式,可以提高成交率。

这是我们的工作流程:

  1. 数据转写:先把电话录音转成文字。
  2. 特征标注:我们用一套语言学理论,给对话中的每一句话打上标签。比如,这句话是“开放性提问”,那句话是“产品介绍”,另一句是“拒绝”。
  3. 数据分析:统计这些特征和最终成交结果之间的关系。

我们通过分析,得到了一些有用的结论。比如,我们发现一个规律:在对话的前三分钟里,如果销售问了客户至少两个开放性问题(比如“您最近在工作上有什么困扰吗?”),而不是直接介绍产品,那么这通电话的成交概率会提升20%。

这个发现,就给销售培训提供了直接的数据支持。我们可以告诉他们:“先别急着推销,多问问客户的情况。”

这两份工作,让我彻底建立了一个信念:只要能找到正确的特征,任何看似复杂的人类行为,都是可以被量化、被分析、被计算的。

08 GPT的平地惊雷,与统计的涌现

然后,时间到了2022年底,ChatGPT出来了。

这个东西,给整个行业带来了巨大的冲击。我们以前花很大力气也解决不了的问题,它好像一下子就都解决了。

我举个我亲身经历的例子。2020年的时候,我们测试市面上几乎所有的语音助手。有一个场景是这样的:

你对它说:“播放周杰伦的歌。”
它开始播放。
然后你接着说:“换一首他的。”

大部分助手到这里就卡壳了。它理解不了第二句话里的“他”指的是谁。这就是上下文理解的难题。

但是,ChatGPT完全没有这个问题。你可以和它连续聊几十个回合,它能清楚地记得你们之前聊过什么。

我也很幸运,在2023年加入了一家做大模型的公司,能在一线参与和观察它的发展。

我慢慢发现,大模型学习语言的方式,和我们以前做GF、做对话分析的路子,完全不一样了。

我们以前的方法,可以叫“规则驱动”。是我们人类,先总结好一套语法规则,然后像写教科书一样,把这些规则写成代码,教给机器。

但是大模型不一样,它是“统计驱动”。

你不用教它任何具体的语法规则。你就给它看海量的文字数据,比如整个互联网上的文章、书籍、对话。它自己去读,自己去发现规律。

这就像一个小孩学说话。你不会抱着一本语法书教他什么是主谓宾。你就让他每天生活在人类语言的环境里,听大人说话。听得多了,他自然就学会了。

大模型就是用这种“暴力”的方式,通过统计海量数据,自己总结出了语言的“特征”。比如,它发现“我”这个字后面,出现“吃”、“想”、“是”这些动词的概率很高。它记住了亿万个这样的概率关系。当它生成句子的时候,就根据这些概率,像做填字游戏一样,一个词一个词地往外蹦。

所以,你看,技术的方法变了。从我们主动“喂规则”,变成了让机器自己“找规律”。

但是,最底层的核心思想没有变。这个核心,仍然是“特征”。无论是人总结的规则,还是机器统计出的概率,本质上都是在描述语言的特征。

未来,我还会继续在这里,聊聊关于语言、特征和人工智能的一些思考。

© 版权声明

相关文章

暂无评论

暂无评论...