诉讼的槌音还没正式落下,空气里已经满是火药味。
这次站在原告席上的,不是什么孤僻的艺术家,而是像萨拉·西尔弗曼(Sarah Silverman)这样用语言当手术刀的喜剧演员,还有一众靠码字为生的作家。他们把枪口对准的,是那些我们这个时代最炙手可热的名字:OpenAI,Meta。指控的核心,简单粗暴——你们的AI,吃了我的书,然后吐出了“仿制品”。

这场景,简直是科幻照进现实。一个创作者,发现自己呕心沥血的作品,被一个看不见摸不着的“数字利维坦”囫囵吞下,拆解、分析,变成了它庞大知识库里的一组参数。然后,这个“利维坦”就能根据任何人的指令,惟妙惟肖地模仿你的风格,续写你的故事,甚至……用你的声音说话。这感觉,恐怕比在盗版书摊上看到自己的作品还要诡异和愤怒。
这不仅仅是几场官司那么简单。这根本就是一场关于未来创作权、知识产权,乃至人类创造力本身价值的世纪大拷问。
“投喂”的饕餮盛宴,与“合理使用”的脆弱护盾
风暴的中心,是一个看似温和的技术词汇:数据投喂。
大型语言模型(LLM)的“智能”,并非凭空而来。它建立在对海量文本和图像数据的学习之上。这些数据从哪里来?互联网的每一个角落。从维基百科到公共论坛,从新闻报道到……是的,未经授权的电子书。成千上VANS的书籍,连同作者们精心构建的语汇、独特的叙事节奏、充满个人印记的风格,都被当作高蛋白的“饲料”,投喂给了嗷嗷待哺的算法。
科技公司们当然有自己的一套说辞。他们挥舞着一面叫做“合理使用”(Fair Use)的法律大旗。在美国的版权法体系里,“合理使用”是一个相当灵活的概念,它允许人们在某些情况下(如评论、新闻报道、教学、研究)未经许可使用受版权保护的作品。AI公司的逻辑是:我的模型只是在“学习”这些书籍,就像一个学生为了写论文而阅读大量文献一样,这属于一种变革性使用(Transformative Use)。模型并没有直接复制粘贴书籍内容,而是消化吸收后,生成了全新的、不一样的东西。
听起来……似乎有那么点道理?
但等一下。一个学生读一千本书,是为了形成自己的观点,写出一篇属于“他自己”的论文。而AI“读”一千本书,目标却是为了能够惟妙惟肖地模仿这一千本书的任何一种风格。它产出的东西,本质上是对被学习材料的高度复杂的“重组”和“拼贴”。这还能叫“变革性”吗?这更像是一种炼金术,只不过投入的是别人的黄金,炼出来的还是黄金,但上面已经抹去了原来主人的印记。
这正是原告方律师猛攻的要害。他们认为,这种规模化、商业化的数据投喂行为,已经远远超出了“合理使用”的范畴。它直接损害了原作者的市场。你想想,如果一个AI能以极低的成本,瞬间生成一部“风格类似J.K.罗琳”的奇幻小说,谁还会去买J.K.罗琳的新书?这不再是间接影响,而是赤裸裸的市场替代。
这场关于合理使用的辩论,前所未有地激烈。因为这次的“使用者”,不是人类,而是一个可以无限复制、永不疲倦、学习能力指数级增长的机器。法律那把为人类社会设计的、充满弹性的尺子,在衡量这个新物种时,开始显得捉襟见肘。
“思想/表达”的古老防线,正在被AI凿穿
法律人爱谈一个概念,叫“思想/表达”二分法。
这是版权保护的基石。简单说,版权保护的是“表达”,而不是“思想”。比如,“一个魔法少年在魔法学校成长并对抗黑魔王”这个“思想”,谁都可以用。但《哈利·波特》里那些具体的遣词造句、情节编排、人物对话,这些独特的“表达”,才是受版权保护的。
长久以来,这条界线清晰地划分了抄袭与借鉴的疆域。
然而,生成式AI的出现,像一台精密的钻机,正在这条防线上疯狂钻探。AI学习的,究竟是“思想”还是“表达”?当它分析了上万张梵高画作的数据后,它学到的仅仅是“用旋转笔触画星空”这个思想吗?不,它学到的是梵高笔触的纹理、色彩的搭配、构图的偏好——这些无限趋近于“表达”本身的元素。
同理,当AI吞噬了海量的小说后,它学到的不只是故事的套路(思想),更是特定作家的语感、节奏、比喻方式和行文风格(表达)。这是一种“风格窃取”。而现行的版权法,对“风格”这种东西,几乎不提供任何保护。法律认为风格过于抽象,属于“思想”的范D畴。
可现在的问题是,AI能将这种抽象的“风格”量化、编码,然后精准地复制出来。这就让整个“思想/表达”二分法的理论基础都开始动摇。当一台机器能够完美复制你的“灵魂”——你那独一无二的表达方式——而法律却告诉你,这不算侵权,因为它没有复制你的“肉体”——具体的字句段落,这是何等的荒谬?
这正是这些诉讼案件背后,最深刻的法律困境。我们沿用百年的版权法理论,是建立在“人类创作者”这个基本预设之上的。如今,一个非人类的“创作者”横空出世,它无视我们的规则,以一种我们从未想象过的方式进行“创作”,我们整个法律体系都感到了巨大的冲击。
谁是“作者”?一个幽灵般的问题
诉讼的另一条战线,指向了一个更具哲学意味的问题:AI生成物,到底算谁的?它的作者身份(Authorship)该如何界定?
是输入提示词(Prompt)的用户?可用户往往只提供了一个模糊的想法。是开发AI的公司?他们只是提供了工具,并未参与具体内容的生成。是AI本身?可法律主体通常不包括算法。
美国版权局已经给出了一个初步的、略显笨拙的答案:纯粹由AI生成的内容,不受版权保护,因为它缺乏“人类作者”这一核心要素。但由人类深度参与、修改、编排的AI生成内容,则可以探讨其作品中的“人类创作部分”是否享有版权。
这个界定,在实践中几乎是一场噩梦。如何判断“人类参与”的程度?我用AI生成一首诗,然后改了两个词,这算我的作品吗?我用AI生成一百张图,然后挑选、拼接成一张,这算我的作品吗?创作的边界,从未如此模糊。
而这个问题,反过来又加剧了前面提到的侵权争议。如果AI生成物本身就是一件“无主之物”,那它在生成过程中对海量版权素材的“借鉴”,岂不是更加肆无忌惮?因为它自己都不会成为新的“资产”,仿佛只是一个信息的“管道”,一个数据的“搬运工”。
这让整个创作生态变得异常诡异。人类创作者辛辛苦苦生产“有版权”的原创内容,这些内容被AI拿去学习,然后生成出海量的“无版权”内容,充斥市场,反过来挤压原创内容的生存空间。这简直就是一个劣币驱逐良币的完美闭环。
这些诉讼,无论最终判决如何,都只是一个开始。它们像一枚投入深潭的石子,激起的涟漪将扩散到整个社会的文化、经济和法律层面。我们被迫重新思考一系列基本问题:
创作的本质是什么?是灵光乍现的瞬间,还是数据和模式的重组?知识的价值何在?当获取和生成信息的成本趋近于零时,我们该如何保护那些投入了巨大心血的原创知识?法律的边界又在哪里?当技术的进化速度远远超过立法的速度,我们是该用旧地图去探索新大陆,还是该勇敢地绘制一幅全新的地图?
我不知道答案。或许没人知道。但我确信,在AI冰冷的、确定性的代码逻辑背后,我们更需要捍卫的,是人类创作中那些最宝贵的特质:那种不确定性、那种笨拙、那种带着情感和偏见的、独一无二的、乱七八糟的、但又闪闪发光的……人性本身。
这场官司,打的不是钱,是未来。是为我们这些,依然愿意在白纸上,用血肉之躯,写下第一个字的人,争一个未来。