同立钧成丨AIGC背景下数字内容及作品的知识产权解读（一） - 北京同立钧成知识产权代理有限公司

当前位置：首页 > 资讯中心 > 热点要闻 < 返回

同立钧成丨AIGC背景下数字内容及作品的知识产权解读（一）

浏览次数：92 日期：2024-03-29 06:15

作者：马雯雯

2022年11月，ChatGPT的惊艳亮相，在AI领域掀起了一场革命性的风暴。在随后的一年多里，AI如何颠覆我们的工作与生活成为了众人热议的焦点，无疑是当时的热门话题。ChatGPT作为生成式AI技术的杰出代表，其影响深远。从产业链的视角来看，上游的算力和数据构成了坚实的基础，中游则汇聚了众多大模型。在通用大模型出现之前，AI模型的开发往往局限于特定的应用场景，每个小模型都需独立训练，难以实现复用和知识的积累，从而导致了AI应用的高门槛和高成本。然而，通用大模型的出现彻底改变了这一局面。它通过从海量、多场景、多领域的数据中提炼共性知识，构建出具有广泛适用性和强大泛化能力的模型底座，极大地降低了AI应用的落地难度。因此，下游应用层产品如雨后春笋般涌现。然而，随着生成式AI技术的迅猛发展，一系列新的法律问题也随之浮现，如开源问题、信息安全问题以及知识产权问题等，这些问题亟待我们深入研究和解决。

知识产权是个庞大的领域，涵盖了专利、商标、著作权以及技术秘密等诸多方面，它们贯穿于整个产业链的各个环节，是创新过程中不可忽视的重要元素。长久以来，让机器具备创作能力一直被看作是一个巨大的挑战，创造力因此被认为是人类与机器之间最为本质的区别。早期的AI，我们称之为弱人工智能，它们仅能完成特定的任务或解决特定的问题。然而，随着生成式AI的兴起，尽管尚未达到强人工智能的境地，但它们已经能够通过学习大量训练数据，自动或协助生成各类内容，展现出了一定的学习、推理、计划和解决问题的能力。

AI生成的内容形式丰富多样，包括文本、图像、视频、代码以及3D内容等，这些都是著作权法所保护的对象。但问题是，AI生成的内容能否享受著作权的保护？如果能，那么著作权的归属又是谁呢？是AI本身？AI的研发者？还是AI的使用者？此外，AIGC又面临着哪些潜在的侵权风险？我们的原创内容是否有可能被AI侵犯？这些问题在业界引起了广泛的关注和讨论，但在法律层面仍有许多不明确之处。我们会分两篇文章对上述问题进行探讨。

AIGC技术之复杂，常被喻为“暗箱算法”，这无疑给法律边界的探索带来了重重困难。简而言之，AIGC主要涵盖两个核心阶段：首先是模型搭建与训练，其次是利用训练好的模型生成内容。

模型，作为AIGC的基石，其精确度与训练数据的数量及多样性息息相关。这些训练数据来源于多个渠道，如公开数据集、用户生成内容、企业内部及合作伙伴数据，以及通过众包和标注服务、购买第三方数据等方式获取。特别是公开数据，作为主要的数据来源，通常利用爬虫技术获取。虽然爬虫作为获取数据的手段并未被法律禁止，但使用爬虫时必须遵守相关协议，并确保数据的合法性。然而，若使用不当，如短时间内高频访问导致网站运营受阻，或用于盗取个人隐私、进行不正当竞争等不当目的，均可能面临法律风险。

我国著作权法所规定的复制权，是指以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利，而爬虫无法识别抓取内容的著作权问题，若未经授权爬取有著作权的内容并用于模型训练，由于训练过程中需将数据下载至本地，这很可能构成对他人著作权的侵犯。在实际应用中，用户为满足需求也会主动给AI“投喂”数据，这也存在使用未经授权内容的风险。虽然我国著作权法规定了合理使用的免责事由，包括为个人学习、研究或者欣赏的“个人使用”；为介绍、评论某一作品或者说明某一问题的“适当引用；以及为教学和科研需要的“科学研究”等，但现有大部分AI模型的训练场景并不适合用。

除了著作权法之外，我国还有其他法律法规也对数据获取或者模型训练过程有所要求，如去年8月正式实施的《生成式人工智能服务管理办法》第七条规定了提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责，其中第二项明确规定，不含有侵犯知识产权的内容。反不正当竞争法也对数据爬取行为的合法性进行了相应要求。

作为AI创业者或AI平台运营者，在搭建和运营过程中，必须充分认识和考虑这些法律风险，确保合规操作，避免潜在的法律纠纷。

从全球范围来看，起诉AI平台开发者侵犯其著作权的案例屡见不鲜。以广为人知的图片生成AI平台Stable Diffusion为例，其模型训练所依赖的LAION-5B数据库，尽管规模庞大且免费开源，却包含了大量著作权作品。这一数据库从电商平台、视频网站、新闻网站等渠道抓取内容，其数据来源的多样性也带来了潜在的著作权问题。尽管LAION-5B并不直接存储图像本身，但模型训练过程中需要将作品下载到本地，这无疑涉及著作权的复制行为。

2023年年初，知名图片提供商Getty Image对Stable Diffusion的开发者Stability AI提起诉讼，指控其未经授权使用超过 1200 万张Getty Image照片训练AI模型。更引人关注的是，Stable Diffusion生成的图片竟然出现了被扭曲、模糊的Getty Image的水印，这无疑加剧了侵权嫌疑。目前该案仍在审理中，虽然Stability AI试图以英国法院无管辖权为由进行抗辩，但法院已指出其证词中的矛盾之处，并认为Getty Image的主张具备足够的依据，决定进行进一步调查。

Getty Images的照片（左）AI生成图像（右）

图片来源于网络，仅用于交流

此外，美国也发生了多位艺术家集体起诉Stability AI、Midjourney和DeviantArt等生成式AI服务的事件。然而，由于这些艺术家在诉讼中提到的图片数量庞大，但仅有少数申请了著作权，最终法院因证据不足而未能支持其主张。

由这两个案例可以看出，当训练数据存在知识产权瑕疵时，AI平台开发者确实面临侵权风险。但在实际诉讼过程中，原始作品的著作权状态、数量以及AI生成结果等因素都会对判定结果产生重要影响。因此，对于可能被用作训练AI模型的数据，原创作者应及时采取著作权保护措施，确保自身权益不受侵害。

今年2月，广州互联网法院审理了一起涉及某AI平台侵权的案件，引发广泛关注。该案中，原告拥有奥特曼系列形象的独占许可及维权权利，而被告则是一家提供生成式AI服务的网站。经法院审理查明，用户在被告网站通过文生图功能输入相关指令时，生成的奥特曼形象与原告所拥有的奥特曼形象存在实质性相似，因此侵犯了原告对涉案作品所享有的复制权和改编权。这一判决在业内引起了不小争议。在AIGC产业链中，与上述案件被告类似，下游应用平台开发者往往直接购买中游的模型，并不直接参与模型训练过程，因此不存在复制行为。如果平台开发者能够提供模型的合法来源，其责任界定便成为了一个值得探讨的问题。此外，判决中提到平台应尽到合理的注意义务，但如何界定“尽到注意义务”以及这是否能够成为免责的依据，同样存在争议。对于中游的模型厂商而言，他们是否也应当承担注意义务，并在尽到义务后能否免责，这些问题同样需要深入探究。这一系列问题不仅关乎AI平台开发者的法律责任，也对于整个AIGC产业链的健康发展具有重要意义。因此，我们有必要对这些问题进行深入研究，以寻求更加合理的法律解决方案。

不论是Getty Image案件还是奥特曼案例，原告均将AI平台生成的内容作为侵权的主要依据。在AI平台生成内容的过程中，用户首先依据自己的创意和预设输入指令，随后AI根据这些指令生成内容，用户再从中筛选，最终得到满意的作品。以AI生成图片为例，模型会基于之前的训练数据提取图像特征和规律，结合一定的随机性生成新图片，并通过优化调整使其更符合用户的视觉需求。尽管用户输入了指令，但这些指令究竟包含多少创造性成分存在疑问，因为图片的生成在很大程度上仍依赖于模型的前期训练数据和算法。因此，AI生成的图片与训练数据之间可能存在相似度，进而带来侵权风险。

图片来源于网络，仅用于交流

观察这两张图片，左边是原作，右边是AI生成，二者在视觉上呈现出较高的相似性。在我国司法实践中，对于著作权侵权的判断主要依据“接触+实质性相似”原则。在判断是否接触过在先作品或存在接触可能性时，通常会考虑该作品是否已公开发表。然而，对于未开源的模型和数据集不透明的情况，要追溯数据集来源和举证存在不小的困难。

在判断实质性近似时，应站在普通读者、听众或观众的角度进行审视，判断是否存在实质性相似。同时，应明确著作权保护的是表达形式而非思想内容。因此，在判断侵权时，应限定于比较作品的形式表达，而非抽象的思想或概念。

AI生成内容不仅如先前所提到的两幅图片那样，在原作基础上进行简单修改导致与原作高度相似，更常见的情况是，AI能够学习并模仿某类作品的独特风格。有人可能会认为，著作权不保护风格，仅仅风格相似并不构成侵权。然而，这一观点需要根据具体情况来判断。举例来说，这两幅图片就展示了这一复杂性。蒙德里安的作品以其画面构成和颜色搭配的独特风格而闻名，虽然AI生成的图片与蒙德里安的原作在直接对比时并不完全近似，AI生成的图片可能更为复杂，但对于熟悉蒙德里安作品的人来说，他们能轻易地从AI生成的图片中辨认出蒙德里安的风格痕迹，包括其特有的表达方式、构成要素和形象效果。这些相似之处足以让普通观众产生混淆。

图片来源于网络，仅用于交流

此外，我们来看另一个引人注目的案例，它或许能为我们提供更多启示。原告是比利时画家西尔万，他的画作以方格为背景，融入涂鸦风格的“鸟、鸟巢、鸟笼、小孩、飞机、动物”等标志性元素，形成了自己独特的艺术风格。被告是一位国内画家，他“借鉴”了西尔万的风格，使用相似的标志性元素创作了自己的作品。在一审判决中，法院认定有22幅被告的画作在整体上与西尔万的作品构成实质性相似，有76处局部（元素组合）实质性相似，以及84处单一元素实质性相似。

图片来源于网络，仅用于交流

通过这个案例，我们可以总结出，美术作品的表达主要体现在构图、线条、色彩、形体等美学因素的有机融合所形成的艺术造型上。在普通读者的心目中，风格并不仅仅包含思想层面的内容，它同样包含了表达层面的元素。因此，在判断AI生成内容是否构成侵权时，我们需要综合考虑作品的整体风格、表达方式以及可能对观众造成的混淆程度。