您好,欢迎光临北京同立钧成知识产权代理有限公司官网!

尊重保护知识产权

助力创新驱动发展 推动知识产权强国建设

当前位置: 首页 > 资讯中心 > 热点要闻 < 返回

同立钧成丨AIGC背景下数字内容及作品的知识产权解读(一)

浏览次数:92     日期:2024-03-29 06:15

作者:马雯雯

202211月,ChatGPT的惊艳亮相,在AI领域掀起了一场革命性的风暴。在随后的一年多里,AI如何颠覆我们的工作与生活成为了众人热议的焦点,无疑是当时的热门话题。ChatGPT作为生成式AI技术的杰出代表,其影响深远。从产业链的视角来看,上游的算力和数据构成了坚实的基础,中游则汇聚了众多大模型。在通用大模型出现之前,AI模型的开发往往局限于特定的应用场景,每个小模型都需独立训练,难以实现复用和知识的积累,从而导致了AI应用的高门槛和高成本。然而,通用大模型的出现彻底改变了这一局面。它通过从海量、多场景、多领域的数据中提炼共性知识,构建出具有广泛适用性和强大泛化能力的模型底座,极大地降低了AI应用的落地难度。因此,下游应用层产品如雨后春笋般涌现。然而,随着生成式AI技术的迅猛发展,一系列新的法律问题也随之浮现,如开源问题、信息安全问题以及知识产权问题等,这些问题亟待我们深入研究和解决。

知识产权是个庞大的领域,涵盖了专利、商标、著作权以及技术秘密等诸多方面,它们贯穿于整个产业链的各个环节,是创新过程中不可忽视的重要元素。长久以来,让机器具备创作能力一直被看作是一个巨大的挑战,创造力因此被认为是人类与机器之间最为本质的区别。早期的AI,我们称之为弱人工智能,它们仅能完成特定的任务或解决特定的问题。然而,随着生成式AI的兴起,尽管尚未达到强人工智能的境地,但它们已经能够通过学习大量训练数据,自动或协助生成各类内容,展现出了一定的学习、推理、计划和解决问题的能力。

AI生成的内容形式丰富多样,包括文本、图像、视频、代码以及3D内容等,这些都是著作权法所保护的对象。但问题是,AI生成的内容能否享受著作权的保护?如果能,那么著作权的归属又是谁呢?是AI本身?AI的研发者?还是AI的使用者?此外,AIGC又面临着哪些潜在的侵权风险?我们的原创内容是否有可能被AI侵犯?这些问题在业界引起了广泛的关注和讨论,但在法律层面仍有许多不明确之处。我们会分两篇文章对上述问题进行探讨。

 

AIGC技术之复杂,常被喻为暗箱算法,这无疑给法律边界的探索带来了重重困难。简而言之,AIGC主要涵盖两个核心阶段:首先是模型搭建与训练,其次是利用训练好的模型生成内容。

模型,作为AIGC的基石,其精确度与训练数据的数量及多样性息息相关。这些训练数据来源于多个渠道,如公开数据集、用户生成内容、企业内部及合作伙伴数据,以及通过众包和标注服务、购买第三方数据等方式获取。特别是公开数据,作为主要的数据来源,通常利用爬虫技术获取。虽然爬虫作为获取数据的手段并未被法律禁止,但使用爬虫时必须遵守相关协议,并确保数据的合法性。然而,若使用不当,如短时间内高频访问导致网站运营受阻,或用于盗取个人隐私、进行不正当竞争等不当目的,均可能面临法律风险。

我国著作权法所规定的复制权,是指以印刷、复印、拓印、录音、录像、翻录、翻拍、数字化等方式将作品制作一份或者多份的权利,而爬虫无法识别抓取内容的著作权问题,若未经授权爬取有著作权的内容并用于模型训练,由于训练过程中需将数据下载至本地,这很可能构成对他人著作权的侵犯。在实际应用中,用户为满足需求也会主动给AI“投喂”数据,这也存在使用未经授权内容的风险。虽然我国著作权法规定了合理使用的免责事由,包括为个人学习、研究或者欣赏的“个人使用”;为介绍、评论某一作品或者说明某一问题的“适当引用;以及为教学和科研需要的“科学研究”等,但现有大部分AI模型的训练场景并不适合用。

除了著作权法之外,我国还有其他法律法规也对数据获取或者模型训练过程有所要求,如去年8月正式实施的《生成式人工智能服务管理办法》第七条规定了提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,其中第二项明确规定,不含有侵犯知识产权的内容。反不正当竞争法也对数据爬取行为的合法性进行了相应要求。

作为AI创业者或AI平台运营者,在搭建和运营过程中,必须充分认识和考虑这些法律风险,确保合规操作,避免潜在的法律纠纷。

从全球范围来看,起诉AI平台开发者侵犯其著作权的案例屡见不鲜。以广为人知的图片生成AI平台Stable Diffusion为例,其模型训练所依赖的LAION-5B数据库,尽管规模庞大且免费开源,却包含了大量著作权作品。这一数据库从电商平台、视频网站、新闻网站等渠道抓取内容,其数据来源的多样性也带来了潜在的著作权问题。尽管LAION-5B并不直接存储图像本身,但模型训练过程中需要将作品下载到本地,这无疑涉及著作权的复制行为。

2023年年初,知名图片提供商Getty ImageStable Diffusion的开发者Stability AI提起诉讼,指控其未经授权使用超过 1200 万张Getty Image照片训练AI模型。更引人关注的是,Stable Diffusion生成的图片竟然出现了被扭曲、模糊的Getty Image的水印,这无疑加剧了侵权嫌疑。目前该案仍在审理中,虽然Stability AI试图以英国法院无管辖权为由进行抗辩,但法院已指出其证词中的矛盾之处,并认为Getty Image的主张具备足够的依据,决定进行进一步调查。

11.png

Getty Images的照片(左)AI生成图像(右)

图片来源于网络,仅用于交流

此外,美国也发生了多位艺术家集体起诉Stability AIMidjourneyDeviantArt等生成式AI服务的事件。然而,由于这些艺术家在诉讼中提到的图片数量庞大,但仅有少数申请了著作权,最终法院因证据不足而未能支持其主张。

由这两个案例可以看出,当训练数据存在知识产权瑕疵时,AI平台开发者确实面临侵权风险。但在实际诉讼过程中,原始作品的著作权状态、数量以及AI生成结果等因素都会对判定结果产生重要影响。因此,对于可能被用作训练AI模型的数据,原创作者应及时采取著作权保护措施,确保自身权益不受侵害。

今年2月,广州互联网法院审理了一起涉及某AI平台侵权的案件,引发广泛关注。该案中,原告拥有奥特曼系列形象的独占许可及维权权利,而被告则是一家提供生成式AI服务的网站。经法院审理查明,用户在被告网站通过文生图功能输入相关指令时,生成的奥特曼形象与原告所拥有的奥特曼形象存在实质性相似,因此侵犯了原告对涉案作品所享有的复制权和改编权。这一判决在业内引起了不小争议。在AIGC产业链中,与上述案件被告类似,下游应用平台开发者往往直接购买中游的模型,并不直接参与模型训练过程,因此不存在复制行为。如果平台开发者能够提供模型的合法来源,其责任界定便成为了一个值得探讨的问题。此外,判决中提到平台应尽到合理的注意义务,但如何界定尽到注意义务以及这是否能够成为免责的依据,同样存在争议。对于中游的模型厂商而言,他们是否也应当承担注意义务,并在尽到义务后能否免责,这些问题同样需要深入探究。这一系列问题不仅关乎AI平台开发者的法律责任,也对于整个AIGC产业链的健康发展具有重要意义。因此,我们有必要对这些问题进行深入研究,以寻求更加合理的法律解决方案。

   不论是Getty Image案件还是奥特曼案例,原告均将AI平台生成的内容作为侵权的主要依据。在AI平台生成内容的过程中,用户首先依据自己的创意和预设输入指令,随后AI根据这些指令生成内容,用户再从中筛选,最终得到满意的作品。以AI生成图片为例,模型会基于之前的训练数据提取图像特征和规律,结合一定的随机性生成新图片,并通过优化调整使其更符合用户的视觉需求。尽管用户输入了指令,但这些指令究竟包含多少创造性成分存在疑问,因为图片的生成在很大程度上仍依赖于模型的前期训练数据和算法。因此,AI生成的图片与训练数据之间可能存在相似度,进而带来侵权风险。

22.png

图片来源于网络,仅用于交流

观察这两张图片,左边是原作,右边是AI生成,二者在视觉上呈现出较高的相似性。在我国司法实践中,对于著作权侵权的判断主要依据接触+实质性相似原则。在判断是否接触过在先作品或存在接触可能性时,通常会考虑该作品是否已公开发表。然而,对于未开源的模型和数据集不透明的情况,要追溯数据集来源和举证存在不小的困难。

在判断实质性近似时,应站在普通读者、听众或观众的角度进行审视,判断是否存在实质性相似。同时,应明确著作权保护的是表达形式而非思想内容。因此,在判断侵权时,应限定于比较作品的形式表达,而非抽象的思想或概念。

AI生成内容不仅如先前所提到的两幅图片那样,在原作基础上进行简单修改导致与原作高度相似,更常见的情况是,AI能够学习并模仿某类作品的独特风格。有人可能会认为,著作权不保护风格,仅仅风格相似并不构成侵权。然而,这一观点需要根据具体情况来判断。举例来说,这两幅图片就展示了这一复杂性。蒙德里安的作品以其画面构成和颜色搭配的独特风格而闻名,虽然AI生成的图片与蒙德里安的原作在直接对比时并不完全近似,AI生成的图片可能更为复杂,但对于熟悉蒙德里安作品的人来说,他们能轻易地从AI生成的图片中辨认出蒙德里安的风格痕迹,包括其特有的表达方式、构成要素和形象效果。这些相似之处足以让普通观众产生混淆。

33.png

图片来源于网络,仅用于交流

此外,我们来看另一个引人注目的案例,它或许能为我们提供更多启示。原告是比利时画家西尔万,他的画作以方格为背景,融入涂鸦风格的“鸟、鸟巢、鸟笼、小孩、飞机、动物”等标志性元素,形成了自己独特的艺术风格。被告是一位国内画家,他“借鉴”了西尔万的风格,使用相似的标志性元素创作了自己的作品。在一审判决中,法院认定有22幅被告的画作在整体上与西尔万的作品构成实质性相似,有76处局部(元素组合)实质性相似,以及84处单一元素实质性相似。

44.png

图片来源于网络,仅用于交流

通过这个案例,我们可以总结出,美术作品的表达主要体现在构图、线条、色彩、形体等美学因素的有机融合所形成的艺术造型上。在普通读者的心目中,风格并不仅仅包含思想层面的内容,它同样包含了表达层面的元素。因此,在判断AI生成内容是否构成侵权时,我们需要综合考虑作品的整体风格、表达方式以及可能对观众造成的混淆程度。











在线客服

官方微信

同立钧成官方微信

客服电话

+86-10-62260318