关于高文

高文律师事务所是一家综合性、合伙制、公司化律师事务所。

行业领域

高文凭借20多年的法律实践经验和不断创新的执业能力,业务覆盖中国主要行业领域,能够提供高效率、高质量、全方位的法律服务。

专业团队

高文凝聚了300余名毕业于国内外名校,经验丰富,在各自执业领域拥有较高知名度的领军人物。

文化建设

高文始终以“勤勉敬业、优质高效、诚实信用,最大限度地维护和实现客户的合法权益”为执业宗旨,孜孜秉承着“高屋建瓴”、“经纬天地”的执业理念。

新闻资讯
2024年11月3日,由淄博仲裁委员会和高文律师事务所共同主办的高文仲裁系列沙龙第24期--“企业出海商事风险防范暨前沿问题分析”活动在淄博隆重召开。
文化建设
1月16日,高文优秀党员表彰大会顺利举行。高文党总支授予马晓田、冯俊玲、许莲花、李亚楠、李爽、杨明敏、张莹、赵军、胡凯龙、郭奕岍优秀共产党员荣誉称号。
2023.08.30
从近期AIGC诉讼看企业数据资产管理和版权保护要关注的问题
分享:

引言   

 

AIGC相关研究往往会涉及AI生成内容的可版权性、作者身份和权利归属等问题,但生成式AI及其生成内容引发的问题远不止版权。大规模数据抓取、模型和算法训练等引发的数据安全、个人信息与隐私保护、网络空间治理等问题,因为涉及科技伦理道德、主体责任与义务,也备受关注。涉及跨境数据流动、跨国项目合作时,还要特别关注域外法律适用。

 

原来我们做数据资产管理时就有确权难、控制难、协同管理难等问题,生成式AI强大的生成能力和超高的传播效率,让溯源、管理和运营工作难上加难。

 

版权资产管理也有同样的问题。比如在作品构成元素保护问题上,原来就总会遇到财产权与财产权益划分、跨部门法交叉保护等问题,现在还要看工具端带来的权利源头清洁问题和取证难问题,以及碎片化利用带来的维权难问题。

 

下面通过近期诉讼看看AIGC带来的影响,最后再看解决思路。

 

诉讼中的攻防意见

 

近期关注度比较高的案例主要有:

 

  • 2022年11月3日、10日,微软子公司GitHub、微软和OpenAI因涉嫌利用受许可证保护的源代码训练 OpenAI 的 Codex 模型,并因在 GitHub Copilot 代码辅助服务中照搬这些代码而被提起集体诉讼。

     

  • 2023年1月13日,数字艺术家们对Stability、Midjourney和DeviantArt提起集体诉讼。

     

  • 2023年1月和2月,Getty Images先后在英国和美国对Stability提起诉讼,案由涉及版权、商标、不正当竞争及商业欺诈贸易,诉求包括请求法院发布禁令,禁止被告销售相关AI图像生成系统并要求被告销毁所有使用侵权内容进行训练的Stable Diffusion版本。

     

  • 2023年6月28日,OpenAI和微软因为大规模抓取网络数据并用于AI产品训练被提起集体诉讼,诉争金额高达30亿美元。

     

  • 2023年6月28日,作家Paul Tremblay和Mona Awad对OpenAI发起集体诉讼。

     

  • 2023年7月7日,作家Sarah Silverman、Christopher Golden和Richard Kadrey起诉OpenAI,指控被告直接侵犯版权、间接侵犯版权、违反DMCA、违反加州不正当竞争法和普通法不正当竞争法、疏忽,寻求禁令救济以及损害赔偿。

     

  • 2023年7月7日,三位作家以上述同样案由对META提起集体诉讼。

     

  • 2023年7月11日,Alphabet Inc、Google Deepmind和Google LLC因利用网络抓取数据训练“Bard”等AI产品,被诉滥用个人信息和版权材料,侵犯隐私权、财产权,诉争金额高达50亿美元。

 

总体看下来,版权资料类案由涉及版权直接侵权、版权间接侵权、违反DMCA、商标权侵权和不正当竞争,个别案件还涉及形象权侵权和合同违约。攻防意见方面,不管是法律问题还是证据问题,都有很多完全相反的意见。

 

先看数字艺术家对Stability、Midjourney和DeviantArt提起的集体诉讼。

 

  • 原告关于版权直接侵权、间接侵权的主张有两个基础逻辑:第一,模型训练过程存在对版权作品数字副本的复制和存储;第二,模型生成的每一个输出都构成衍生作品。但是原告并没有提供直接证据,证明有哪些图像被复制、被侵权,只是通过援引技术论文对模型工作原理进行解析,通过输入艺术家名字就可以生成相关艺术风格的作品的功能,推断训练数据集当中包含了原告作品,因为模型生成内容本质上不是创作,而是高度依赖训练数据。

     

  • 被告认为这从法律和逻辑上都说不通。一方面,技术上,模型训练的过程是从训练数据中提取模式,然后将其存储为数字模型参数,未必需要“复制和存储”原始作品,法律上,这也不是版权法意义上的复制和存储;另一方面,输出内容是否构成衍生作品需要进行法律判断,而原告既没有指出到底是哪个图像被侵权,也没有进行侵权比对,其主张的艺术风格,本身也因属于思想而不受版权法保护。

     

  • DMCA指控方面,原告认为被告将图像收入训练数据时删除了版权管理信息。被告则表示原告既没有举证说哪个作品的版权管理信息被删除了,没发过侵权通知,也不符合“双重明知”要求。

     

  • 形象权方面,原告依据加州州法和普通法指控被告侵犯其形象权时,提出被告工具允许用户输入艺术家名字、生成具有该艺术家艺术风格的内容,这种使用方式不属于转换性使用,属于盗用艺术家名字和艺术身份价值。被告表示反对,并引用谷歌搜索的案例说,如果按照原告的逻辑,在搜索栏输入姓名都会构成形象权侵权。被告还提出,一方面,用户将艺术家名字用作文字提示、被告介绍产品有这类功能,不符合形象权保护的构成要件。另一方面,原告实际寻求的版权法下对版权客体和权利的控制,比如,通过控制名字的使用来控制包含在先作品所含艺术风格的在后作品,只是因为版权法不保护作为思想的“艺术风格”,才提起形象权保护。

     

  • 被告认为原告在商标权和不正当竞争方面的主张也有同样问题。

 

需要说明的是,我国虽然没有形象权,但对相对权、财产权益的保护的讨论(比如商品化权/商品化权益)也持续了很多年,相关案例也很多,原被告在形象权以及跨部门法保护的诉辩意见都有一定参考价值。

 

回到诉讼,被告Stability、Midjourney和DeviantArt均提请法院驳回原告诉请,主张:

 

  • 版权、商标权、形象权等问题还是要回归构成要件本身进行举证和审查;

     

  • 原告所述的被侵权作品量动辄高达“百万”“数百万”,其中可以通过侵权认定的到底有多少,原告并没有提供证据;

     

  • 原告的指控都是结论性的、陈述性的、没有证据支撑的。

 

除此之外,被告还提出原告起诉资格有问题:在美国提起版权诉讼需要进行版权登记,而三位原告代表中有两位没有登记,有一位登记了作品集却没有说到底是数据集中的哪个作品被侵权。

 

同期经常被拿来做比对的Getty Image就没有版权登记方面的问题:Getty不但对部分图像进行版权登记,对数据库也进行登记并斥巨资维护,不过虽然原告声称有1200万余张图片被盗用,附件列表提供版权登记文件的只有7200多张,具体情况还要看后续诉辩双方的进一步主张。

 

除此之外,Getty在举证上也更有优势。比如,因为原告会在图像上添加商标水印,被告工具生成内容出现这些水印时就会被用作证据。

 

可以说,Getty的诉状被认为更有说服力,与它采取的保护措施密不可分。Getty的商业模式就是收集大量视觉内容资产并进行商业化运营,为保护资产的商业价值从技术上和法律上都采取了一系列保护措施,从版权登记、标签和URL管理、加水印,到强大的网络监测和维权能力,这些措施往往需要投入很大的成本和运维资源,往往是个体艺术家很难实现的。

 

图片

 

此外,艺术家原告认为大量具有其艺术风格的AI生成内容会挤占市场,但从诉状本身来看,没有更多的市场竞争方面的陈述和举证。Getty则不一样,除了在网站条款禁止未经许可的数据爬取,其对外也进行AI训练数据的许可授权,这类活动使它关于不正当竞争的主张也更有力。

 

也就是说,对于企业来说,不管是否引入AIGC,只要想保护版权资产,就需要针对其数据形态设计相关的保护措施。

 

作家们起诉OpenAI、Meta版权侵权时,争议焦点也会涉及“复制”和“衍生作品”。比如,OpenAI案中,原告主张:

 

  • 模型训练过程中存在“复制”:与传统的编程方式不同,大语言模型是通过复制大量文本并从中提取表达性信息(expressive information)来“训练”的;OpenAI为了训练模型,从互联网上收集大量文本材料并在训练过程中进行了复制。

     

  • OpenAI的语言模型本身就是侵权的衍生作品:模型根据用户提示输出的内容高度依赖训练数据,没有这些从原告和其他人的作品中提取并保留的表达性信息,模型就无法发挥作用,OpenAI的语言模型本身就是侵权的衍生作品,未经原告许可而制作衍生作品,也侵犯了原告在版权法下的专有权。

     

  • OpenAI语言模型的每个输出都是侵权的衍生作品:由于OpenAI语言模型的输出是基于从原告和其他人的作品中提取的表达性信息,OpenAI语言模型的每个输出都是侵权的衍生作品,这种输出未经原告的许可且侵犯其在版权法下的专有权。

 

攻防双方和前面提到的诉讼有共性:

 

  • 诉状以结论性陈述为主,原告都会从技术上分析模型训练存在“复制”;都会通过论证模型生成内容依赖训练数据提取的表达,主张输出构成衍生作品,有的案件原告还会主张模型本身也构成衍生作品,比如作家诉OpenAI案;

     

  • 都会通过对被告训练数据集组成与来源进行分析,主张权利人没有进行过该类授权许可,被告未经许可的使用构成侵权。被告一般也会以合理使用作不侵权抗辩,有的被告还会以数据集是开源的为由进行抗辩,当然原告是完全不同意的,原告会提出,开源的前提是权利人愿意把版权资料放在开源许可下,而本案原告不同意这种做法。

 

需要注意的是,原告能指出被告使用哪些数据集,并不是基于直接的调查取证,而是基于被告自己在论文、宣传中的披露。不知道是不是受这些集体诉讼的影响,有的被告公司后来再发布产品时,会以竞争和商业秘密为由,不再披露数据集。是的话也不奇怪,就算裁判结果没出来,诉讼过程本身都会有参考价值。

 

可以说大家都有同样的问题——传统版权法下的侵权认定需要对独创性、实质性相似进行分析判断,集体诉讼涉及的图像动辄百万千万,如果原告可以举证哪一个数据对哪一张图像或者哪一段文字构成侵权,法庭是可以审查判断的,如果不举证,如何判断?如何解决这类“侵权”问题?

 

图片

 

总体来说,权利人和使用方面对AIGC时,各有各的烦恼。

 

  • 对于权利人来说,传统版权法,解决不了生成式AI数据训练与内容生成涉及的版权问题。如果自己本身也是用AI进行创作,还要考虑AI生成内容可能会动摇其权利基础。比如,现在的影视游戏权利人在项目发包时,有的会要求制作方披露制作工具,有没有使用AI,使用环节和目的是什么,生成哪些内容,评估是否会影响整体可版权性,同时会更新合同条款,设置高额违约金。这就意味着,原来我们在处理作品构成元素保护问题时,对无法落入版权保护的角色、名称、文字、段落等等,可能会评估其商业价值后,寻求商标法与不正当竞争法的交叉保护;现在,考虑到模型和算法训练对数据的收集、处理、利用情况,还要加强对数据集、数据流转的保护,建立标准程序、更新合同文本。

     

  • 对于使用方来说,除了版权侵权、商标侵权和不正当竞争诉讼风险,还要考虑数据来源、内容污染对训练数据本身的质量与安全性的影响,比如抓取过来的数据有没有审核、筛选、脱敏、加密,数据集的质量与安全;最终用户使用带来的传播和责任,这些问题因涉及主体责任与义务,有触发行政责任和刑事责任的风险。

 

这时再回过来看如何应对AIGC介入后的版权保护挑战,解决方案还是在已有的数据资产管理流程当中。

 

图片

 

AIGC介入后的数据资产管理

 

一般数据资管理都会有“资产图谱”、“流程管理”、“数据传输与流转”、“监测与维权”四大流程。版权载体是数字形式时,对数据生命周期进行控制就至关重要,这种控制从工具测试与选型阶段就要介入:

 

  • AIGC工具有个很现实的问题是本地化部署成本极高,上云是绝大多数主体的选择,只要上云,就会涉及数据传输、数据安全、网络安全以及更换服务方后的数据资产回收、处理等等问题。也就是说,这时选的已经不仅仅是工具,还是工具所处的生态;涉及生成内容权利归属的合同条款,要看的不仅是工具本身,还要留心工具上下游合作方是否有干扰因素。

     

  • 不同工具针对生成内容的权利安排、侵权责任承担等制定的规则差异极大,比如有的工具不对训练数据的质量、权利来源、内容安全等进行任何承诺,通过免责条款,要求用户承担全部责任;有的工具则会对训练数据的来源与质量作出声明与保证,允许用户将生成内容放在其交易平台进行对外商业授权许可,并承诺,如果用户因此遭遇索赔,工具厂商会承担法律责任。

 

简单小结就是,AIGC工具/内容介入后:

 

  • 资产图谱项下,需要有能力厘清介入前后的资产比对、明确“新”资产确权规则与程序,对于非确指类资产,更需要绘制数据与信息的关联图谱;

     

  • 流程管理项下,需要特别关注AIGC工具/内容介入前的测试、评估以及法务前置审核。原因一方面是这会直接影响权利基础是不是稳固,一方面是会影响数据传输与资产流转的可控性。

     

  • 数据传输与流转项下,需要重点关注数据传输与流转过程中的控制,以技术手段、合同约定以及定期审计,对第三方数据接收、使用进行控制。

     

  • 监测与维权项下,需要关注事前调查、证据收集与保全。特别需要注意的是,在训练数据不公开、碎片化利用等情况下,传统对“复制”、“存储”的取证方式很难适用在AIGC侵权场景下,此时,企业是否采取前期保护措施(比如添加水印、标题和文字说明),对后期的监测和取证就影响很大。

 

另外还有三个很重要,但是易于忽略的问题:

 

  • 技术手段与跨部门协作。通过采取技术手段,对数据库接入严格管理、防御数据爬取,添加水印,这些都是资产保护基础(当然,添加水印属于监管要求时,还有一个避免触发监管处罚的功能),这就意味着,AIGC合规问题一般需要企业内部跨部门协作,不是法务部门或者技术部门能单独解决的。

     

  • 上下游协议和内部制度安排。举例来说,原来我们要做一个游戏制作项目,会对上下游协议中的知识产权条款进行对齐。现在还要多考虑一个工具相关的协议安排,如果是传统的制作软件,即使其中本身已经包含AI相关功能,因为不涉及大量的训练数据、模型训练问题,问题还不大。生成式AI工具因为会涉及上云、数据出入境、训练数据输入输出,需要对涉及AIGC的场景进行排查,补充对应的使用规则、权责划分。

     

  • 协议中的资产安排。要对1)整体意义上的数据资产,2)分类后可明确其权利/权益范围的版权、商标权、个人信息等相关资产,分别进行安排。对于不可确指的数据资产,识别其所关联的信息及商业价值后,根据评估结果进行安排。

 

可以说,整个流程优化、升级过程中,“身份”这个词贯穿始终。这里的身份有两层含义:

 

  • 一层是法律和监管规则下的身份,不同角色要承担的主体责任与义务不同。

    比如,当涉及多个被告时,原告一定是对各被告的行为分别展开陈述。我们看OpenAI这个集体诉讼时,原告在描述被告OpenAI和被告微软的被诉行为时,会对OpenAI直接提供ChatGPT服务、以提供API接口或插件形式嵌入第三方应用程序与网站,微软将ChatGPT嵌入自有平台及应用程序并对外提供服务等情况分别进行陈述,对不同情况下的责任主体、对用户信息的拦截/获取具体发生在哪个环节、具体行为表现、影响的用户群体、追责依据等都分别进行陈述,因为不同模式下收集、使用、存储、共享、交互等数据与信息处理方式还是有差异的,这种差异会对最终责任承担有一定影响。

 

  • 另一层含义是在行业产业链中的定位,业务领域、业务类型不同,对AIGC介入影响的评估也会不同。

    比如,有的广告主会要求用生成式AI进行制作。如果广告主本身就是AIGC技术开发者,或者是快销品、电商平台之类的企业,本身不是特别看重广告片版权资产归属,乙方对客户进行必要的提示,在合同条款中进行相应说明,一般来说就问题不大。但如果项目甲方是重版权资产的IP权利人,比如影视游戏项目的权利人,AIGC工具/内容的介入,就需要做详细评估,会要求乙方披露AIGC工具/内容的使用情况、相关管理机制等事项,用以评估下游供应商引入AIGC工具及内容会对上游版权资产的权利基础有何种影响,评估下游供应商数据留存和应用规范等等问题。

 

总体来说,现状就是:1)生成式AI和大模型发展引起的诸多社会事件正在推动立法与监管;2)即使没有立法与行政监管,行业规则本身也会对资源争夺、竞争规则产生影响;3)OpenAI、微软、Google、Meta、Stability等正在面临的集体诉讼本质上是各方对网络公开数据资源控制权与收益权的博弈;4)这种竞争是跨行业跨地域跨国界的。

 

一般从业者的问题可能问到AIGC有没有版权、能不能登记作品这个程度。经营者要更进一步,结合自己的身份与主营业务,对数据资产管理机制进行适配改造,比如加强工具选型、数据资产上下游流转的流程管理和协议安排。除了满足监管对数据安全、网络安全、个人信息保护与隐私保护、网络信息生态治理等方面的要求,力求在资产权利模糊的领域,即使不能明确产权,也要最大限度实现对有商业价值的数据资产的控制。

更多新闻

国内有影响力的优秀律师,提供全方位、多领域、高质量的专业法律服务,始终不负所托。