0°

ChatGPT内容很炫!“创作”的版权归谁?

  随着人类社会进入Web3.0时代,大数据与人工智能深刻地改变着人类社会的生产方式与产业经济结构。近日,由美国OpenAI公司开发的一款名为“ChatGPT”的智能聊天机器人引起了社会各界的广泛关注。

  中共中央、国务院于2017年印发的《新一代人工智能发展规划》指出,“在大力发展人工智能的同时,必须高度重视其可能带来的安全风险挑战,加强前瞻预防与约束引导,最大限度降低风险,确保人工智能安全、可靠、可控发展。”

  本文以ChatGPT为切入点,选取人工智能聊天机器人所引起的知识产权风险进行讨论。一是因为ChatGPT的高度智能性主要表现在其能够模仿人类的表达逻辑,生成的文本内容与人类创作的作品高度相近,并且在多数情况下可以为用户直接采用,因而版权归属问题、用户使用限度问题是强人工智能体对当前法律体系带来的最直观冲击。二是强人工智能的发展以庞大的数据集为根基,缺乏足量的数据就无法对人工智能进行训练,而数据集的调用又涉及原始创作者的著作权与商标权。

  ChatGPT对当前人工智能的突破

  由于以往的人工智能在“类人性”方面总是有所缺憾,无论是绘画创作AI“微软小冰”还是苹果智能语音助手Siri,都难以完整地复现人类心智,因此这一定义在提出时很大程度上只是对未来的超前设想,描述了人工智能的发展远景。而ChatGPT的出现使人工智能技术向“类人性表达”的目标无限趋近,其生成文学作品、法律文书、案例分析的能力足以表明,当前生成式AI正从“技术层”向“应用层”突破,现实地完成人类的高难度工作。具体而言,ChatGPT至少在通用性、智能性与逻辑性3个方面大幅领先于现有生成式AI。

  ChatGPT具有通用人工智能大模型的特征

  以往的人工智能多属于小语言模型,其应用仅限于特定场景和专业范畴。ChatGPT则实现了“小模型”向“大模型”的突破,能够回答法学、计算机、文学、经济学等多种专业领域的问题,这具有两方面意蕴。

  一方面,通用性使人工智能的决策模式与人的相似性进一步提高,与AlphaGo等小模型相比,克服场景限制后的ChatGPT很难再被单纯地定义为一种专业辅助工具,至少从外观上看ChatGPT更接近助手或顾问的角色。

  另一方面,通用性也标志着人工智能技术逐步走向普适化、平民化应用。统计公司Similarweb数据显示,2023年1月ChatGPT单日平均独立访客数量已达1300万人次,而至2月初,单日用户访问量已达2500万人次。在以往的小模型阶段,人工智能的开发主要是为了解决特定领域的专业难题,因此在多数情况下只有特定行业的专业人员能够接触、使用AI。通用性人工智能的出现,使AI的应用正式从小范围特定人群走向普罗大众,与此同时也将潜在风险向社会层面扩散。

  ChatGPT具有高度智能化的特征

  OpenAI官网内容显示,ChatGPT的创新之处在于采用了RLHF(基于人类反馈的强化学习)人工智能训练方法,该训练方法使得ChatGPT具有与以往人工智能不同的高度智能化特征。这一训练过程包含3个阶段,首先是监督学习阶段,相比起AI无监督自我学习,监督学习需要专业人员对ChatGPT待解决的问题进行人工数据标注,为ChatGPT人工书写高质量的答案。其次是训练奖励模型阶段,专业人员通过建立奖励模型的方式对ChatGPT输出的不同答案进行打分,促使ChatGPT输出高分答案。最后是强化学习阶段,运用PPO算法不断强化ChatGPT的能力。

  RLHF训练方法极大地提升了ChatGPT的智能性,强化了生成式AI的功能,这一提升主要体现在以下两个方面。其一,ChatGPT能够基于人类反馈模仿人类的表达方式和表达逻辑。以往生成式AI所输出的文本存在逻辑性较差、语序混乱、表达生硬以及情感缺失等问题,与人类的表达方式相去甚远,因此无法被用户直接使用。而ChatGPT能够学习、模仿人类的表达方式,输出逻辑更严密、表达更健全的文本内容,因此可以在不经用户改写或少量改写的情况下直接使用。其二,ChatGPT能够精准识别用户指令,输出与用户需求高度匹配的答案。ChatGPT与之前的模型相比,其对话生成实现了从命令驱动到意图驱动的转换。ChatGPT在与用户交流的过程中,用户无需输入繁琐的要求和指令,仅需用日常语言输入简单的想法,ChatGPT即可“心领神会”,完成用户所指定的任务。此种对用户需求精准识别的能力能够有效降低AI产品的使用门槛,但同时也加剧了AI异化为违法犯罪工具的风险。

  ChatGPT具有记忆性

  ChatGPT与当前人工智能相比另一个重要突破就是能够记住与用户交流的内容,并具有在前期对话的基础上与用户进行持续交流的功能。使用者表示,ChatGPT能够根据用户的后续指令进一步修正自己先前输出的答案,也能够质疑不正当的提问。记忆性特征使ChatGPT的运用变得更加灵活多样,用户所获得的答案并非一次性的,即使ChatGPT初次生成的内容与用户需求还存在一定的距离,用户也无需亲自进行人工修改,而是可以逐步引导其增加、删减部分内容。

  ChatGPT所涉知识产权风险的应对

  人类技术发展史表明,新技术一旦在人类社会广泛应用,将不可避免地引发全新的法律风险。互联网的普及引起了法学界对网络暴力、通信信息诈骗、数据侵权、虚拟财产犯罪等风险的警惕与慎思,相应的,以ChatGPT为代表的通用性、高智能性、记忆性人工智能的广泛应用,也会对既有法律体系与法学理论提出全新的挑战。作为文本生成式AI,目前ChatGPT尚不具有生成图像、音视频以及联通多用户交流的能力,因此其被利用成为智能化犯罪工具的可能性尚处于较低水平,现阶段ChatGPT在法学领域引起的冲击更多地集中于知识产权领域,包含在数据源获取与内容生成两个运行阶段之中。

  在数据源获取阶段,人工智能对数据集的使用可能涉及对原始作品权利人的侵权风险。在内容生成阶段,ChatGPT将进一步引起人们对AI主体地位、AI生成物法律权属问题的反思。

  ChatGPT在数据源获取阶段的侵权风险

  算法、算力、数据是人工智能开发的三大要素。ChatGPT的通用性、高智能性、记忆性除基于其特殊的训练方法外,更源于其所拥有的海量数据集。据统计,ChatGPT背后所拥有的参数高达1750亿个,远超现有的其他生成式AI。根据国外人工智能学者Alan D.Thompson的研究,ChatGPT的数据源包含维基百科、书籍、期刊、Reddit链接、Common Crawl等。ChatGPT是通过学习互联网上的现有数据,并在此基础上加工整理形成答案的,而社交网站、书籍、网页数据无不包含着大量原始创作者的作品,这一过程并未经过版权人许可,可能构成对原始作品权利人的侵权。

  这一问题在实践中已经出现,在Andersen et al v Stability案中,以Andersen为代表的3位艺术家对一款AI绘图工具提起集体诉讼,认为AI公司在未经许可的情况下将多位艺术家所创作的50亿张网络图片用于AI机器学习,其行为侵犯了艺术家们的权利。与此相近的是,意大利个人数据保护局取缔了一款名为“Replika”的人工智能聊天机器人,认为其非法收集、使用原始数据。该案虽然并非知识产权侵权,但也同样表明目前AI抓取、使用数据可能侵犯原始数据源之上的各种权利。

  对于数据源获取阶段的知识产权侵权风险,笔者认为,在解释论上应适度扩张合理使用制度的范围,以使其能够适用于AI抓取公开数据的情形。

  其一,数据抓取、分析是开发人工智能程序的必要条件,未来强人工智能的进一步发展更需要海量的数据源支撑。相关研究表明,人工智能大模型的训练至少需要62亿的参数量。此时要求开发者获取全部产权人的许可并不现实,知识产权法领域若不能弱化该风险,将阻碍人工智能的技术创新。

  其二,AI开发者利用数据集的行为具有合理使用的外观。AI及其开发者使用数据集的行为包含复制导入数据和AI学习分析数据两个过程,而知识产权法之所以对复制行为进行规制,是因为在传统的出版领域复制与发行具有密切相关性,控制复制行为能够有效阻止其后的发行行为。而现代计算机技术的出现使复制行为和传播行为发生分离,单纯复制行为的规制必要性大大降低,多数个人复制行为都被纳入合理使用制度的框架,互联网传播行为成为法律规制的重点。而人工智能对数据源的使用恰恰具有单纯复制行为的特征,开发者所使用的数据源都是从互联网上已公开的内容中抓取的,其获取行为不具有非法性,而且开发者利用数据训练人工智能,AI生成物在多数情况下不会复现原作品的内容。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论