作者:段志超丨蔡克蒙丨邹奕[1]
近期ChatGPT、Stable Diffusion、Midjourney等生成式人工智能产品在国内外爆红。以ChatGPT为代表的大语言模型在理解人类语言、人机交互、各类文本写作、代码编写、逻辑推理等方面展现出了令人惊叹的能力,其生成成果在很多时候可以媲美甚至超过人类的水平。但同时,生成式人工智能的应用也带来了侵犯隐私、泄露商业秘密、传播虚假信息、造成信息茧房、可能被滥用于网络犯罪等潜在风险问题,引起了各国监管部门的广泛关注,意大利据保护局(Garante)即以涉嫌侵犯隐私为由在本国禁用ChatGPT。在这样的背景下,2023年4月11日,国家互联网信息办公室(“网信办”)公布了《生成式人工智能服务管理办法(征求意见稿)》(“《办法》”),现向社会公开征求意见,意见反馈截止时间为2023年5月10日。《办法》全文共21条,开宗明义地提出监管目标在于促进生成式人工智能技术健康发展和规范应用,为生成式人工智能的研发和应用预留了政策空间。我们将在本文中浅析《办法》提出的一些监管要点和实践中可能面临的挑战,并提出我们的建议。
一、适用范围强调向“境内公众”提供服务
《办法》第2条规定“研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的”适用于本《办法》。而《办法》所规制的“生成式人工智能”,是指“基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。”ChatGPT、Google Bard、Stable Diffusion、Midjourney及一些国内领军企业公布的大语言模型均属于《办法》所规制的生成式人工智能。可能存在争议的是如何理解“面向境内公众提供服务”。结合文意和立法目的,我们认为无论服务提供者位于境内或境外,也无论该生成式人工智能是直接向终端用户提供服务还是通过接入其他服务间接向终端用户提供服务,均需要符合《办法》的规定。
二、内容安全
内容和意识形态安全是主管部门最为关心的问题,《办法》也对此着墨颇多,主要体现在以下方面:
服务提供者是内容安全的责任主体。《办法》强调,利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(即服务提供者)承担内容生产者的责任。在实践中,可能会出现用户通过巧妙设计从生成式人工智能服务中套取非法和有害内容的情况,在此情况下如何理解“内容生产者”责任,是否应“一刀切”地要求服务提供者承担责任有待商榷。
生成内容应真实准确。《办法》规定,“利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息”。这一规定目前受到颇多争议。像ChatGPT这样的大语言模型经常会出现“一本正经的胡说八道”,这种AI幻觉先向可能是源于源内容的差异或转换器(Transformer)的解码错误等,目前在技术上仍难以避免。因此过分强调生成内容真实准确可能在当前的技术水平下对服务提供者施加了过重的责任。
违规内容的处置。《办法》第15条要求服务提供者通过模型优化方式处置违规内容,即对于运行中发现、用户举报的不符合本办法要求的生成内容,除采取内容过滤等措施外,应在3个月内通过模型优化训练等方式防止再次生成。在实践中,能否确定违规内容产生的原因并通过训练消除违规内容可能存在技术上的障碍,因此这一要求如何在实践中落地面临较大挑战。
除模型优化外,《办法》还规定了常规的违规内容事后处置义务,包括(1)服务提供者发现、知悉生成的文本、图片、声音、视频等侵害他人肖像权、名誉权、个人隐私、商业秘密,或者不符合本办法要求时,应当采取措施,停止生成,防止危害持续;(2)服务提供者发现用户利用生成式人工智能产品过程中违反法律法规,违背商业道德、社会公德行为时,包括从事网络炒作、恶意发帖跟评、制造垃圾邮件、编写恶意软件,实施不正当的商业营销等,应当暂停或者终止服务。
生成内容标识。《办法》第16条规定,提供者应当按照《互联网信息服务深度合成管理规定》(“《深度合成规定》”)对生成的图片、视频等内容进行标识。但与《深度合成规定》规定相比,《办法》未明确要求对生成文本进行标识。
三、训练数据合规
训练数据的质量对生成式人工智能生产内容的准确性、完整性,是否存在歧视和偏见至关重要,因此《办法》规定服务提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,并对训练数据的合规性做出了较为详细的规定。
训练数据中的个人信息合规。《办法》规定,用于生成式人工智能产品的预训练、优化训练数据,数据包含个人信息的,应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形。具体而言,服务提供者需要征得用户对于自身个人信息被用于生成式人工智能产品的预训练、优化训练数据的同意,或确保符合法律、行政法规规定的其他情形。此外,服务提供者不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。
训练数据不得含有侵犯知识产权的内容。《办法》的这一要求在实践中可能引起颇多争议。生成式人工智能产品在研发过程中通常会爬取互联网上的各类公开数据用于模型训练,其中不可避免的包括许多受到著作权法保护的作品。将这些受到版权保护的作品用于模型训练是否侵犯原作者著作权,是否属于合理使用目前在国内外均极具争议。但如果限制使用受到著作权法保护的作品用于训练,则可能大大降低训练数据的质量和多样性。如何平衡原作者和服务提供者的利益有待理论和政策上的进一步探讨。
保证数据的真实性、准确性、客观性、多样性。《办法》这一要求同样颇具挑战,服务提供者在筛选训练数据时需承担较为严苛的责任。
四、衔接现有算法推荐服务、深度合成服务等其他人工智能监管法规的要求
根据《深度合成规定》,“深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”,包括但不限于篇章生成、文本转语音、音乐生成、人脸生成、图像生成,以及三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。《互联网信息服务算法推荐管理规定》(“《算法推荐规定》”)也将“生成合成类”算法明确纳入规制范围。从定义来看,生成式人工智能也属于“深度合成技术”或“算法推荐服务”,因此除《办法》外,生成式人工智能还需要遵守前述关于算法推荐服务、深度合成服务等既有人工智能监管法规的要求。对此,《办法》在既有法规基础上做出了衔接和细化规定。
算法伦理与算法公平。《深度合成规定》重申和细化了《算法推荐规定》等法规关于算法伦理、算法公平、禁止算法歧视规定,强调生成式人工智能产品应“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视,以及尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争”;“不得根据用户的种族、国别、性别等进行带有歧视性的内容生成。”
算法安全评估与算法备案。《办法》第6条规定,利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。基于上述规定,所有生成式人工智能产品都将被视为“具有舆论属性或社会动员能力”的信息服务,而需要依法进行安全评估和算法备案。
算法透明度。服务提供者应当根据国家网信部门和有关主管部门的要求,提供可以影响用户信任、选择的必要信息,包括预训练和优化训练数据的来源、规模、类型、质量等描述,人工标注规则,人工标注数据的规模和类型,基础算法和技术体系等。
用户公示与防沉迷。《办法》第10条规定,提供者应当明确并公开其服务的适用人群、场合、用途,采取适当措施防范用户过分依赖或沉迷生成内容。这一规定与《算法推荐规定》第8条“不得设置诱导用户沉迷、过度消费等”的要求相衔接,要求提供者从对外公示、算法模型管理等多个维度确保用户科学使用相关产品。
五、影响与展望
《办法》对于违规行为设置了全面的罚则,根据《办法》第20条,违反本《办法》会导致触发《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规中的处罚措施。对于法律、行政法规没有规定的,则可能导致警告、通报批评,责令限期改正、责令暂停或者终止其利用生成式人工智能提供服务,以及十万元以下罚款等行政处罚。构成违反治安管理行为的,依法给予治安管理处罚,构成犯罪的,还需要依法追究刑事责任。
综合来看,本《办法》是现有监管体系对于近期火爆的生成式人工智能技术的直接回应,延续了我国在人工智能监管领域引导、规范、促进并重的监管思路。但从具体规则设置来看,《办法》提出的一些合规要求在当前技术水平之下较为严苛,在实践中如何落地面临许多挑战,需要企业结合技术与法律力量提出创造性的解决方案,以缓解监管机构的安全顾虑,为产业发展赢得更多的制度空间。
特别声明 |
汉坤律师事务所编写《汉坤法律评述》的目的仅为帮助客户及时了解中国或其他相关司法管辖区法律及实务的最新动态和发展,仅供参考,不应被视为任何意义上的法律意见或法律依据。 如您对本期《汉坤法律评述》内容有任何问题或建议,请与汉坤律师事务所以下人员联系: |
段志超 电话: +86 10 8516 4123 |
[1]实习生向雨心对本文亦有贡献。