近日,不少用户发现在使用中国知网(CNKI)的过程中,最新版的知网首页新添置了“AI智能写作”功能,且已经开始了试用。根据知网的介绍,用户在使用时只需完成“输入文档名称”“AI智能生成文档大纲”“一键生成所有章节内容”三个环节,便可以生成完整的文章。另外,该功能适合各类文档写作场景,其中包括调研报告、咨询报告、研究报告甚至政府公文,以期能够为使用者提供一个高效的生产力工具。
“AI智能写作”功能实际上是对大模型AIGC技术的综合应用,AIGC即生成式人工智能技术,该技术广为大众熟知源于年初OpenAI公司旗下的ChatGPT-3的发布,使得人们对于人工智能技术的突破性发展眼前一亮。随后,众多国内互联网企业纷纷发布了自己的AIGC产品。知网此次发布的“AI智能写作”功能也属于AIGC技术产品。AIGC技术近些年来取得了突破性的进步,其接近人类智慧的内容生成让人们对于人工智能再次寄予无限遐想。然而,在知网开放试用“AI智能写作”让公众体验AI技术便捷性的同时,这一应用功能也可能带来一定风险,相应的应对措施需有效跟进。
科技伦理风险
对于AIGC技术的使用目前饱受争议,在学术界更是如此。开展科学研究、技术创新等科技活动不能脱离科技伦理的规范,这是促进科技事业健康发展的重要保障。但是随着人工智能的飞速发展,现有的科技伦理体系难以完全适应创新发展的现实需要,极容易产生违反伦理道德的风险。AIGC技术是使用大量文本数据训练的深度学习模型,其训练材料来自人们已有的作品,因此它也有可能将已有作品中包含的歧视因素继承下来。其输出的内容可能存在与当前主流价值观不符的情况,可能会产生歧视、侮辱等内容。meta曾发布过一个名为Galactica的语言大模型,它由4800万篇学术论文、著作炼成,号称擅长生成学术方面内容,更懂研究问题。不过因为用户在使用过程中发现它带有种族歧视,现在它的demo已经不开放了(代码还能用)。尤其是AIGC技术在新闻报道、论文撰写等方面的能力极为突出,该技术的不当应用易成为部分造谣者以及伪造论文者的工具。
知网所承担的已不单是企业责任,而是构建健康良好学术生态这一更重的社会责任。值得注意的是,知网在9月13日也发表题为“让AI代写无处遁形!中国知网AIGC检测助力大模型时代学术生态建设”的文章,称全新推出AIGC检测服务系统,以知网结构化、碎片化和知识元化的高质量文献大数据资源为基础,按照预训练大语言模型的算法逻辑,首次提出“知识增强AIGC检测技术”和若干检测算法,从语言模式和语义逻辑两条链路,用AI对抗AIGC,最终准确识别学术文本中的AI生成内容。
AIGC技术需要发展这一点毋庸置疑,因为该技术确实能够为使用者提供更高的工作效率。然而一方面,知网试图运用先进AI技术甄别AICG技术生成的文本内容;另一方面又要以自身数据优势开发AIGC技术,并在知网平台进行推广试用。这样的做法难免会使人产生“以己之矛攻己之盾”的猜疑。
知识产权挑战
创新是引领发展的第一动力,知识产权也是国家发展战略国际竞争的核心要素,AIGC技术存在潜在的侵权风险。目前,知识产权风险主要集中在三方面,一是训练数据来源合法合规问题;二是AIGC技术生成内容的知识产权权属问题;三是生成内容的知识产权侵权问题。
AIGC技术的运用离不开海量的数据训练喂养,在知网提供的“AI智能写作”功能中亮点便是能够生成具有较深技术性、专业性的综合型报告。此类报告的生成必然离不开相关领域高质量数据的训练,而知网作为作用大量相关数据的平台能否将这些数据用作商用的大模型训练存在争议。
在美国已有绘画者对人工智能生成作品的软件公司提起了诉讼——“Stable Diffusion案”,三位艺术家认为Stability AI在“未经原始艺术家同意”的情况下,获取与利用其版权作品作为Stable Diffusion的训练源,利用从网上抓取的50亿张图像对其AI工具进行训练,侵犯了“数百万艺术家”的作品版权。目前该案还在诉讼中,尚未有判决结果,但对于知网的数据来源合法性的思考具有一定的借鉴意义。
2023年7月,国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》(下称《办法》),这是全球首部AIGC管理办法,根据《办法》第七条规定,知网将相关领域高质量数据进行训练这一行为是否取得了原作品作者的事前同意犹未可知,同时根据我国《著作权法》合理使用的相关规定可知,能适用于AIGC数据训练的三种情形为“个人使用”“适当引用”“科学研究”,而知网若将数据进行训练能否归入这三种行为亦未可知。
在生成内容权属问题方面,根据知网《知网AI智能写作用户体验规则》(下称“体验规则”)来看,使用者仅拥有依照本规则约定合法使用本服务及本服务相关的知识产权的权利,对于知网享有知识产权的内容,未经知网的同意,使用者不得以任何方式发布、播放、出于播放或发布目的而改写或再发行,或者用于其他任何商业目的。综上来看,该规定并没有有效解决生成内容的权属争议,可以明显看出知网作为AIGC技术的服务提供者极力在保证不违反现行法律法规的前提下对公众开放使用。
然而,使用者使用“AI智能写作”进行论文和其他文稿写作后,难以避免会对其进行改写或者再发行,这样会造成诸多AI生成内容改版文稿“流落在外”,同时知网未有效规定生成内容的权属,导致其权属不明,易产生较多纠纷。
在生成内容侵权问题方面,侵权责任的归属是需要重点关注的问题,《体验规则》表述为:“您对自己使用本服务的一切行为及由此产生的一切结果负责,包括但不限于您所提供的任何服务、发表的任何内容,以及由此产生的任何后果。”也就是说用户作为服务的使用者需自行对使用服务的侵权责任进行承担。
根据《办法》第九条规定:“提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务”。在某些情况下,若知网在AI智能写作的技术或平台设计上存在缺陷,导致生成的内容侵权,那么知网也可能需要承担一定的责任,而其却规定用户对一切侵权后果承担责任。这种情况下侵权责任该如何划分,知网对责任的相关规定又是否具有推卸责任的嫌疑?
个人信息泄露风险
近期知网再度被处罚是由于违法处理个人信息,知网掌握着海量的用户信息,个人信息的保护是众多互联网平台的重要责任之一。知网开放的“AI智能写作”需要用户注册账号并进行概括授权,如果用户没有具体、仔细地关注知网所要求的授权,则会在智能AI写作运行过程中被无形爬取相关隐私资料,造成信息泄露风险。不仅如此,即便在用户同意相关授权后,其爬取的数据信息如若超过授权范围,也会产生信息泄露的风险。在进行AI智能写作这一过程中,智能AI不仅收集使用者的个人信息,也可以根据使用者所利用智能AI的频次、方式等刻画人物画像,使用者原本与智能AI进行私密交谈的隐私信息也将会转化成训练数据库中的信息,而进入数据库的过程是否属于侵犯隐私的性质,具有相当大的争议,并且由于人工智能算法黑箱的存在,人工智能运行的内在过程难以被清晰洞察,具有较大的个人信息泄露风险。
此外,使用AI智能生成的论文及相关文稿的质量和准确性尚未得到验证,可能存在错误或不准确的信息,损害研究和相关报告的可信度。
结合国内外对于AIGC技术在学术界的应用现状,支持与反对该技术在学术界使用的双方势均力敌。不可否认,技术的进步能够颠覆传统的业态模式,合理的使用能够造福学术工作者。但是,由于技术的发展,传统的伦理道德规范甚至法律法规规范并没有与之匹配,这导致盲目的推广极容易产生各类风险。知网在中国学术研0究领域发挥着极为重要的作用,在科技伦理风险、知识产权挑战、权责划分挑战以及个人信息保护风险等众多问题尚未解决,又使用AI对抗AIGC技术试图规范学术行为的情况下,径自推出“AI智能写作”功能的行为值得深思。
(陈兵系南开大学竞争法研究中心主任、法学院副院长、教授,南开大学数字经济交叉科学中心研究员;刘永集系南开大学竞争法研究中心助理研究员、墨尔本大学法学硕士)