人工智能生成内容(AIGC)在学术写作中的应用引发了如何鉴别这类文本的挑战。本研究选取了发表的100篇医学综述文摘,将其中50篇通过ChatGPT 4.0重写。所有摘要通过万方文献相似性检测系统发现,AI写作的文本可以更好的通过相似性检测系统。AI检测工具和评审者在识别AI写作方面表现出较高的准确率,但评审者更容易将人类撰写的文本误判为AI写作。这一发现揭示了学术编辑在识别AI写作文本方面存在差异,而AI工具可以更准确地辅助识别学术不端行为,特别是在期刊初审阶段。我们呼吁,学术期刊人既要有AI意识,又要有AI防范意识,对AIGC技术进行严格的监管和管理,确保其生成的内容能够符合期刊的质量标准,遵循期刊的学术规范。
一、研究背景
随着横空出世的ChatGPT进入公众视野,人工智能生成内容(AIGC)技术不断渗透到人们的生产生活中。在学术期刊出版领域,AIGC技术也开始改变我们的生产出版流程,对科研工作者、期刊编辑以及广大读者群体产生了深远影响。同人们对此新兴技术进行了热烈而广泛的讨论,探讨其为之带来利好的同时,更关注其带来的道德、法律及社会风险。其中关于AIGC技术对于出版的破坏力是科技期刊领域的重要议题之一,有研究已经明确地向我们展示了利用ChatGPT生成的英文学术摘要足以骗过期刊审稿人。所以“反AI”的工作成为国内外学术期刊同人必须要面对的现实问题,我们需要呼吁对于类ChatGPT工具生产的文本开展检测工作,以协助编辑在评审过程中发现类似的学术不端行为。为了探索国内对于AIGC的检测能力,中华医学会杂志社数字出版部门设计了本试验,以期验证AIGC生成内容对于国内学术期刊文字相似性检测系统的逃脱能力,以及编辑和国内某AI检测工具的判别能力。
二、研究方法和结果
1. 待检测文本的准备
研究组选取了100篇发表在中华医学会系列期刊中带有中文摘要的综述类文献,从中截取中文摘要以及关键词。入选的100段文字在处理后随机分为两组:原文对照组(50篇)和AI生成组(50篇)。其中对照组不做任何处理,AI生成组通过ChatGPT 4.0利用其中文文题和中文关键词信息生成摘要文本。为避免AI生成的内容出现过多特征性的文本,课题组要求文本不得出现明显的分段和表示层级性的词汇,一旦ChatGPT生成类似内容时,研究组给予新的提示词将生成的文字按照样例重新编写,直至不再出现类似词汇。
2. 文献相似性检测
将上述2组文本分别合成为2个独立文档,利用“万方数据文献相似性检测系统”对其进行检测。结果显示由ChatGPT生成的文本在相似性比例仅有6.19%,而原文对照组的文献相似比高达55.91%,说明AI写作的文本可以顺利通过文献相似性检测,也提示传统的基于文字相似性学术不端检测系统对于AIGC的文本无能为力。
3. AI 检测器与评审者人工评判
课题组将上述100段文字做成问卷表发至15名评审者,要求评审者在不借助任何工具的情况下对100篇文本进行独立判别,判别是否为人类或者ChatGPT写作。为保证入选者的水平,研究组要求入选编辑具备有丰富的经验。在发放给评审者进行评判的同时将上述文本通过国内的一款AI检测器(商品名:鉴字源,软件开发公司:南京智齿数汇科技有限公司,版本号:1.7.0)进行判别,以AI写作比例超过0.6认定为AI写作,低于0.6认定为人类写作。
结果显示,评审者对上述文本的AI写作判别,对于原文对照组,认定准确的概率为85.3%;对于AI写作组,认定准确的概率为70.4%,整体平均准确度为77.9%。AI检测工具对于原文对照组,认定准确的概率为96.0%;对于AI写作组,认定准确的概率为64.0%,整体平均准确度为81.0%。二者比较,AI检测工具整体成功率稍优于评审专家组(81.0%比77.9%),但差异不大。从判别的其他指标来分析,AI检测工具对于人类文献的判别要明显优于评审者,说明机器对于人类文字误判的情况要少。对于AI写作的判别低于评审者,但差异不明显。
三、讨论
1. AIGC 技术的发展对现有学术不端检测系统带来了极大的挑战
国外有学者的研究已经证实,AI生成的摘要能够轻松通过文字相似性检测。我们的实验进一步印证了这一发现。由ChatGPT-4.0生成的摘要整体相似度仅为6.19%,这一数据充分暴露了当前检测系统的局限性。如今涌现的AI写作工具能产生内容丰富、逻辑严密的文本,甚至在某些方面超越了大多数人类写作者,其内容的原创性和隐蔽性使得传统的基于文字相似性分析或复杂机器学习的检测系统显得力不从心。
2. 引入 AIGC 检测工具是应对学术不端的重要手段
本次实验结果表明,AI检测工具的判别能力已媲美高级编辑,能有效协助编辑初步识别人类写作内容。这一进步对学术期刊的编辑工作具有重要意义。然而,我们也观察到,AI检测工具在识别AI写作的文本方面,其准确性还无法超越高级编辑,显示AIGC检测工具仍有较长的提升和完善之路。在与课题组和评审者的深入探讨中,我们发现AI写作的文本因其复杂、拗口的语言表达,有时会被误判为“伪造”内容。而对照组中已发表的文献摘要,在经过多轮细致的修改和校对后,呈现出完美的状态。但实际上,在初审阶段,原稿常有各种语病和知识错误,在没有评审和编辑校对的情况下,辨别其真伪将更具挑战性。因此,我们坚信在采编系统中加入AI写作检测功能是至关重要的一步。
3. 面对 AIGC 滥用所致的学术诚信问题制定事前预警机制迫在眉睫
《自然》杂志在“ChatGPT应用于科学研究的5个重点问题”一文中明确指出,人工验证在科学研究中的角色是不可忽视的。我们的研究组对此表示充分认同。通过本次研究,我们确认AI检测软件具备相当的有效性。但需要强调的是,无论AI技术多么先进,学术期刊的编辑和评审团队仍需要保持审慎的态度,站在AI的对立面细致审查每一篇稿件。因此,我们认为,虽然AI检测工具具有一定的价值,但更根本的解决方案在于建立健全的科研诚信问责制度。我们需要确保每位作者都明确自己是论文质量和诚信的第一责任人,编辑和编委会团队则承担起维护科研诚信的重要角色。面对滥用AIGC的行为,必须制定明确的规范和限制,采纳更为积极、前瞻的措施,例如建立事前预警机制,力求在问题尚处萌芽状态时就将其扼制,维护学术研究的纯净和权威。
4. AIGC 的滥用与防范可能会是一场无休止的“猫鼠游戏”
作为一种先进的技术,AIGC在制作各类内容方面能够有效协助我们,大幅缩减人力资源投入,节省时间,并提高工作效率。然而,就像所有工具一样,有些人会利用它来抄袭、制造虚假数据或从事其他不诚实的行为。为了遏制这种滥用现象,我们借助基于AI的检测工具,通过对文本结构、风格和模式的分析来判断内容是否由AI生成。我们不断借助这些工具来防止AIGC技术对科研诚信的破坏力,但挑战与对策始终是相对的,“道高一尺,魔高一丈”,AIGC滥用者还是会不断升级手段以逃避检测。因此,这场“猫鼠游戏”会持续下去,我们需要持之以恒的改进和完善检测方法,以应对不断变化的挑战。
四、结语
科学技术是推动科技期刊发展的重要动力,我们无法避免新技术的出现,但也必须认识到,每一项新技术都有其潜在的风险和缺陷。今年,国家互联网信息办公室等七部委联合发布了《生成式人工智能服务管理暂行办法》,该办法明确指出,无论是提供还是使用生成式人工智能服务的一方,都应当遵守相关的法律法规,尊重社会公德,并恪守伦理道德。在推出类似的法规之后,还有更多的工作需要学术出版人去探索和执行。
我们呼吁,学术期刊人既要有“AI意识”,迎接和拥抱AI时代的到来,又要有“AI防范意识”,防范AI工具的滥用。也就是说,一方面要充分利用AIGC的优势,服务于我们的作者、专家、编辑和用户;另一方面,我们还需对AIGC技术进行严格的监管和管理,确保其生成的内容能够符合期刊的质量标准,遵循期刊的学术规范。最后,我们也需要加强对AIGC技术的了解和研究,对AIGC应用进行更深远、更广泛的探讨,寻找更好的方法来利用这项技术,以推动学术期刊的繁荣与发展。
*文字来源:沈锡宾、王立磊,中华医学会杂志社新媒体部
来源|科技期刊项目服务处