在大学考试评分中，人工智能考试答案无法被人类评分员检测到

雷丁大学斯卡夫教授及其团队进行的一项开创性研究表明，在大学考试中，人工智能（AI）写的答案优于人类学生写的答案。

研究人员发现，人工智能生成的评估答案在人类评分员的评估中“ 几乎无法察觉”。这凸显了人们对学术不端行为的日益关注以及解决人工智能在教育评估中的使用的必要性。

这项研究涉及创建 33 个虚假学生身份，他们使用ChatGPT回答官方“在家考试”，这是该大学心理学学士学位的一部分。

这些由人工智能生成的答案随后与真实学生的答案一起提交以供评估。评分员对这项研究并不知情，他们给人工智能提交的答案打的分数比给人类评分员的分数要高。

事实上，83% 的人工智能提交的答案得分高于真实学生的答案。鉴于人工智能的卓越表现，这引发了对评估学生表现的公平性和准确性的重大质疑。

对人工智能使用学术不端行为的担忧

该研究令人警醒的发现引发了大学对人工智能对教育行业直接影响的担忧。

学生们越来越多地利用人工智能作弊，利用当前检测系统的不足。有人呼吁削减课程作业和论文等评估方法，而另一些人则主张在教育实践中负责任且合乎道德地整合人工智能。

UCAS 招生服务部门进行的一项调查发现，53% 的学生曾使用生成式人工智能来准备考试。然而，目前的人工智能检测软件在检测人工智能生成的内容方面基本上失败了，识别作弊行为的责任留给了人类标记者。

人工智能检测软件的“误报”率很低，这使得大学不敢指控学生作弊。这让人工评分员承担起识别人工智能生成内容的重担，而随着人工智能变得越来越复杂，识别工作也变得越来越困难。

雷丁大学开展的研究表明，当前的人工智能处理器正在通过“图灵测试”，这意味着它们可以不被经验丰富的评判者发现。

面对人工智能在评估中带来的挑战，有人呼吁大学采取积极主动的方式，在道德上拥抱人工智能。

罗素集团包括牛津大学、剑桥大学和伦敦大学学院等顶尖大学，该集团承诺允许在教学和评估中合乎道德地使用人工智能。

能够生成答案并在各种任务中提供帮助的人工智能工具可能会阻碍学生在没有人工智能帮助的情况下进行批判性思考、分析和写作的能力。

伯明翰大学法律、伦理与信息学研究员 Karen Yeung 教授表示，允许学校和大学在考试中使用人工智能可能会带来“学生技能下降”的问题。