大學考試評分中人工智慧考試答案無法被人類標記檢測到

雷丁大學斯卡夫教授及其團隊進行的一項開創性研究表明，在大學考試中，人工智慧 (AI) 寫出的答案優於人類學生寫出的答案。

研究人員發現，當由人類標記進行評估時，人工智慧產生的評估答案「幾乎無法檢測到」。這凸顯了人們對學術不端行為的日益關注以及解決人工智慧在教育評估中的使用問題的必要性。

該研究涉及創建 33 個假學生身份，他們使用ChatGPT來回答官方“家庭考試”，作為該大學心理學學士學位的一部分。

這些人工智慧產生的答案隨後與實際學生撰寫的答案一起提交以供評估。那些不知道這項研究的評分者對人工智慧提交的作品給予了比人類同行更高的評分。

事實上，83% 的人工智慧提交的答案比真實學生的答案獲得了更好的分數。鑑於人工智慧的卓越表現，這引發了關於評估學生表現的公平性和準確性的重大問題。

對人工智慧使用學術不端行為的擔憂

該研究的驚人發現引起了大學對人工智慧對教育部門直接影響的擔憂。

學生們越來越多地利用人工智慧進行作弊，利用當前檢測系統的不足。有人呼籲削減課程作業和論文等評估方法，而另一些人則主張將人工智慧負責任地和道德地融入教育實踐中。

Ucas 招生服務機構進行的一項調查發現，53% 的學生使用生成式人工智慧來準備考試。然而，目前的人工智慧檢測軟體在檢測人工智慧產生的內容方面基本上不成功，將識別作弊行為的責任留給了人類標記者。

人工智慧檢測軟體產生的「誤報」率較低，使得大學在指控學生作弊方面猶豫不決。這給人類標記者帶來了識別人工智慧生成內容的負擔，隨著人工智慧變得越來越複雜，識別人工智慧產生的內容變得越來越困難。

雷丁大學進行的研究表明，目前的人工智慧處理器正在通過“圖靈測試”，這意味著它們可以在不被經驗豐富的評審發現的情況下通過。

在人工智慧為評估帶來的挑戰中，有人呼籲大學採取積極主動的方式，在道德上擁抱人工智慧。

包括牛津大學、劍橋大學和倫敦大學學院等頂尖大學在內的羅素集團已承諾允許在教學和評估中道德地使用人工智慧。

可以產生答案並為各種任務提供幫助的人工智慧工具的可用性可能會阻礙學生在沒有人工智慧幫助的情況下進行批判性思維、分析和寫作的能力。

伯明翰大學法律、道德和資訊學研究員凱倫·楊教授表示，允許在學校和大學考試中使用人工智慧本身可能會造成學生「去技能化」的問題。