AI-eksamensvar var uoppdagelige av menneskelige markører i universitetseksamenspoeng

I en banebrytende studie utført av Prof Scarfe og hans team ved University of Reading, har det blitt avslørt at svar skrevet av kunstig intelligens (AI) overgikk de som ble skrevet av menneskelige studenter ved universitetseksamener.

Forskerne fant at AI-genererte vurderingssvar var " praktisk talt uoppdagelige " når de ble evaluert av menneskelige markører. Dette fremhever den økende bekymringen over akademisk uredelighet og behovet for å adressere bruken av AI i pedagogiske vurderinger.

Studien involverte opprettelsen av 33 falske studentidentiteter som brukte ChatGPT for å svare på offisielle "hjemmeeksamener" som en del av universitetets BSc-grad i psykologi.

Disse AI-genererte svarene ble deretter sendt inn sammen med svarene skrevet av faktiske studenter for evaluering. Markørene, som ikke var klar over studien, ga høyere karakterer til AI-innleveringene enn deres menneskelige kolleger.

Faktisk fikk 83 % av AI-innleveringene bedre karakterer enn de virkelige studentenes svar. Dette reiser betydelige spørsmål om rettferdigheten og nøyaktigheten av å vurdere elevprestasjoner i lys av AIs overlegne ytelse.

Bekymringer over akademisk uredelighet med bruk av kunstig intelligens

Studiens våkne funn vekker bekymring på universiteter om den umiddelbare effekten av AI på utdanningssektoren.

Studenter bruker i økende grad AI for å jukse, og drar nytte av mangelen på dagens deteksjonssystem. Det har vært oppfordringer til å kutte vurderingsmetoder som kurs og essays, mens andre argumenterer for ansvarlig og etisk integrering av AI i pedagogisk praksis.

En undersøkelse utført av Ucas opptakstjeneste fant at 53 % av studentene har brukt generativ AI for å forberede seg til eksamen. Nåværende AI-deteksjonsprogramvare har imidlertid stort sett ikke lykkes med å oppdage AI-generert innhold, og overlater ansvaret for å identifisere juksepraksis til menneskelige markører.

Utilstrekkelig programvare for AI-deteksjon

Den lave frekvensen av "falske positiver" produsert av AI-deteksjonsprogramvare gjør universiteter nølende med å anklage studenter for juks. Dette legger byrden på menneskelige markører for å identifisere AI-generert innhold, noe som blir stadig vanskeligere etter hvert som AI blir mer sofistikert.

Studien utført av University of Reading viser at nåværende AI-prosessorer består "Turing-testen", noe som betyr at de kan bestå uoppdaget av erfarne dommere.

Oppfordrer universiteter til å omfavne AI etisk

Midt i utfordringene som AI utgjør i vurderinger, er det oppfordringer til universiteter om å ta en proaktiv tilnærming for å omfavne AI etisk.

Russell Group, som inkluderer toppuniversiteter som Oxford, Cambridge og University College London, har lovet å tillate etisk bruk av AI i undervisning og vurderinger.

Risikoer ved å dekompetere elever med AI-bruk

Tilgjengeligheten av AI-verktøy som kan generere svar og gi assistanse i ulike oppgaver kan hindre elevenes evne til å engasjere seg i kritisk tenkning, analyse og skriving uten AI-hjelp.

Prof Karen Yeung, stipendiat i jus, etikk og informatikk ved University of Birmingham, sa at det å tillate bruk av AI i eksamener ved skoler og universiteter kan skape sine egne problemer med å "avkompetere" studenter.