AI-eksamensvar var uopdagelige af menneskelige markører i universitetseksamensbedømmelsen

I en banebrydende undersøgelse udført af Prof Scarfe og hans team ved University of Reading, er det blevet afsløret, at svar skrevet af kunstig intelligens (AI) overgik dem, der blev skrevet af menneskelige studerende ved universitetseksamener.

Forskerne fandt ud af, at AI-genererede vurderingssvar var " stort set uopdagelige ", når de blev evalueret af menneskelige markører. Dette understreger den voksende bekymring over akademisk uredelighed og behovet for at adressere brugen af kunstig intelligens i uddannelsesvurderinger.

Undersøgelsen involverede oprettelsen af 33 falske studenteridentiteter, som brugte ChatGPT til at besvare officielle "hjemmeeksamener" som en del af universitetets BSc-grad i psykologi.

Disse AI-genererede svar blev efterfølgende indsendt sammen med svarene skrevet af faktiske studerende til evaluering. Markørerne, som ikke var klar over undersøgelsen, tildelte højere karakterer til AI-indsendelserne end deres menneskelige modstykker.

Faktisk fik 83 % af AI-indleveringerne bedre karakterer end de rigtige elevers svar. Dette rejser væsentlige spørgsmål om retfærdigheden og nøjagtigheden af at vurdere elevernes præstation i lyset af AI's overlegne præstation.

Bekymringer over akademisk uredelighed med brug af kunstig intelligens

Undersøgelsens opvågnende resultater vækker bekymring på universiteterne om den umiddelbare indvirkning af AI på uddannelsessektoren.

Studerende bruger i stigende grad kunstig intelligens til at snyde og drager fordel af de nuværende detektionssystemers utilstrækkeligheder. Der har været opfordringer til at skære ned på vurderingsmetoder såsom kurser og essays, mens andre argumenterer for ansvarlig og etisk integration af AI i uddannelsespraksis.

En undersøgelse udført af Ucas Admissions Service viste, at 53% af eleverne har brugt generativ AI til at forberede sig til eksamen. Imidlertid har den nuværende AI-detektionssoftware stort set været mislykket med at opdage AI-genereret indhold, hvilket overlader ansvaret for at identificere snydpraksis til menneskelige markører.

AI-detektionssoftwaremangler

Den lave andel af "falske positive" produceret af AI-detektionssoftware gør universiteter tøvende med at anklage studerende for snyd. Dette lægger byrden på menneskelige markører til at identificere AI-genereret indhold, hvilket bliver stadig sværere, efterhånden som AI bliver mere sofistikeret.

Undersøgelsen udført af University of Reading viser, at nuværende AI-processorer består "Turing-testen", hvilket betyder, at de kan bestå uopdaget af erfarne dommere.

Opfordrer universiteter til at omfavne AI etisk

Midt i de udfordringer, som AI udgør i vurderinger, er der opfordringer til universiteterne om at tage en proaktiv tilgang til at omfavne AI etisk.

Russell Group, som omfatter topuniversiteter som Oxford, Cambridge og University College London, har lovet at tillade etisk brug af kunstig intelligens i undervisning og vurderinger.

Risici ved afkvalificering af elever med brug af kunstig intelligens

Tilgængeligheden af AI-værktøjer, der kan generere svar og yde assistance til forskellige opgaver, kan hæmme elevernes evne til at engagere sig i kritisk tænkning, analyse og skrivning uden AI-hjælp.

Prof Karen Yeung, en stipendiat i jura, etik og informatik ved University of Birmingham, sagde, at det at tillade brugen af AI i eksamener på skoler og universiteter kunne skabe sine egne problemer med at "afkvalificere" elever.