Anthropic introducerer et nyt finansieringsinitiativ for at tackle de problemer, som nuværende AI-benchmarking-praksis står over for, hvor det eksisterende benchmark begrænser muligheden for at vurdere AI-modellers ydeevne og indflydelse.
Eksisterende benchmarks mangler ofte nøjagtigt at repræsentere, hvordan den gennemsnitlige person bruger AI-systemer. De formår ikke at fange nuancerne og kompleksiteten af brug i den virkelige verden, hvilket fører til begrænset evne til at give betydelig indsigt i AI-modellens ydeevne.
Derudover blev mange af disse benchmarks udviklet før fremkomsten af moderne generativ AI, hvilket rejser spørgsmål om deres relevans og anvendelighed.
Anthropics finansieringsinitiativ
Programmet sigter mod at identificere og finansiere tredjepartsorganisationer, der er i stand til at skabe benchmarks, der effektivt kan måle avancerede kapaciteter i AI-modeller.
"Vores investering i disse evalueringer er beregnet til at løfte hele feltet af AI-sikkerhed og levere værdifulde værktøjer, der gavner hele økosystemet," offentliggjorde Anthropic på sin officielle blog .
Nødvendigheden af nye benchmarks, der er i stand til effektivt at evaluere AI-modeller mere præcist, er presserende, "At udvikle sikkerhedsrelevante evalueringer af høj kvalitet er fortsat udfordrende, og efterspørgslen overstiger udbuddet." tilføjet i bloggen.
Fokusområder for nye benchmarks
Anthropics nye benchmarks vil fokusere på at evaluere AI-modellers avancerede muligheder, især i forhold til AI-sikkerhed og samfundsmæssige implikationer.
Disse benchmarks vil vurdere en models evne til at udføre opgaver, der har betydelige implikationer, såsom cyberangreb, våbenforbedring og manipulation eller bedrag af enkeltpersoner gennem deepfakes eller misinformation.
Ydermere sigter Anthropic på at udvikle et "early warning system" til at identificere og vurdere AI-risici relateret til national sikkerhed og forsvar. Selvom detaljer om dette system ikke afsløres i blogindlægget, understreger Anthropic sin forpligtelse til at håndtere disse risici.
Finansieringsprogrammet vil også støtte forskning i benchmarks for "end-to-end" opgaver, der udforsker AI's potentiale på forskellige domæner.
Disse opgaver omfatter facilitering af videnskabelig forskning, tale på adskillige sprog, mindskelse af fordomme og frafiltrering af toksicitet.
Anthropic har til hensigt at udvikle nye platforme, der giver fageksperter mulighed for at generere deres egne vurderinger og udføre omfattende forsøg, der involverer tusindvis af brugere.
Virksomheden har ansat en dedikeret koordinator til dette initiativ og undersøger muligheder for at erhverve eller udvide projekter med skalerbarhedspotentiale.
CEO Dario Amodei har understreget den bredere virkning af AI og nødvendigheden af grundige løsninger til at tackle mulige ulighedsproblemer.
I et interview med Time Magazine fremhævede Amodei vigtigheden af at finde løsninger ud over Universal Basic Income for at sikre, at fremskridt inden for AI-teknologi gavner den bredere offentlighed.