Anthropic introduserer et nytt finansieringsinitiativ for å takle problemene som står overfor gjeldende AI-benchmarking-praksis, der den eksisterende benchmarken begrenser muligheten til å vurdere ytelsen og innflytelsen til AI-modeller.
Eksisterende benchmarks mangler ofte å representere nøyaktig hvordan en gjennomsnittlig person bruker AI-systemer. De klarer ikke å fange opp nyansene og kompleksiteten ved bruk i den virkelige verden, noe som fører til begrenset evne til å gi betydelig innsikt i AI-modellytelse.
I tillegg ble mange av disse benchmarkene utviklet før bruken av moderne generativ AI, noe som reiser spørsmål om deres relevans og anvendelighet.
Anthropics finansieringsinitiativ
Programmet tar sikte på å identifisere og finansiere tredjepartsorganisasjoner som er i stand til å lage benchmarks som effektivt kan måle avanserte evner i AI-modeller.
"Vår investering i disse evalueringene er ment å heve hele feltet av AI-sikkerhet, og gi verdifulle verktøy som gagner hele økosystemet," publiserte Anthropic på sin offisielle blogg .
Nødvendigheten av nye benchmarks som er i stand til å effektivt evaluere AI-modeller mer nøyaktig, er presserende, "Å utvikle høykvalitets, sikkerhetsrelevante evalueringer er fortsatt utfordrende, og etterspørselen overgår tilbudet." lagt til i bloggen.
Fokusområder for nye benchmarks
Anthropics nye benchmarks vil fokusere på å evaluere AI-modellers avanserte evner, spesielt i forhold til AI-sikkerhet og samfunnsmessige implikasjoner.
Disse referansene vil vurdere en modells evne til å utføre oppgaver som har betydelige implikasjoner, slik som nettangrep, våpenforbedring og manipulering eller bedrag av enkeltpersoner gjennom dype forfalskninger eller feilinformasjon.
Videre har Anthropic som mål å utvikle et «tidlig varslingssystem» for å identifisere og vurdere AI-risikoer knyttet til nasjonal sikkerhet og forsvar. Selv om detaljer om dette systemet ikke avsløres i blogginnlegget, understreker Anthropic sin forpliktelse til å håndtere disse risikoene.
Finansieringsprogrammet vil også støtte forskning på benchmarks for «ende-til-ende»-oppgaver, og utforske AIs potensial på ulike domener.
Disse oppgavene inkluderer å legge til rette for vitenskapelig forskning, snakke på en rekke språk, redusere fordommer og filtrere ut toksisitet.
Anthropic har til hensikt å utvikle nye plattformer som gir fageksperter mulighet til å generere sine egne vurderinger og gjennomføre omfattende forsøk som involverer tusenvis av brukere.
Selskapet har ansatt en dedikert koordinator for dette initiativet og utforsker muligheter for å anskaffe eller utvide prosjekter med skalerbarhetspotensial.
Administrerende direktør Dario Amodei har lagt vekt på den bredere virkningen av AI og nødvendigheten av grundige løsninger for å takle mulige ulikhetsproblemer.
I et intervju med Time Magazine fremhevet Amodei viktigheten av å finne løsninger utover Universal Basic Income for å sikre at fremskritt innen AI-teknologi kommer den bredere offentligheten til gode.