HIX AI
Kollapse
Enkel
Hjem > Oppdage > Antropiske utfordringer nåværende AI-benchmarking-praksis med nytt finansieringsinitiativ

Antropiske utfordringer nåværende AI-benchmarking-praksis med nytt finansieringsinitiativ

Skrevet av
ArticleGPT

Gjennomgått og faktasjekket av HIX.AI-teamet

2 min lesingJul 02, 2024
Antropiske utfordringer nåværende AI-benchmarking-praksis med nytt finansieringsinitiativ

I et nøtteskall

Anthropics nye program, avduket på mandag, vil distribuere midler til eksterne organisasjoner som kan utvikle benchmarks for effektivt å vurdere AI-modellers ytelse og effekt.

Anthropic introduserer et nytt finansieringsinitiativ for å takle problemene som står overfor gjeldende AI-benchmarking-praksis, der den eksisterende benchmarken begrenser muligheten til å vurdere ytelsen og innflytelsen til AI-modeller.

Eksisterende benchmarks mangler ofte å representere nøyaktig hvordan en gjennomsnittlig person bruker AI-systemer. De klarer ikke å fange opp nyansene og kompleksiteten ved bruk i den virkelige verden, noe som fører til begrenset evne til å gi betydelig innsikt i AI-modellytelse.

I tillegg ble mange av disse benchmarkene utviklet før bruken av moderne generativ AI, noe som reiser spørsmål om deres relevans og anvendelighet.

Anthropics finansieringsinitiativ

Programmet tar sikte på å identifisere og finansiere tredjepartsorganisasjoner som er i stand til å lage benchmarks som effektivt kan måle avanserte evner i AI-modeller.

"Vår investering i disse evalueringene er ment å heve hele feltet av AI-sikkerhet, og gi verdifulle verktøy som gagner hele økosystemet," publiserte Anthropic på sin offisielle blogg .

Nødvendigheten av nye benchmarks som er i stand til å effektivt evaluere AI-modeller mer nøyaktig, er presserende, "Å utvikle høykvalitets, sikkerhetsrelevante evalueringer er fortsatt utfordrende, og etterspørselen overgår tilbudet." lagt til i bloggen.

Fokusområder for nye benchmarks

Anthropics nye benchmarks vil fokusere på å evaluere AI-modellers avanserte evner, spesielt i forhold til AI-sikkerhet og samfunnsmessige implikasjoner.

Disse referansene vil vurdere en modells evne til å utføre oppgaver som har betydelige implikasjoner, slik som nettangrep, våpenforbedring og manipulering eller bedrag av enkeltpersoner gjennom dype forfalskninger eller feilinformasjon.

Videre har Anthropic som mål å utvikle et «tidlig varslingssystem» for å identifisere og vurdere AI-risikoer knyttet til nasjonal sikkerhet og forsvar. Selv om detaljer om dette systemet ikke avsløres i blogginnlegget, understreker Anthropic sin forpliktelse til å håndtere disse risikoene.

Finansieringsprogrammet vil også støtte forskning på benchmarks for «ende-til-ende»-oppgaver, og utforske AIs potensial på ulike domener.

Disse oppgavene inkluderer å legge til rette for vitenskapelig forskning, snakke på en rekke språk, redusere fordommer og filtrere ut toksisitet.

Anthropic har til hensikt å utvikle nye plattformer som gir fageksperter mulighet til å generere sine egne vurderinger og gjennomføre omfattende forsøk som involverer tusenvis av brukere.

Selskapet har ansatt en dedikert koordinator for dette initiativet og utforsker muligheter for å anskaffe eller utvide prosjekter med skalerbarhetspotensial.

Administrerende direktør Dario Amodei har lagt vekt på den bredere virkningen av AI og nødvendigheten av grundige løsninger for å takle mulige ulikhetsproblemer.

I et intervju med Time Magazine fremhevet Amodei viktigheten av å finne løsninger utover Universal Basic Income for å sikre at fremskritt innen AI-teknologi kommer den bredere offentligheten til gode.

Basert på 2 søkekilder

2 kilder

Anthropic looks to fund a new, more comprehensive generation of AI benchmarks

Anthropic is launching a program to fund the development of new types of benchmarks capable of evaluating the performance and impact of AI models, including generative models like its own Claude.

Google's Alphabet And Amazon-Backed Anthropic Lead Effort To Redefine AI Evaluation Standards

Anthropic’s new program, revealed on Monday, will allocate funds to third-party organizations capable of creating benchmarks that can effectively evaluate the performance and impact of AI models

På denne siden

  • Anthropics finansieringsinitiativ