Anthropic は、既存のベンチマークでは AI モデルのパフォーマンスと影響を評価する能力が制限されるという、現在の AI ベンチマーク手法が直面している問題に取り組むために、新たな資金調達イニシアチブを導入しています。
既存のベンチマークは、平均的な人が AI システムをどのように使用しているかを正確に表すには不十分であることがよくあります。実際の使用状況のニュアンスや複雑さを捉えることができず、AI モデルのパフォーマンスに関する重要な洞察を提供する能力が限られています。
さらに、これらのベンチマークの多くは、現代の生成 AI が登場する前に開発されたため、その関連性と適用性について疑問が生じています。
アントロピックの資金調達イニシアチブ
このプログラムは、AI モデルの高度な機能を効果的に測定できるベンチマークを作成できるサードパーティ組織を特定し、資金を提供することを目的としています。
「これらの評価への当社の投資は、AIの安全性の分野全体を向上させ、エコシステム全体に利益をもたらす貴重なツールを提供することを目的としている」とアントロピックは公式ブログで発表した。
AIモデルをより正確に、効果的に評価できる新しいベンチマークの必要性が急務であり、「高品質で安全性に関連した評価の開発は依然として困難であり、需要が供給を上回っている」とブログには記されている。
新しいベンチマークの重点分野
Anthropic の新しいベンチマークは、特に AI のセキュリティと社会的影響に関連して、AI モデルの高度な機能を評価することに重点を置いています。
これらのベンチマークは、サイバー攻撃、武器の強化、ディープフェイクや誤情報による個人の操作や欺瞞など、重大な影響を及ぼすタスクを実行するモデルの能力を評価します。
さらに、Anthropic は国家安全保障と防衛に関連する AI リスクを特定し評価するための「早期警告システム」の開発を目指しています。このシステムの詳細はブログ記事では明らかにされていませんが、Anthropic はこれらのリスクに対処する取り組みを強調しています。
この資金提供プログラムは、さまざまな分野における AI の可能性を探る「エンドツーエンド」タスクのベンチマークの研究も支援します。
これらのタスクには、科学的研究の促進、多数の言語での会話、偏見の軽減、毒性の除去などが含まれます。
Anthropic は、各分野の専門家が独自の評価を生成し、何千人ものユーザーを巻き込んだ大規模な試験を実施できるようにする新しいプラットフォームを開発する予定です。
同社はこの取り組みのために専任のコーディネーターを雇用し、拡張の可能性のあるプロジェクトを獲得または拡大する機会を模索しています。
CEOのダリオ・アモデイ氏は、AIのより広範な影響と、起こり得る不平等の問題に取り組むための徹底した解決策の必要性を強調した。
アモデイ氏はタイム誌のインタビューで、AI技術の進歩が広く国民に利益をもたらすようにするために、ユニバーサル・ベーシック・インカムを超えた解決策を見つけることの重要性を強調した。