Anthropic 正在推出一项新的资助计划来解决当前人工智能基准测试实践中面临的问题,现有的基准测试限制了评估人工智能模型性能和影响力的能力。
现有的基准测试通常无法准确反映普通人使用人工智能系统的方式。它们无法捕捉到现实世界使用中的细微差别和复杂性,导致无法提供对人工智能模型性能的重要见解。
此外,许多基准都是在现代生成式人工智能出现之前开发的,这引发了人们对其相关性和适用性的质疑。
Anthropic 的资助计划
该计划旨在寻找并资助能够创建基准的第三方组织,以有效衡量人工智能模型的高级功能。
Anthropic 在其官方博客上表示:“我们对这些评估的投资旨在提升整个人工智能安全领域,提供有利于整个生态系统的宝贵工具。”
迫切需要能够更有效地评估人工智能模型的新基准,“开发高质量、与安全相关的评估仍然具有挑战性,而且需求超过了供应。”博客中补充道。
新基准的重点领域
Anthropic 的新基准将侧重于评估人工智能模型的先进能力,特别是在人工智能安全和社会影响方面。
这些基准将评估模型执行具有重大影响的任务的能力,例如网络攻击、武器增强以及通过深度伪造或错误信息操纵或欺骗个人。
此外,Anthropic 还计划开发一个“预警系统”,以识别和评估与国家安全和国防相关的人工智能风险。尽管博客文章中没有透露有关该系统的详细信息,但 Anthropic 强调了其致力于解决这些风险的承诺。
该资助计划还将支持“端到端”任务的基准研究,探索人工智能在各个领域的潜力。
这些任务包括促进科学研究、使用多种语言、减少偏见和过滤毒性。
Anthropic 打算开发新的平台,使主题专家能够进行自己的评估并开展涉及数千名用户的广泛试验。
该公司已为该计划聘请了专门的协调员,并正在探索收购或扩展具有可扩展潜力的项目的机会。
首席执行官 Dario Amodei 强调了人工智能的更广泛影响以及解决可能出现的不平等问题的彻底解决方案的必要性。
在接受《时代》杂志采访时,阿莫迪强调了寻找超越全民基本收入的解决方案的重要性,以确保人工智能技术的进步造福更广泛的公众。