Anthropic 正在推出一項新的融資計劃,以解決當前人工智慧基準測試實踐所面臨的問題,其中現有基準限制了評估人工智慧模型的性能和影響力的能力。
現有的基準通常無法準確代表普通人如何使用人工智慧系統。它們無法捕捉現實世界使用的細微差別和複雜性,導致對人工智慧模型性能提供重要見解的能力有限。
此外,其中許多基準是在現代生成人工智慧出現之前開發的,引發了對其相關性和適用性的質疑。
Anthropic 的資助計劃
該計劃旨在識別並資助有能力創建基準的第三方組織,這些基準可以有效衡量人工智慧模型的高級功能。
Anthropic 在其官方部落格上表示:“我們對這些評估的投資旨在提升整個人工智慧安全領域,提供有益於整個生態系統的有價值的工具。”
迫切需要能夠更準確地有效評估人工智慧模型的新基準,“開發高品質、與安全相關的評估仍然具有挑戰性,而且需求超過了供應。”添加到博客中。
新基準的重點領域
Anthropic 的新基準將專注於評估人工智慧模型的高級功能,特別是與人工智慧安全和社會影響相關的功能。
這些基準將評估模型執行具有重大影響的任務的能力,例如網路攻擊、武器增強以及透過深度偽造或錯誤訊息操縱或欺騙個人。
此外,Anthropic的目標是開發一個「預警系統」來識別和評估與國家安全和國防相關的人工智慧風險。雖然博文中沒有披露有關該系統的詳細信息,但 Anthropic 強調其致力於解決這些風險。
該資助計畫還將支持「端到端」任務基準的研究,探索人工智慧在各個領域的潛力。
這些任務包括促進科學研究、使用多種語言、減少偏見和過濾毒性。
Anthropic 打算開發新平台,使主題專家能夠產生自己的評估,並進行涉及數千名用戶的廣泛試驗。
該公司已為此計劃聘請了一名專門協調員,並正在探索收購或擴展具有可擴展潛力的專案的機會。
執行長達裡奧·阿莫迪強調了人工智慧的更廣泛影響,以及採取徹底解決方案來解決可能的不平等問題的必要性。
在接受《時代》雜誌採訪時,阿莫迪強調了尋找全民基本收入之外的解決方案的重要性,以確保人工智慧技術的進步惠及更廣泛的公眾。