OpenAI对于先进AI模型的准备框架
快速导读:OpenAI引入了准备框架来应对未来先进AI模型所带来的风险。该框架包括评估、评分卡和缓解策略,以确保前沿模型的安全开发和部署。风险被分为网络安全、化学、生物、辐射和核(CBRN)威胁、说服力和模型自主性,并对应相应的风险级别。OpenAI将建立新的团队来实施该框架,并进行定期的压力测试、审计和红队行动。此外,该公司还旨在跟踪现实世界的滥用情况,并与外部合作伙伴合作,以降低安全风险。
评估、评分卡和缓解策略
OpenAI将持续更新评估,并为前沿模型制定评分卡,在训练过程中将其推向极限。评估结果将有助于评估风险,并衡量缓解策略的有效性。目标是识别不安全的领域,并有效地缓解揭示出的风险。模型必须达到高分或以下的后缓解分数,才能进一步进行,只有中等或更低风险级别的模型才能部署。
实施和安全咨询小组
准备团队将进行技术工作,包括检查前沿模型的极限,运行评估和综合报告。这些报告将由安全咨询小组进行审查,并提交给领导层和董事会。该框架还涉及定期的演练,以在业务和文化中进行压力测试,外部审计和持续的红队行动,以确保鲁棒性。
追踪滥用和合作
OpenAI将利用其知识和专业知识来跟踪AI模型在现实世界中的滥用情况,并与外部合作伙伴合作,以降低安全风险。该公司旨在超越假设情景,关注具体的测量和数据驱动的预测。通过投资严格的能力评估和预测,OpenAI旨在预测新兴风险,并在实现其使命方面保持领先地位。
Tags