OpenAI发布了应对AI模型的“灾难性风险”框架

快速导读:OpenAI推出了一个框架,用于评估和减轻其日益强大的人工智能(AI)模型所带来的“灾难性风险”。该框架包括一个准备团队,将监控AI技术的使用,并在出现潜在危险时发出警告。OpenAI旨在防止恶意行为者利用其模型从事开发武器、传播恶意软件或进行社会工程攻击等有害活动。该公司还计划监测新兴风险,并利用数据驱动的预测来增强其准备工作。

监测和减轻风险

OpenAI的准备团队将密切监测其AI模型的能力,并在检测到任何危险信号时发出警告。该团队将评估当前威胁之外的风险,并制定具体的测量和预测。OpenAI承认,对于来自AI的灾难性风险的科学研究尚不足够,并旨在解决这一差距。该公司将可能导致重大经济损失或对个人造成伤害的风险归类为灾难性风险。

风险类别和部署决策

该框架采用矩阵方法,包括四个风险类别:网络安全、说服力、模型自主性以及化学、生物、放射性和核威胁。每个AI模型将被分配一个从低到关键的风险评分,无论在实施减轻措施之前还是之后。风险评分为中等或更低的模型将被部署,而评分较高的模型将不会被部署。OpenAI的首席执行官将做出日常决策,但公司董事会将获得风险调查结果并有权否决决策。

合作和整体安全方法

OpenAI的准备团队将与可信AI团队合作进行第三方审计和安全演练。该公司已经建立了三个团队来解决安全问题:准备团队、安全团队和超级对齐团队。整体安全方法包括努力减轻偏见、幻觉和滥用问题。OpenAI还与其他14家技术公司一起做出了自愿承诺,共同建立一个安全可信的AI生态系统。此外,OpenAI还与其他科技巨头合作,组建了一个行业监管机构,以监管AI的发展。