OpenAI的超对齐研究小组在控制超人类人工智能方面取得进展

控制超人类人工智能的挑战

OpenAI研究员Leopold Aschenbrenner警告称,超人类人工智能模型正在迅速接近,具有巨大的能力,可能非常危险。Superalignment研究团队成立于7月,旨在开发控制和引导这些先进AI系统的方法。OpenAI已将五分之一的计算能力投入到该项目中,承认有必要解决超人类人工智能可能带来的潜在风险。

监督作为解决方案

OpenAI的研究人员已经探索了监督的概念,以引导像ChatGPT背后的语言模型GPT-4这样的AI系统。目前,人类向AI系统提供反馈以提高其帮助性并减少有害输出。然而,随着人工智能变得更加强大,人类可能难以提供有效的反馈。OpenAI的实验已经测试了自动化监督过程的方法,确保更强大的AI模型能够从较弱的模型的指导中受益,而不会损害其性能。

有希望的结果和未来研究

OpenAI的研究论文重点介绍了使用GPT-2文本生成器教授GPT-4的实验,证明了当强大的模型受较弱的模型引导时,其能力会降低。研究人员探索了两种方法来解决这个问题。第一种方法是训练逐渐变大的模型以最小化性能损失。第二种方法是对GPT-4进行算法调整,使其能够在不显著损害性能的情况下遵循较弱模型的引导。虽然这些方法并不完美,但它们为进一步控制超人类人工智能的研究提供了一个起点。