OpenAI的超对齐研究小组在控制超人类人工智能方面取得进展

控制超人类人工智能的挑战

OpenAI研究员Leopold Aschenbrenner警告称，超人类人工智能模型正在迅速接近，具有巨大的能力，可能非常危险。Superalignment研究团队成立于7月，旨在开发控制和引导这些先进AI系统的方法。OpenAI已将五分之一的计算能力投入到该项目中，承认有必要解决超人类人工智能可能带来的潜在风险。

监督作为解决方案

OpenAI的研究人员已经探索了监督的概念，以引导像ChatGPT背后的语言模型GPT-4这样的AI系统。目前，人类向AI系统提供反馈以提高其帮助性并减少有害输出。然而，随着人工智能变得更加强大，人类可能难以提供有效的反馈。OpenAI的实验已经测试了自动化监督过程的方法，确保更强大的AI模型能够从较弱的模型的指导中受益，而不会损害其性能。

有希望的结果和未来研究

OpenAI的研究论文重点介绍了使用GPT-2文本生成器教授GPT-4的实验，证明了当强大的模型受较弱的模型引导时，其能力会降低。研究人员探索了两种方法来解决这个问题。第一种方法是训练逐渐变大的模型以最小化性能损失。第二种方法是对GPT-4进行算法调整，使其能够在不显著损害性能的情况下遵循较弱模型的引导。虽然这些方法并不完美，但它们为进一步控制超人类人工智能的研究提供了一个起点。

OpenAI与Axel Springer合作提供媒体内容摘要

OpenAI在管理超智能AI系统方面取得进展