OpenAI致力于防止AI毁灭人类？

　　集微网消息，据The Register报道，OpenAI表示，它正在将五分之一的计算资源用于开发机器学习技术，以阻止超级智能系统“失控”。

　　这家旧金山人工智能初创公司成立于2015年，其既定目标始终是安全地开发通用人工智能。这项技术目前还不存在，专家们对于这项技术究竟会是什么样子或何时到来存在分歧。

　　尽管如此，OpenAI打算拿出20%的处理能力，并成立一个由联合创始人兼首席科学家Ilya Sutskever领导的新部门，以某种方式防止未来机器危害人类。OpenAI之前曾提出过这个话题。

　　“超级智能将是人类发明的最具影响力的技术，可以帮助我们解决世界上许多最重要的问题，”这位未来的物种救世主本周表示。

　　“但超级智能的巨大力量也可能非常危险，并可能导致人类丧失权力，甚至人类灭绝。”

　　OpenAI相信，能够超越人类智能并压倒人类的计算机系统可能在这十年内被开发出来。

　　“管理这些风险将需要新的治理机构并解决超级智能协调的问题：我们如何确保人工智能系统比人类更聪明地遵循人类的意图?”该公司补充道。

　　已经存在使模型与人类价值观保持一致(或者至少尝试使模型保持一致)的方法。这些技术可能涉及“人类反馈强化学习”(RLHF)。通过这种方法，你基本上是在监督机器来塑造它们，使它们的行为更像人类。

　　尽管RLHF帮助ChatGPT等系统不易生成有毒语言，但它仍然会引入偏见，并且难以扩展。它通常涉及必须以不是很高的工资招募大量人员来提供模型输出的反馈——这种做法有其自身的一系列问题。

　　据称，开发人员不能依靠少数人来监管一项会影响许多人的技术。OpenAI的对齐团队正试图通过构建“一个大致达到人类水平的自动对齐研究员”来解决这个问题。OpenAI希望构建一个人工智能系统，而不是人类，让其他机器与人类价值观保持一致，而无需明确依赖人类。

　　在我们看来，这将是人工智能训练人工智能变得更像非人工智能。有点先有鸡还是先有蛋的感觉。

　　例如，这样的系统可以搜索有问题的行为并提供反馈，或者采取其他一些步骤来纠正它。为了测试该系统的性能，OpenAI表示，它可以故意训练未对齐的模型，并观察对齐AI清理不良行为的效果如何。新团队设定的目标是在四年内解决对齐问题。

　　“虽然这是一个令人难以置信的雄心勃勃的目标，我们不能保证成功，但我们乐观地认为，集中一致的努力可以解决这个问题。有许多想法在初步实验中显示出了希望，我们有越来越有用的进展指标，我们可以使用今天的模型来实证研究其中的许多问题，”该机构总结道。

　　“解决问题包括提供证据和论据，让机器学习和安全社区相信问题已经解决。如果我们对我们的解决方案没有很高的信心，我们希望我们的发现能让我们和社区做出适当的计划。 ”