关于AGI与ChatGPT，Stuart Russell与朱松纯这么看

　　机器之心专栏

　　机器之心编辑部

　　2023 年 2 月 13 日 AAAI SafeAI 研讨会上，加州大学伯克利分校教授 Stuart Russell 和北京通用人工智能研究院(BIGAI)朱松纯教授针对 “通用人工智能、人工智能安全” 等问题进行了一场精彩对话，本场对话由加州大学伯克利分校人类兼容人工智能中心(CHAI)执行主任 Mark Nitzberg 博士主持。

　　Mark Nitzberg：今天我们很荣幸邀请到两位人工智能的顶级专家来参与本次 SafeAI 研讨会。

　　他们分别是：Stuart Russell，加州大学伯克利分校计算机科家，类兼容人工智能中心(CHAI)主任，人工智能研究实验室指导委员会(BAIR)成员。世界经济论坛人工智能和机器人委员会副主席，AAAS Fellow，AAAI Fellow。

　　朱松纯，北京通用人工智能研究院院长，北京大学讲席教授，北京大学智能学院、人工智能研究院院长，清华大学基础科学讲席教授。

　　Mark Nitzberg：什么是 “通用人工智能”?是否有一个定义明确的测试可以确定我们何时创造了它?

　　Stuart Russell：通用人工智能被描述为可以完成人类能够完成的所有任务，但这只是一个大概的说法。我们希望通用人工智能能够做到人类无法做到的事情，例如汇总所有知识或者模拟复杂的粒子相互作用等等。

　　为了研究通用人工智能，我们可以从具体任务的基准 (Benchmarks) 转向任务环境的一般属性，比如部分可观察性、长时程、不可预测性等等，并问自己是否有能力为这些属性提供完整的解决方案。如果我们有这种能力，通用人工智能就应该能够自动地完成人类可以完成的任务，并且还有能力完成更多的任务。虽然有一些测试 (比如 BigBench) 声称可以测试通用性，但它们并没有包含那些人工智能系统无法接近的任务，例如 “你能发明一个引力波的探测器吗?”

　　朱松纯：几年前，很多人认为实现通用人工智能是一个遥不可及的目标，然而最近 ChatGPT 的火爆让大家又充满了期待，觉得通用人工智能似乎触手可及了。我在中国组建北京通用人工智能研究院 (BIGAI) 这一新型研发机构时，特别决定将 AGI 作为机构名称的一部分，以区别于专用的人工智能。通院的 “通” 字正是由 “A”“G”“I” 三个字母组成。根据“通”字发音，我们也把通用人工智能称作TongAI。

　　通用人工智能是人工智能研究的初心和终极目标。目标是实现具有自主的感知、认知、决策、学习、执行和社会协作能力，符合人类情感、伦理与道德观念的通用智能体。然而，在过去的 20-30 年中，人们用海量的分门别类的数据来一个个解决人脸识别、目标检测、文本翻译等任务，这带来了一个问题，那就是完成多少任务才算是通用?

　　我认为实现通用人工智能需要满足三个关键要求。1)通用智能体能够处理无限任务，包括那些在复杂动态的物理和社会环境中没有预先定义的任务;2)通用智能体应该是自主的，也就是说，它应该能够像人类一样自己产生并完成任务;3)通用智能体应该具有一个价值系统，因为它的目标是由价值定义的。智能系统是由具有价值系统的认知架构所驱动的。

　　Mark Nitzberg：你们认为大型语言模型(LLMs)以及其他基础型能够实现通用人工智能吗?斯坦福大学教授最近撰写的一篇论文声称，语言模型可能具有与 9 岁儿童相当的心理状态。你们对这种说法有什么看法?

　　朱松纯：虽然大型语言模型已经取得了一些惊人的进展，但如果我们比较上述三个标准，就会发现大型语言模型还不符合通用人工智能的要求。

　　1)大型语言模型在处理任务方面的能力有限，它们只能处理文本领域的任务，无法与物理和社会环境进行互动。这意味着像 ChatGPT 这样的模型不能真正 “理解” 语言的含义，因为它们没有身体来体验物理空间。中国的哲学家早就认识到 “知行合一” 的理念，即人对世界的 “知” 是建立在 “行” 的基础上的。这也是通用智能体能否真正进入物理场景和人类社会的关键所在。只有将人工智能体放置于真实的物理世界和人类社会中，它们才能切实了解并习得真实世界中事物之间的物理关系和不同智能体之间的社会关系，从而做到 “知行合一”。

　　2)大型语言模型也不是自主的，它们需要人类来具体定义好每一个任务，就像一只 “巨鹦鹉”，只能模仿被训练过的话语。真正自主的智能应该类似于 “乌鸦智能”，乌鸦能够自主完成比现如今的 AI 更加智能的任务，当下的 AI 系统还不具备这种潜能。

　　3)虽然 ChatGPT 已经在不同的文本数据语料库上进行了大规模训练，包括隐含人类价值观的文本，但它并不具备理解人类价值或与人类价值保持一致的能力，即缺乏所谓的道德指南针。

　　关于论文发现语言模型可能具有与 9 岁儿童相当的心理状态这件事，我认为这有些夸大其词了，这篇论文通过一些实验测试发现，GPT-3.5 可以正确回答 93% 的问题，相当于 9 岁儿童水平。但是，如果一些基于规则的机器也可以通过类似的测试，那我们可以说这些机器就有心智理论了吗?即使 GPT 能够通过这个测试，也只是体现了它具备通过这个心智理论测试的能力，并不能说明它具有心智理论，同时我们也要反思：用这些传统测试任务来验证机器是否发展出心智理论的做法是否严谨合法?为何机器可以不用心智理论就能完成这些任务?

　　Stuart Russell：在 1948 年的一篇论文中，图灵提出了从一个巨大的查找表中生成智能为的问题。这并不实际，因为如果要生成 2000 个单词，就需要一个包含约 10^10000 个条目的表来存储所有的可能序列，就像利用 transformer 的大型语言模型的窗口大小一样。这样的系统可能看起来非常聪明，但实际上它缺乏心理状态和推理过程(经典人工智能系统的基本意义)。

　　实际上，并没有证据表明 ChatGPT 拥有任何心理状态，更不用说类似于 9 岁孩子的心理状态了。LLMs 缺乏学习和表达复杂概括的能力，这就是为什么它们需要大量的文本数据，远远超过任何 9 岁孩子所能接受的范围，而且它们仍然会产生错误。这就好像一个下棋程序，通过识别以前大师级比赛中的相似棋步序列(如 d4、c6、Nc3 等)，然后输出该序列中的下一步棋。尽管大多数情况下你会认为它是一个大师级的棋手，但是它会偶尔下出违规的棋步，因为它并不知道棋盘和棋子，也不知道目标是把对手将死。

　　在某种程度上，ChatGPT 在每个领域都是如此。我们不确定是否有任何领域是它真正理解的。一些错误可能会被修正，但这就像修正对数函数值表中的错误一样。如果一个人只理解 “log” 是指 “第 17 页表格中的数值”，那么修正错别字并不能解决这个问题。这张表还没有涵盖 “对数” 的含义和定义，因此它根本无法推断。用更多的数据扩大表的规模并不能解决这个问题的根本。

　　Mark Nitzberg：Stuart，你是最早警告我们通用人工智能给人生存带来风险的人之一，认为它像核能源。为什么你会这样认为?我们怎样才能防止这种情况?松纯，你最关心的来自人工智能的风险是什么?

　　Stuart Russell：事实上，图灵是最早提出警告的人之一。他在 1951 年说道：“一旦机器开始思考，很快就能超越我们。因此，在某个时候，我们应该期望机器能够被掌控。” 因为当一个比人类更强大的智能体出现时，人类很难维持权力，特别是当这些智能体具有不正确或不完整的目标时。

　　如果有人认为现在考虑这些风险是危言耸听，你可以直接问他们：你如何在比人类更强大的智能体面前永远保持权力?我很想听听他们的回答。此外，在人工智能领域，还有一些人试图回避这个问题，否认 AGI 的可实现性，却没有提供任何证据。

　　欧盟人工智能法案中定义了一种标准的人工智能系统，它们能够根据人类定义的目标，实现这些目标。有人告诉我，这个标准来自经合组织，经合组织的人告诉我这来自我的教科书早期版本。现在，我认为标准的人工智能系统这一定义从根本上是有缺陷的，因为我们无法完全准确地说明我们希望人工智能在现实世界中做什么，也无法准确描述我们希望未来是什么样子。一个追求不正确目标的人工智能系统将会带来我们不想要的未来。

　　社交媒体中的推荐系统提供了一个例子 —— 推荐系统试图最大限度地提高点击率或参与度，它们已经学会了通过操纵人类来做到这一点，通过一连串的提示将人类变成更可预测的、显然是更极端的自己的版本。让人工智能变得 “更好” 只会让人类的结果变得更糟。

　　相反，我们需要建立人工智能系统，1)只以人类利益为目标，2)明确它们不知道这意味着什么。由于人工智能不了解人类利益的真正含义，它必须对人类的偏好保持不确定性，以确保我们对它保持控制。当机器不确定人类的偏好时，机器应该可以被关闭。一旦人工智能的目标不再有任何不确定性，人类就成了犯错的人，机器将不会再被关闭。

　　朱松纯：如果通用人工智能成为现实，从长远来看，它们可能会对人类的生存成威胁。我们可以通过回顾漫长的智能进化史推测到，通用人工智能的诞生几乎是不可避免的。

　　现代科学研究表明，地球上的生命体在不断进化，从无机物到有机物、单细胞、多细胞生物，再到植物、动物，最后进化到人类这样的智慧生物。这揭示了从 “物理” 到 “智能” 是一个连续的演化过程。从无生命的物体到有生命的智能，边界在哪里?这个问题非常重要，因为它关乎如何理解与定义未来社会与我们共存的 “智能体”，我认为这个答案和 “生命度” 相关，从无生命到简单生命体再到复杂智能体，“生命度” 越来越大，“智能” 也越来越复杂，这是一个连续的频谱，我们没有理由认为人类会是这个进化频谱的终点，这也预示了未来通用智能体超过人类是有可能的。

　　为了预防未来的通用人工智能给人类带来威胁，我们可以逐步放开通用智能体的能力空间和价值空间。就像我们面对机器人这样，一开始把它关在 “笼子” 里，慢慢打开权限，现在特定路段已经出现了无人驾驶车辆。我们可以先将人工智能系统的适用场合和行动空间限制在特定区域内。随着我们对机器的信任的增加，确认 AI 系统安全可控后，再逐步给予它们更大的空间。另外，我们应该促进算法决策过程的透明度。如果我们能够外显地表示通用人工智能的认知架构，从而知道它是如何工作的，就能更好地控制它。

　　Mark Nitzberg：Stuart，在你的研究工作中，有哪些方向可以看作是对齐研究?

　　Stuart Russell：我们在 CHAI 的核心目标是为了实现上述的愿景，即构建一个能够处理目标不确定性的人工智能系统。已有的方法，可能除了模仿学习，都向人工智能系统事先假定了一个固定已知的目标，所以这些方法可能会需要被重新设计。

　　简言之，我们正在尝试模拟一个多人和多机器互动的系统。由于每个人都有自的偏好，但机器可以影响多人，因此我们将机器的效用函数定义为人的效用函数的总和。但是，我们面临三个问题。

　　第一个问题是如何将不同人的偏好聚合起来，以便机器能够理解和满足大多数人的需求。有人提出加法可能是一个好的聚合函数，因为每个人享有相同的权重，并且具有很好的形式感，这在经济学家 John Harsanyi 和其他人的工作中被很好地论证。但肯定还有别的观点。

　　第二个问题是我们如何表征偏好结构的丰富性，即对宇宙的所有可能未来的分布的排序，这些是非常复杂的数据结构，在人脑和机器都没有被外显地表征。因此，我们需要一些方法来对偏好进行有效地排序、分解和组合。

　　目前有一些 AI 研究试图利用所谓的 “CP nets”来表征一些复杂的效用函数，CP Nets 对多属性效用函数的分解方式与贝叶斯网对复杂的多变量概率模型的分解方式大致相同。然而，人工智能并没有真正研究人类幸福感的内容，鉴于该领域声称要帮助人类，这一点令人惊讶。在经济学、社会学、发展学等领域，确实有研究人类幸福感的学术社区，他们倾向于编制诸如健康、安全、住房、食物等因素的清单，这些清单主要是为了与其他人类沟通优先事项和公共政策，可能没有捕捉到许多” 显而易见 ” 的未说明的偏好，如 “想要腿脚健全”。据我所知，这些研究人员还没有开发出一种科学理论来预测人类行为，但是对于人工智能来说，我们需要完整的人类偏好结构，包括所有可能的未说明偏好;如果我们错过了任何重要的东西，可能会导致问题。

　　第三个问题是如何从人类行为中推断出偏好，并表征人类偏好的可塑性。如果偏好随着时间的推移而改变，那么人工智能是为谁工作 —— 今天的你还是明天的你?我们不希望人工智能改变我们的偏好，以符合容易实现的世界状态，这样会导致世界失去多样性。

　　除了这些基本的研究问题，我们还在思考如何在更广泛的基础上重建所有那些假定人工智能系统在前期被赋予完全已知目标的人工智能技术(搜索算法、规划算法、动态编程算法、强化学习等等)。新系统的一个关键属性是系统运行时从人类流向机器的偏好信息。这在现实世界中是非常正常的。例如，我们要求出租车司机 “带我们去机场”。这实际上是一个比我们的真实目标更广泛的目标。当我们在一英里之外时，司机会问我们需要哪个航站楼。当我们越来越近时，司机可能会问哪家航空公司，以便把我们送到正确的门口。(但不是确切的离门多少毫米!) 所以我们需要定义最适合于某一类算法的不确定性和偏好转移的形式;例如，搜索算法使用一个成本函数，所以机器可以假设该函数的界限，并询问人类两个行动序列中哪个更合适，从而完善该界限。

　　一般来说，机器总是有关于人类偏好的大量不确定性;由于这个原因，我认为在这个领域经常使用的术语 “对齐” 可能会产生误导，因为人们倾向于认为它意味着 “首先完全对齐机器和人类的偏好，然后选择做什么”。可能事实上并不是如此。

　　Mark Nitzberg：松纯，请介绍一下你们做的价值对齐研究。

　　朱松纯：谈论价值对齐，首先要探讨一下 “价值”，我认为当下的人工智能研究应该由数据驱动转变为价值驱动。人的各种智能行为是由价值所驱动的，人能够快速理解和学习价值。例如，当你坐在椅子上时，我们可以通过椅子和身体接触的受力分析，观察平衡态，从而隐含地推断出 “舒适性” 这一价值。这一价值人可能无法用语言来准确描述，但和椅子交互却可以表达。我们还可以通过叠衣服的方式来了解人的美学价值。

　　此外我认为价值系统有一套统一的表征，目前偏好的丰富性是因为统一的价值在不同条件上的映射。我们的价值会随着情况的不同而改变，举个例子，一辆公交车到站，如果你在等车，你可能希望公交车停留时间长一点，让你上去;而如果你在车上，你可能希望门立刻关上。人工智能系统必须能够快速地适应我们偏好的改变，因此，价值驱动的认知架构对人工智能而言是必不可少的。

　　为达到人类认知水平的通用智能，我们在 BIGAI 的研究中纳入了价值对齐这一要素，并构建了包含四个对齐的人机交互系统。第一个对齐是一个共享的表征，包括对世界的共同理解。第二个对齐是共享的核心知识，如物理常识、因果链和逻辑等。第三个对齐是共享的社会规范，规定了 AI 要遵循人类社会的规范，保持适当的行为。第四个对齐是共享的价值观，即 AI 需要与人类的道德原则保持一致。

　　我们发表了实时双向人机价值对齐研究(Bidirectional human-robot value alignment)。这项研究提出了一个可解释的人工智能系统。在该系统中，一组机器人通过与用户的即时交互并通过用户的反馈来推断用户的价值目标，同时通过 “解释” 将其决策过程传达给用户，让用户了解机器人做出判断的价值依据。此外，该系统通过推测用户的内在价值偏好，并预测了最佳的解释方式，生成用户更容易理解的解释。

　　Mark Nitzberg：AI 系统的哪些特征让我们判断它们不会通向通用人工智能?

　　朱松纯：我们如何判断一个 AI 是否是通用人工智能，其中一个重要的因素就是我们对它的信任程度。信任有两个层次：一是对 AI 能力的信任，二是对 AI 是否对人的情感和价值有益的信任。比如，现在的人工智能系统可以很好地识别图片，但要建立信任，它们必须是可解释和可理解的。一些技术很厉害，但是不能被解释，也会被认为是不可信的。这在武器或航空系统等领域尤其重要，因为在这些领域犯错的代价很严重。在这种情况下，信任的情感维度更为重要，AI 需要解释它们是如何做出决策的，才能被人类信任。因此我们需要通过人机之间的迭代、交流、协作增进互相理解，进而达成共识，产生 “有依据的信任”(Justified Trust)。

　　进一步思考，追问什么是通用人工智能本质上就是在追问什么是 “人”?每个人都是一个通用智能体。我们提出了一套 UV 双系统驱动的理论来解释通用人工智能体。U 系统是势能函数，包含了智能体所掌握的客观物理定律、社会规范;V 系统包含了智能体的价值函数的集合，参考了马斯洛的需求层次理论和发展心理学的研究，我们将价值进行了大致分类。基于 UV 双系统，我们尝试对通用人工智能的发展水平进行测评，形成 L1 到 L5 的不同标准，这套测试系统将于今年发布。

　　Stuart Russell：目前的人工智能系统没有通用性，因为电路无法很好地捕捉通用性。我们已经在大型语言模型很难学习算术的基本规则中看到了这一点。我们最新的研究发现，尽管有数百万个例子，之前击败人类的人工智能围棋系统还是无法正确理解 “大龙” 和 “死活” 的概念，我们作为业余围棋选手的研究员开发出了一套策略，战胜了围棋程序。

　　如果我们有信心人工智能对人类有益，那么我们就需要知道它是如何工作的。我们需要将人工智能系统建立在一个语义上可组合的基质 (substrate) 上，该基质由明确的逻辑和概率理论支持，从而作为一个良好的基础，以将来实现通用人工智能。创建这种系统的一个可能方法是概率编程，也是我们在 CHAI 最近希望探索的。看到松纯也在 BIGAI 探索相似的方向，让我感到很受鼓舞。