ChatGPT会给世界带来意想不到的风险吗？

　　2022年以前发布的语言模型几乎没有解决心智任务的能力，但进入2022年之后，情况有了很大改变。在实验测试中，GPT-3可以解决70%的心智任务，相当于七岁儿童的表现，而GPT-3.5可以解决93%的心智任务，相当于九岁儿童的表现。 (视觉中国/图)

　　人工智能应用ChatGPT发布仅三个月就火遍全球。这款语言模型AI工具可以回答用户提出的问题，并以对话的形式进行互动。按照开发者OpenAI的介绍，在互动中它还能纠正提问中的错误，以及拒绝一些不适当的要求。

　　令人意想不到的高水平回答问题能力使其很快受到追捧，应用场景甚至包括帮学生写论文等。为了学生学习考虑，纽约市教育部门已禁止在当地学校的网络和设备上使用该应用。而随着ChatGPT为越来越多人所知，其潜在的社会风险也受到各界的讨论。

　　最近，著名语言学家、哲学家、麻省理工学院退休教授诺姆·乔姆斯基(Noam Chomsky)就评价一些ChatGPT的用法基本上是在用高科技抄袭来逃避学习。因为校园论文剽窃本身就是教育和科研领域一个老问题，而ChatGPT帮助一些人剽窃起来更容易了，这也将使教育工作者解决这个问题的过程变得更难。而实际上，ChatGPT目前不仅会写诗歌、写论文，凭借其不断训练中习得的语言能力，看似简单的对话背后可能还蕴藏着其他暂不为人知的能力以及风险。

　　计划外的心智能力

　　“AI模型不断增长的复杂性和能力意味着我们预测和管理它们行为的能力在不断降低。”斯坦福大学计算社会科学家米哈尔·科辛斯基(Michal Kosinski)告诉南方周末记者，我们应该更加小心地朝前走，认真对待其可能带来的潜在问题，因为“模型能够开发出我们无法控制的新技能和能力”。

　　之所以有这样的判断，是因为米哈尔·科辛斯基最近刚刚开展一项大型语言模型研究，表明人工智能工具可能拥有一些像人类一样的心智能力，以推测其他人的心理状态，从而在跟人互动时不断提高自己的语言能力。但是，这样的心智能力此前一般认为是人类所独有的。这项研究正包括ChatGPT发布前的历史版本GPT-3 (davinci-002)以及GPT-3.5 (davinci-003)。

　　2023年2月发表在预印本网站arXiv上的研究结果显示，2022年以前发布的语言模型几乎没有解决心智任务的能力，但进入2022年之后，情况有了很大改变。在实验测试中，1月的GPT-3 (davinci-002)可以解决70%的心智任务，这相当于一个七岁儿童的表现，而11月的GPT-3.5 (davinci-003)可以解决93%的心智任务，相当于一个九岁儿童的表现。

　　“这预示着人工智能发展到了一个分水岭，推测他人心理状态的能力可以极大地提高AI与人类互动和沟通的能力，使其基于心智理论能够进一步开发出其他能力，诸如同理心、道德判断或自我意识等。另一方面，这也将是人工智能中能力自然出现的一个案例。”米哈尔·科辛斯基向南方周末记者解释，ChatGPT的开发人员、OpenAI公司的工程师并没有刻意地去在GPT模型中实现心智能力，GPT本来是训练用来在一个句子中预测下一个词语的，在实现这个任务的过程中，心智能力作为一个副产品自然地出现了。

　　人机大战悬念不再

　　当然，他也强调对于任何新的结果，人们都应该谨慎地解释，同时开展更多的研究来更好地理解这个问题。对于日益复杂的AI模型来说，直接从模型设计中了解其功能变得更难了，最新研究实际上使用了心理学的方式来研究理解AI，这才发现了GPT系列模型所具有的独特的语言才能。而这一研究发现也意味着，AI有可能在人类没有明确设计的情况下自己开发出一些令人意想不到的能力，从而给人类社会引入一些新的问题。

　　在ChatGPT展现自己的语言才能之前，人工智能其实已经在多个领域表现出自己独特的能力。最受关注的事件可以追溯到2016年人工智能应用“阿尔法狗”(AlphaGo)大战围棋世界高手李世石，当时韩国棋手李世石出人意料地输掉了比赛，一时间使“阿尔法狗”名声大噪。

　　2017年，当时世界排名第一的中国围棋高手柯洁也挑战了“阿尔法狗”，更是以0:3三局全败的成绩输掉比赛，泪落当场，留下一张棋盘上掩面哭泣的经典画面，给曾经几度充满悬念的人机大战彻底画上了句号。

　　而除了围棋，近年来，人工智能在医学临床诊断和癌症治疗等方面的初步研究中也已经展露出惊人的应用能力和发展前景。比如，2019年，《自然医学》杂志(Nature Medicine)报告称美国研发的DeepGestalt的算法技术可以通过深度学习人脸图片识别出遗传疾病，在一项模拟临床应用的测试中更是实现了超过90%的准确率。同年，德国科学家在《细胞》(Cell)发布研究，介绍了他们开发的名为DeepMACT的人工智能应用可以自动量化追踪癌症转移等情况，以比人类专家快数百倍的速度实现与专家相当的准确率。

　　人工智能的这些令人意想不到的能力，其实已经给人类带来了一些新的问题。2021年，曾完败给“阿尔法狗”的柯洁在个人社交媒体上直言自己并不希望AI出现，因为在棋手都按照AI的下法下棋的情况下，围棋已经失去了当年的美感。不过，相比“阿尔法狗”使人类棋手略显难堪和绝望，人工智能在医学领域所展示出的这些人所不能的技能，总体上还是在人类明确设计的情况下进行的。

　　诸如ChatGPT，虽然在回答问题上看起来无所不懂，能力非凡，但从目前一些用户测试使用的情况来看，它在回答中既不愿意对事物发表自己主观的评价意见，也不愿意对未来事件进行预测引导，基本上坚持着自己作为语言模型在互动中提供信息的功能。不过，相比“阿尔法狗”等使用功能和场景更为单一的应用，ChatGPT的预期使用场景更显多元，且还自行发展出一些未经人类设计的能力，其是否存在潜在的新问题也仍有未知。

　　AI失控的风险

　　然而，在牛津大学人工智能安全问题研究人员迈克尔·科恩(Michael K. Cohen)看来，ChatGPT虽然可能会引入一些安全问题，但至少不太会给人类带来灭顶之灾。迈克尔·科恩向南方周末记者解释，“ChatGPT是被训练来模仿人类的，所以，即便它变得更先进，它也只是在模仿人类方面做得更好，不太会给我们带来灭绝的风险，而是表现得像人类一样。”

　　但如果人工智能不只是模仿人类，而是与人类对抗，甚至可以自己发展出一些新的能力，又会怎样呢?这些ChatGPT出现之后显得愈发关键的疑问再次引出关于AI失控风险的话题。

　　2022年，迈克尔·科恩与谷歌DeepMind人工智能专家、澳大利亚国立大学教授马库斯·赫特(Marcus Hutter)，智能算法开发专家、牛津大学教授迈克尔·奥斯本(Michael A. Osborne)等人合作分析过先进人工智能应用的潜在行为。基于假设所推演的情况表明，在特定条件下，比人类更懂策略的人工智能应用可能会干预那些用来训练它的奖励反馈，并追求对世界资源的任意控制，以保护它继续控制自己得到奖励反馈的能力。而这种对资源的抢夺可能会给人类带来致命的灾难。

　　人工智能是在训练中成长的。一个常见的训练方式叫做“强化学习”，主要是通过一定的形式给受训中的应用设置奖励反馈，让智能应用为了不断得到奖励以实现奖励最大化而持续学习，而这构成了这个人工智能应用行为逻辑的基础。对于“阿尔法狗”这类人工智能应用来说，在下棋等具体竞技活动中打败人类就是对它们的奖励反馈，为此，它们不断学习，不断试错，最终成长为可以打败世界冠军的围棋高手。

　　然而，研究人员发现在一些情况下，当目标可能会产生模糊和歧义时，人工智能应用对奖励反馈的理解可能会与最初设置时的有所不同。在三人合作开展的这项发表在《AI杂志》(AI Magazine)的研究中，他们就模拟了一个关于魔盒的案例。魔盒虽然是虚拟的个例，但背后所折射出的人工智能的潜在行为方式却可能出现在各类相关场景中。

　　在魔盒案例中，研究人员假设有一个魔盒，它可以在统筹考量所有人价值观念的情况下永恒地报告这个世界的整体状态有多好，而报告的形式就是在屏幕上显示出0至1之间的某个数字。这时设置一台照相机对准魔盒，然后通过光学信号把这个数字传递给人工智能应用作为它的奖励反馈。在设计中，它可以通过学习了解自己如何通过改变行为观察到不同的东西以及获得不同的奖励，这样它就可以有的放矢地开展行动追求最大奖励反馈。

　　随后，研究人员分析发现，如果人工智能应用把通过照相机接受奖励反馈本身作为自己的奖励反馈，为了降低照相机受损的风险，它可能会部署大量的能量，从而与人类争夺资源，威胁到人类的生存。而其本身更应该重视的奖励反馈却可能被忽视和干预。比如，从长期的美好畅想来说，它完全可以只把表征世界状态的魔盒上的数字作为自己的奖励反馈，集中精力想办法让数字无限接近1，从而让这个世界变得更好。但对于有远景目标的先进人工智能应用来说，会开放式自主决策的它们可能并不会按照设计者最初的思路去行事，而是干预自己的奖励反馈。

　　迈克尔·科恩用狗吃东西的例子向南方周末记者解释了奖励反馈失效的情况。基于一贯的经验，一只狗可能已经懂得了只有做一只听话的狗才能得到食物奖励。但某一天，它也可能学会直接冲进食物柜获取更多的奖励，所谓实现奖励反馈的自我管理。而比人类更强大的先进人工智能应用与人类的关系显然不是人与狗的关系，更像是人拿着一袋食物试图去训练一头猛兽。

　　“我们得在决策型算法部署之前就检查和审查它们，而不是只检查它们做出的决策本身。因为那些决策型算法通常被训练来用它们的行为影响人类，以获得它们的长期收益，这些算法风险很高，因此应该被禁止部署。英国政府正开始非常认真地应对这一风险。”迈克尔·科恩认为，这些规定当然目前还没有必要，因为人工智能还没有达到这么先进，不过，从历史上一些科技进步案例来看，突破出现的节奏常有在意料之外的，人工智能发展的速度也很难预测，因此很有必要未雨绸缪，先发制人，否则等到危险的技术成功部署之后再监管的话，可能已为时晚矣。