![](http://www.openaimy.com/wp-content/uploads/2023/03/ecfcee80911ea84386d959b5cbac4abb.png)
作者:Armin
编辑:penny
排版:Lydia
在 GPT 4 发布的同时,被认为是 OpenAI 重要对手的 Anthropic 也在今天公开了 Claude,一个表现不亚于 ChatGPT 的产品。
在 AI 中,意图和结果的偏差被称为对齐问题(alignment problem)。对齐问题发生在现实生活中时,会带来严重的道德风险。比如亚马逊曾经使用 AI 帮助筛选简历,由于训练的数据多数都是男性的简历,当 AI 遇到女性的简历时就会给打低分。
对齐问题时刻发生在我们的日常生活中,比如当我们去面试、申请贷款、甚至体检时,我们都有可能在不知情的情况下受到 AI “偏见”的影响。因此让 AI 和人类价值观保持一致非常重要。
虽然大语言模型技术快速发展,但前 OpenAI 研究和安全副总裁 Dario Amodei 认为大模型里面仍有很多安全问题未得到解决,这促使他带领 GPT-2 和 GPT-3 的核心作者们离开 OpenAI 创立 Anthropic。
Anthropic 成立于 2021 年 1 月,成立以来已发表 15 篇研究论文,愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI 系统。Constitutional AI 是 Anthropic 最重要的研究成果之一,让人类为 AI 指定一套行为规范或原则,而不需要手工为每个有害输出打标签,就可以训练出无害的人工智能模型。2023 年 1 月,Anthropic 开始公开测试基于 Constitutional AI 技术的 Claude 的语言模型助手,经过多方面的对比,仍处测试阶段的 Claude 毫不逊色于 OpenAI 的 ChatGPT。
成立至今,Anthropic 目前团队 80 人左右,融资额超过 13 亿美元,最新估值 41 亿美元。历史投资人包括 Skype 创始人 Jaan Tallinn、FTX 创始人 Sam Bankman-Fried 、Google、Spark Capital 和 Salesforce Ventures。Anthropic 已经和 Google、Salesforce 达成了战略合作,使用 Google 提供的云服务,并且集成到 Slack 中。
Anthropic 团队豪华、愿景远大,与 OpenAI 和 DeepMind(Google)并列成为目前 AI 前沿模型领域排名前三的公司,并且是其中唯一没有与大厂深度绑定的创业公司。其大语言模型 Claude 是 OpenAI ChatGPT 最大的竞争对手。
以下为本文目录,建议结合要点进行针对性阅读。
👇
01 背景
02 研究方向
03 产品
04 团队
05 定价
06 融资历史
07 结论
01.
背景
2016 年,一位 AI 研究员正在尝试使用强化学习技术来让 AI 玩几百种游戏,在监控 AI 玩游戏的过程中,他发现在一个赛艇比赛的游戏中,AI 赛艇每局都会在一个地方来回重复地转圈,而不是去到达终点而完成比赛。
原来 AI 赛艇转圈的地方会有一些积分道具出现,当 AI 吃到积分后,掉头回来之前,新的积分道具已经刷新了出来。这样 AI 赛艇其实在一直重复的吃这几个积分道具,陷入循环而没去完成比赛。
![](http://www.openaimy.com/wp-content/uploads/2023/03/6a512501c9bb144de07d016f54a9b84f.png)
这样做确实能得到最多的积分,但这并不是该研究员的目的。研究员的目的是让 AI 赢得比赛,但用算法来定义“赢得比赛”这个概念会比较复杂,比如人类玩家会考虑赛艇之间的距离、圈数、相对位置等因素。因此研究员选择了一个相对较简单的概念“积分数”作为奖励机制,即当 AI 吃到更多的积分道具时,AI 会获胜。这个策略在他尝试的十种游戏(比如赛车)中都没问题,只有在第十一个游戏,赛艇比赛中出现了问题。
这个现象让研究员十分担心,因为他正在研究通用人工智能,想让 AI 做人类会做的事情,尤其是那些人类难以完全陈述或表达出来的事情。如果这是一个载人的“自动驾驶”汽艇,那后果将不堪设想。
这种意图和结果的偏差被称为对齐问题(alignment problem),人类通常不擅长或无法阐明详细的奖励机制,总是会漏掉一些重要信息,比如“我们实际上是希望这个快艇完成比赛”。
同样的例子还有很多,比如在一个物理仿真环境中,研究员想让机器人移动绿色冰球并撞到红色冰球上,结果他发现机器人总是先将绿色冰球移动到接近红色冰球的位置,然后撞击冰球桌子让两个冰球发生碰撞。由于算法以两个冰球之间的距离为优化目标,虽然 AI 没有做错,但这明显不符合研究员的期望。