Anthropic：出走OpenAI，Google站队，AGI是天使还是魔鬼？

　　作者：Armin

　　编辑：penny

　　排版：Lydia

　　在 GPT 4 发布的同时，被认为是 OpenAI 重要对手的 Anthropic 也在今天公开了 Claude，一个表现不亚于 ChatGPT 的产品。

　　在 AI 中，意图和结果的偏差被称为对齐问题(alignment problem)。对齐问题发生在现实生活中时，会带来严重的道德风险。比如亚马逊曾经使用 AI 帮助筛选简历，由于训练的数据多数都是男性的简历，当 AI 遇到女性的简历时就会给打低分。

　　对齐问题时刻发生在我们的日常生活中，比如当我们去面试、申请贷款、甚至体检时，我们都有可能在不知情的情况下受到 AI “偏见”的影响。因此让 AI 和人类价值观保持一致非常重要。

　　虽然大语言模型技术快速发展，但前 OpenAI 研究和安全副总裁 Dario Amodei 认为大模型里面仍有很多安全问题未得到解决，这促使他带领 GPT-2 和 GPT-3 的核心作者们离开 OpenAI 创立 Anthropic。

　　Anthropic 成立于 2021 年 1 月，成立以来已发表 15 篇研究论文，愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI 系统。Constitutional AI 是 Anthropic 最重要的研究成果之一，让人类为 AI 指定一套行为规范或原则，而不需要手工为每个有害输出打标签，就可以训练出无害的人工智能模型。2023 年 1 月，Anthropic 开始公开测试基于 Constitutional AI 技术的 Claude 的语言模型助手，经过多方面的对比，仍处测试阶段的 Claude 毫不逊色于 OpenAI 的 ChatGPT。

　　成立至今，Anthropic 目前团队 80 人左右，融资额超过 13 亿美元，最新估值 41 亿美元。历史投资人包括 Skype 创始人 Jaan Tallinn、FTX 创始人 Sam Bankman-Fried 、Google、Spark Capital 和 Salesforce Ventures。Anthropic 已经和 Google、Salesforce 达成了战略合作，使用 Google 提供的云服务，并且集成到 Slack 中。

　　Anthropic 团队豪华、愿景远大，与 OpenAI 和 DeepMind(Google)并列成为目前 AI 前沿模型领域排名前三的公司，并且是其中唯一没有与大厂深度绑定的创业公司。其大语言模型 Claude 是 OpenAI ChatGPT 最大的竞争对手。

　　以下为本文目录，建议结合要点进行针对性阅读。

　　👇

　　01 背景

　　02 研究方向

　　03 产品

　　04 团队

　　05 定价

　　06 融资历史

　　07 结论

　　01.

　　背景

　　2016 年，一位 AI 研究员正在尝试使用强化学习技术来让 AI 玩几百种游戏，在监控 AI 玩游戏的过程中，他发现在一个赛艇比赛的游戏中，AI 赛艇每局都会在一个地方来回重复地转圈，而不是去到达终点而完成比赛。

　　原来 AI 赛艇转圈的地方会有一些积分道具出现，当 AI 吃到积分后，掉头回来之前，新的积分道具已经刷新了出来。这样 AI 赛艇其实在一直重复的吃这几个积分道具，陷入循环而没去完成比赛。

　　这样做确实能得到最多的积分，但这并不是该研究员的目的。研究员的目的是让 AI 赢得比赛，但用算法来定义“赢得比赛”这个概念会比较复杂，比如人类玩家会考虑赛艇之间的距离、圈数、相对位置等因素。因此研究员选择了一个相对较简单的概念“积分数”作为奖励机制，即当 AI 吃到更多的积分道具时，AI 会获胜。这个策略在他尝试的十种游戏(比如赛车)中都没问题，只有在第十一个游戏，赛艇比赛中出现了问题。

　　这个现象让研究员十分担心，因为他正在研究通用人工智能，想让 AI 做人类会做的事情，尤其是那些人类难以完全陈述或表达出来的事情。如果这是一个载人的“自动驾驶”汽艇，那后果将不堪设想。

　　这种意图和结果的偏差被称为对齐问题(alignment problem)，人类通常不擅长或无法阐明详细的奖励机制，总是会漏掉一些重要信息，比如“我们实际上是希望这个快艇完成比赛”。

　　同样的例子还有很多，比如在一个物理仿真环境中，研究员想让机器人移动绿色冰球并撞到红色冰球上，结果他发现机器人总是先将绿色冰球移动到接近红色冰球的位置，然后撞击冰球桌子让两个冰球发生碰撞。由于算法以两个冰球之间的距离为优化目标，虽然 AI 没有做错，但这明显不符合研究员的期望。