AI 透明度新篇章！Anthropic 和 OpenAI 连发论文，让理解 AI 成为可能

　　Photo by ChatGPT-4o

　　2024 年 6 月 6 日，OpenAI 发布了一篇新论文，旨在通过改进稀疏自编码器(Sparse Autoencoders)来提升 GPT-4 的可解释性。这项研究通过引入稀疏性约束，使得模型的激活模式更加可解释，从而提高了模型的透明度和泛化能力。

　　对此，OpenAI 的联合创始人 Greg Brockman 在推特上转发并评论道：改进的大规模训练稀疏自编码器的方法，展示了对解释 GPT-4 神经活动的前景。

　　论文的作者名单里包含了好几位已经离职的前超级对齐团队成员，在 OpenAI 正式公布这篇论文后，都在 X 上发表看法并表示支持。

　　论文的一作作者，OpenAI 的前超级对齐团队成员 Leo Gao 分享道：我们引入了一种基于 TopK 激活函数的新稀疏自编码器训练技术栈，消除了特征缩减问题，并允许直接设置 L0。我们发现这种方法在均方误差 / L0 边界上表现良好。即使在 1600 万的规模下，也几乎没有失活的潜在单元(latent)。

　　在 Ilya 离职后跟着离职的前超级团队成员、刚刚加入了 Anthropic 继续负责 AI 安全问题的 RLHF 发明者 Jan Leike 发表观点：稀疏自编码器是目前用来理解模型内部思维的最好的办法，这是一个巨大的进步。

　　Ilya Sutskever 的名字也出现在了论文作者里，但是他并没有对此表达看法。

　　而前不久，Anthropic 也发表了一篇相关论文，探讨如何通过单义性扩展(Scaling Monosemanticity)提升大模型的可解释性(更多细节请参考我们上一篇文章)。Anthropic 的研究目标与 OpenAI 类似，都是为了让 AI 模型更加透明和易于理解。这些研究可以被视为推动 AI 透明度的新篇章，旨在让我们能够更好地理解和控制复杂的 AI 系统。

　　OpenAI 和 Anthropic 的研究的相同点在于：

　　研究目标：两家公司的研究都致力于提升大模型的可解释性，通过提取和解释模型内部的特征，使模型行为更加透明。

　　方法论：两者都采用了稀疏自编码器技术，通过引入稀疏性约束，使得模型的激活模式更加容易理解。

　　OpenAI 和 Anthropic 的研究的不同点在于：

　　研究重点：OpenAI 的研究主要关注特征的稀疏性和广泛应用，而 Anthropic 则专注于提取单一语义特征(Monosemantic Features)，这些特征能够捕捉到具体的实体和抽象概念。

　　应用领域：OpenAI 的研究展示了特征在图像和文本数据上的应用，而 Anthropic 的研究则更强调这些特征在多语言、多模式下的表现及其在捕捉模型潜在行为和偏见方面的能力。

　　OpenAI 的论文中提到：“我们的方法在解释大型语言模型的内部机制方面展示了潜力，通过提供一种清晰且可扩展的方法来识别与人类可理解概念一致的稀疏特征。”

　　这句话总结了 OpenAI 研究的核心贡献，即通过稀疏自编码器技术，使得复杂的 AI 模型内部机制更加透明和易于理解。这不仅有助于提高模型的安全性和可靠性，还为未来的 AI 研究提供了新的方向。

　　OpenAI 发布的文章有如下要点：

　　1、解释神经网络的挑战：

　　a. 神经网络的内部机制难以理解，无法像传统工程一样直接设计和修正。

　　b. 语言模型内部的神经激活模式复杂，难以解释和分析。

　　2、研究进展：

　　a. 通过新的可扩展方法，成功将 GPT-4 的内部表示分解为 1600 万个易于解释的模式。

　　b. 开发了新的稀疏自编码器，能够处理更大规模的特征。

　　3、实验结果：在 GPT-2 小模型和 GPT-4 上训练了多种自编码器，找到了可解释的特征。

　　4、局限性：发现的许多特征仍然难以解释，稀疏自编码器无法捕捉原模型的全部行为。

　　5、未来展望：希望通过增强模型的可解释性，提高 AI 模型的可信度和安全性。

　　以下是 OpenAI 官网原文的翻译。

　　从 GPT-4 中提取概念

　　我们目前不了解如何理解语言模型中的神经活动。今天，我们正在分享寻找大量“特征”的改进方法，即我们希望人类可以解释的活动模式。我们的方法比现有的工作具有更好的扩展性，并且我们使用它们在 GPT-4 中找到了 1600 万个特征。我们正在与研究社区分享论文、代码和特征可视化，以促进进一步的探索。

　　神经网络的解释挑战

　　与大多数人类创造的事物不同，我们并不完全理解神经网络的内部运作。例如，工程师可以直接设计、评估和修复汽车的部件以确保安全性和性能。然而，神经网络并不是直接设计的;相反，我们设计了训练它们的算法。结果是这些网络无法被轻易分解成可识别的部分，这意味着我们不能像对待汽车安全那样对待 AI 安全。

　　为了理解和解释神经网络，我们首先需要找到有用的神经计算构建块。不幸的是，语言模型内部的神经激活模式是不可预测的，似乎同时代表了许多概念。此外，这些激活是密集的，即每次输入时每个激活都会触发。然而，现实世界的概念是非常稀疏的——在任何给定的上下文中，只有一小部分概念是相关的。这就需要使用稀疏自编码器来识别神经网络中少量重要的“特征”，这些特征类似于人在推理时可能会想到的一小组概念。它们的激活模式稀疏，自然地与人类易于理解的概念对齐，即使没有直接的可解释性激励。

　　然而，训练稀疏自编码器仍然面临严重挑战。大型语言模型表示了大量的概念，我们的自编码器可能需要相应地庞大，以接近涵盖前沿模型中的概念。学习大量稀疏特征具有挑战性，过去的工作尚未证明能很好地扩展。

　　研究进展：大规模自编码器训练

　　我们开发了新的最先进的方法，允许我们将稀疏自编码器扩展到前沿 AI 模型上的数千万个特征。我们发现我们的方法展示了平滑且可预测的扩展，回报率优于以前的技术。我们还引入了几个评估特征质量的新指标。

　　我们使用我们的配方在 GPT-2 小模型和 GPT-4 激活上训练了各种自编码器，包括在 GPT-4 上的 1600 万特征自编码器。为了检查特征的可解释性，我们通过展示它激活的文档来可视化特定特征。我们发现了一些可解释的特征，例如“人类缺陷”、“价格上涨”和“机器学习训练日志”等。

　　局限性

　　我们对可解释性最终提高模型的可信度和可控性感到兴奋。然而，这仍然是早期工作，存在许多局限性：

　　许多发现的特征仍然难以解释，许多激活没有明确的模式或表现出与其通常编码的概念无关的虚假激活。

　　稀疏自编码器无法捕捉原始模型的所有行为。将 GPT-4 的激活传递通过稀疏自编码器，结果相当于计算量减少约 10 倍的模型的性能。

　　稀疏自编码器可以在模型的某个点找到特征，但这是解释模型的第一步。需要进一步工作以理解模型如何计算这些特征，以及这些特征在模型其余部分中的下游使用方式。

　　未来展望与开源研究

　　虽然稀疏自编码器研究令人兴奋，但前方仍有很长的路要走，面临许多未解决的挑战。短期内，我们希望我们发现的特征可以实际用于监控和引导语言模型行为，并计划在我们的前沿模型中测试这一点。最终，我们希望有一天可解释性可以为我们提供新的方法来推理模型的安全性和稳健性，通过提供关于其行为的强有力保证来显著增加我们对强大 AI 模型的信任。

　　今天，我们分享了一篇详细描述我们实验和方法的论文，我们希望这将使研究人员更容易大规模训练自编码器。我们发布了一整套用于 GPT-2 小模型的自编码器，以及使用它们的代码和特征可视化工具，以了解 GPT-2 和 GPT-4 特征可能对应的内容。

　　附：”Scaling and evaluating sparse autoencoder” 论文关键要点总结

　　这篇论文探讨了稀疏自编码器(Sparse Autoencoders)在特征学习中的应用。以下是关键要点：

　　稀疏自编码器的定义：稀疏自编码器是一种自编码器，其隐藏层具有稀疏性约束，即大部分隐藏单元的激活值接近于零，仅有少数单元被激活。这种约束通过正则化项(如L1正则化)实现。

　　稀疏性与特征学习：稀疏性约束能够捕捉数据的核心特征，提高模型的泛化能力。论文指出，稀疏性有助于在无监督学习中发现数据的内在结构。

　　正则化方法：文中讨论了不同的正则化方法来实现稀疏性，包括稀疏正则化(sparsity regularization)和KL散度(Kullback-Leibler divergence)。

　　实验与结果：通过一系列实验，论文展示了稀疏自编码器在图像和文本数据上的优越表现。稀疏自编码器在特征提取和降维方面表现出色，比传统自编码器和其他特征学习方法更具优势。

　　应用前景：稀疏自编码器在计算机视觉、自然语言处理等领域具有广泛应用前景，特别是在处理高维数据和复杂模式识别任务时。