OpenAI“用AI解释AI”最新发布：GPT-4解释GPT-2，让机器以自动化方式完成AI研究

　　钛媒体App 5月10日消息，OpenAI在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。他们调用GPT-4来计算出其它架构更简单的语言模型上神经元的行为，这次针对的是发布于4年前的开源大模型：GPT-2。目标是用AI来帮助我们理解AI，简单来讲，就是希望能够使用自动化的方式，让机器完成AI研究。据悉，这项工作也是OpenAI对齐研究的第三支柱的一部分：希望对齐研究本身实现自动化。并且这一方向(对齐)还有望随着人工智能的发展速度而扩展。

　　OpenAI表示，它的工作方式包括在每个神经元上运行3个步骤：第一步，生成解释使用GPT-4。第二步，使用GPT-4进行模拟;即用GPT-4模拟这个GPT-2的神经元接下来会做什么。第三步，对比评估打分;即根据模拟激活与真实激活的匹配程度为解释打分。通过这样的方法，OpenAI 对每个神经元的行为作出了初步的自然语言解释，并对这种解释和实际行为的匹配程度进行了评分。成果显示，最终OpenAI对GPT-2中307200个神经元全部进行了解释，并将这些解释汇编成数据集，与工具代码一起在GitHub上发布。

　　不过，OpenAI还表示，目前GPT-4的解释效果并不佳，尤其要解释比GPT-2更大的模型时表现效果很差。但是，OpenAI相信可以使用机器学习技术进一步提高产生解释的能力：比如通过反复产出解释，并根据激活情况修改解释;使用更大的模型作出解释;以及调整已解释模型的结构等。