大语言模型开源之争：Meta AI 与 Google、OpenAI 的不同策略

　　大语言模型(LLM)是近年来人工智能领域的热门话题，它们可以利用海量的文本数据，学习语言的规律和知识，从而执行各种自然语言处理任务，如文本生成、问答、摘要等。然而，这些模型的开发和开放也引发了一些争议和挑战，不同的公司和机构采取了不同的策略来应对。

　　Meta AI 是一家致力于基础人工智能研究的公司，其首席科学家 Yann LeCun 是深度学习领域的先驱之一。今年 2 月，Meta AI 开源了其大语言模型 LLaMA(Large Language Model Meta AI)，这是一个先进的基础大语言模型，旨在帮助研究人员推进这个 AI 子领域的工作¹。LLaMA 的大小有多种选择(7B、13B、33B 和 65B 参数)，并且分享了一个 LLaMA 模型卡，详细介绍了他们如何按照负责任的 AI 实践构建模型¹。Meta AI 还在 GitHub 上发布了 LLaMA 模型的推理代码，供其他研究人员使用和参考³。

　　相比之下，Meta AI 的竞争对手 Google 和 OpenAI 都没有公开其最新的大模型。Google 在去年发布了 T5 和 mT5 等大语言模型，并将其开源在 hugging face 平台上。但是，Google 还有一些更大的模型，如 PaLM(540B 参数)和 LaMDA(2B-137B 参数)，它们都没有开源。OpenAI 则在 2020 年发布了具有 1750 亿参数的自回归语言模型 GPT-3，并在许多自然语言基准上都取得了出色的成绩。GPT-3 能够执行答题、翻译、写文章等任务，甚至还带有一些数学计算的能力。但是，与 GPT-2 和 GPT-1 不同，OpenAI 选择不开源 GPT-3，而是通过商业 API 来提供该模型的能力及训练数据集。该公司通过选择将 GPT-3 独家许可给与 OpenAI 有业务关联的微软来进一步限制访问。

　　对于 Google 和 OpenAI 对 AI 日益保密的做法，Yann LeCun 表示这是一个巨大的错误。他认为，ChatGPT 并没有什么特别的创新，也不是什么革命性的东西，许多研究实验室正在使用同样的技术，开展同样的工作。他还表示，ChatGPT 对现实的把握是非常肤浅的，它们缺乏人类所具有的形式推理、世界知识、情境建模和社会认知等思维能力。他认为，消费者和政府将拒绝拥抱 AI，除非它们不受 Google 和 Meta 等公司的控制。

　　然而，并非所有人都赞同 LeCun 的观点。《MIT Technology Review》的一篇文章认为，开源 AI 的繁荣是建立在大科技公司的施舍之上，但这种情况不会持续太久²。文章指出，Meta AI 的 LLaMA 已经成为许多新开源项目的起点，但如果 OpenAI 和 Meta 开始担心竞争风险或者数据安全问题，他们可能会收回他们的贡献²。这样一来，一个充满创新和活力的开源社区可能就会萎缩或者消失²。

　　另外，在开源社区中也有一些团队在努力复现或者改进 GPT-3 等大语言模型。例如，OpenLM Research 是一个开源社区，他们发布了 OpenLLaMA，这是一个开源的 LLaMA 大语言模型的复现，使用了 RedPajama 数据集²。他们提供了预训练的 OpenLLaMA 模型的 PyTorch 和 Jax 权重，以及与原始 LLaMA 模型的评估结果和比较²。OpenLLaMA 在大多数任务中表现出与原始 LLaMA 和 GPT-J 相当的性能，在一些任务中甚至超过了它们²。还有 EleutherAI 是一个致力于开源 AI 研究的团队，他们发布了 GPT-Neo 和 GPT-NeoX 等项目来复现或者扩展 GPT-3 的功能，并将其开源在 GitHub 上。

　　总之，在大语言模型领域中存在着不同的声音和策略，并没有一个统一或者标准的做法。不论是开放还是保密，都有其利弊和风险。我们需要更多地关注这些模型背后所涉及到的技术、数据、伦理、社会等方面的问题，并寻求更加合理和可持续地推动人工智能领域发展。