OpenAI 被曝用17万本盗版书训练 AI

　　传记作家 Sarah Silverman(也是笑星)、Christopher Golden 和 Richard Kadrey 在7月份的时候起诉 OpenAI 和 Meta，指控这两家公司未经作者同意，将他们的书籍用作训练大型语言模型的材料。现在证据来了。

　　最新证据表明 ChatGPT 能够根据输入的提示词摘要整本书。对于 Meta 的证据则来源于 LLaMA 论文，其中提到训练数据包括 EleutherAI 整理的 “The Pile” 数据，而 “The Pile” 又包含了 “Books3” 数据库，而这些内容正是来自盗版图书库 Bibliotik 的数据。Books3 数据库是一个包含数万本图书的资源，其中大约三分之一是虚构作品，三分之二是非虚构作品，来自不同出版社。

　　作家和工程师 Alex Reisner 揭露了 Meta 大模型背后使用的盗版书籍列表，其中包括多位知名作家的作品。虽然 Books3 数据库并不是很知名，但在 AI 社区内广受欢迎，被认为是确保生成式 AI 开发不被大公司垄断的重要资源。