GPT-4比ChatGPT有何进步？黄仁勋与OpenAI联合创始人进行了一次“炉边谈话”

　　大数据文摘出品

　　作者：Caleb

　　英伟达碰上OpenAI会擦出怎样的火花?

　　就在刚刚，英伟达创始人兼首席执行官黄仁勋在GTC的炉边谈话中与OpenAI共同创办人Ilya Sutskever进行了一次深入交流。

　　视频链接：

　　https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus#/session/1669748941314001t6Nv

　　前两天，OpenAI推出了迄今为止最强大的人工智能模型GPT-4。OpenAI在官网上称GPT-4是“OpenAI最先进的系统”，“能够产生更安全、更有用的响应”。

　　Sutskever在谈话中也表示，与ChatGPT相比，GPT-4在许多方面标志着“相当大的改进”，并指出新模型可以读取图像和文本。他说，“在未来的某个版本中，[用户]可能会得到一张图表”以回应提问和查询。

　　毫无疑问，随着ChatGPT与GPT-4在全球范围内的爆火，这也成为了这次谈话的关注焦点，而除了GPT-4及其前身包括ChatGPT相关话题外，黄仁勋与Sutskever也聊到了深度神经网络的能力、局限性和内部运作方式，以及对未来AI发展的预测。

　　接下来就和文摘菌一起深入这场对话看看吧~

　　从网络规模和计算规模还无人在意时做起

　　可能不少人一听到Sutskever的名字最先想到的就是OpenAI及其相关的AI产品，但要知道，Sutskever的履历可以追溯到吴恩达的博士后、Google Brain的研究科学家，以及Seq2Seq模型的合作开发者。

　　可以说，从一开始，深度学习就与Sutskever绑定在了一起。

　　在谈及对深度学习的认识时，Sutskever表示，从现在来看，深度学习确实改变了世界。不过他个人的出发点更多是在于对AI存在的巨大影响潜力的直觉，对意识与人类体验的浓厚兴趣，以及认为AI的发展会帮助解答这些问题。

　　2002-03年期间，人们普遍认为学习是一件只有人类才能做到的事，计算机是无法学习的。而如果能让计算机具有学习的能力，那将是AI领域一次重大的突破。

　　这也成了Sutskever正式进军AI领域的契机。

　　于是Sutskever找到了同一所大学的Jeff Hinton。在他看来，Hinton所从事的神经网络正是突破口，因为神经网络的特性就在于能够学习，可以自动编程的并行计算机。

　　而彼时并没有人在意网络规模和计算规模的重要性，人们训练的神经网络只有50个或100个，数百个的规模已经算大的了，一百万的参数也被视为很庞大。

　　除此之外，他们还只能在没有优化过的CPU代码上跑程序，因为没人懂BLAS，多用优化后的Matlab做一些实验，比如用什么样的问题来提问比较好。

　　但问题是，这些都是很零散的实验，无法真正推动技术进步。

　　构建面向计算机视觉的神经网络

　　当时，Sutskever就察觉到，有监督学习才是未来前进的方向。

　　这不仅是一种直觉，也是无需争辩的事实。在神经网络足够深且足够大的基础上，那么它就有能力去解决一些有难度的任务。但人们还没有专注在深且大的神经网络上，甚至人们根本没有把目光放在神经网络上。

　　为了找到一个好的解决方案，就需要一个合适的大数据集以及大量的计算。

　　ImageNet就是那个数据。当时ImageNet是一个难度很高的数据集，但要训练一个大的卷积神经网络，就必须要有匹配的算力。

　　接下来GPU就该出场了。在Jeff Hinton的建议下，他们发现随着ImageNet数据集的出现，卷积神经网络是非常适合GPU的模型，所以能够让它变得很快，规模也就这么越来越大了。

　　随后更是直接大幅打破了计算机视觉的纪录，而这不是基于以往方法的延续，关键是在于这个数据集本身的难度与范围。

　　OpenAI：从100人到ChatGPT

　　在OpenAI初期，Sutskever坦言道，他们也不是完全清楚如何推动这个项目。

　　在2016年初，神经网络没有那么发达，研究人员也比现在少很多。Sutskever回忆称，当时公司只有100个人，大部分还都在谷歌或deepmind工作。

　　不过当时他们有两个大的思路。

　　其中一个是通过压缩进行无监督学习。2016年，无监督学习是机器学习中一个尚未解决的问题，没有人知道怎么实现。最近，压缩也并不是人们通常会谈到的话题，只是突然间大家突然意识到GPT实际上压缩了训练数据。

　　从数学意义上讲，训练这些自回归生成模型可以压缩数据，并且直观上也可以看到为什么会起作用。如果数据被压缩得足够好，你就能提取其中存在的所有隐藏信息。这也直接导致了OpenAI对情绪神经元的相关研究。

　　同时，他们对相同的LSTM进行调整来预测亚马逊评论的下一个字符时发现，如果你预测下一个字符足够好，就会有一个神经元在LSTM内对应于它的情绪。这就很好地展示了无监督学习的效果，也验证了下一个字符预测的想法。

　　但是要从哪里得到无监督学习的数据呢?Sutskever表示，无监督学习的苦难之处不在于数据，更多关于为什么要这么做，以及意识到训练神经网络来预测下一个字符是值得追求和探索的。于此它会学习到一个可以理解的表征。

　　另一个大的思路就是强化学习。Sutskever一直相信，更大的就是更好的(bigger is better)。在OpenAI，他们的一个目标就是找出规模扩展的正确途径。

　　OpenAI完成的第一个真正的大型项目是实施战略游戏Dota 2。当时OpenAI训练了一个强化学习的agent来与自己对抗，目标是达到一定水平能够和人类玩家游戏。

　　从Dota的强化学习转变为人类反馈的强化学习与GPT产出技术基座结合，就成了如今的ChatGPT。

　　OpenAI是如何训练一个大型神经网络的

　　当训练一个大型神经网络来准确预测互联网上不同文本中的下一个词的时候，OpenAI所做的是学习一个世界模型。

　　这看上去像是只在学习文本中的统计相关性，但实际上，学习这些统计相关性就可以把这些知识压缩得非常好。神经网络所学习的是生成文本的过程中的一些表述，这个文本实际上是世界的一个映射，因此神经网络便能够学习越来越多的角度来看待人类和社会。这些才是神经网络真正在准确预测下一个词的任务中学习到的东西。

　　同时，对下一个词的预测越准确，还原度就越高，在这个过程中得到的对世界的分辨率就越高。这是预训练阶段的作用，但这并不能让神经网络表现出我们希望它表现出的行为。

　　一个语言模型真正要做到的是，如果我在互联网上有一些随机文本，以一些前缀或提示开始，它会补全什么内容。

　　当然它也可以在互联网上找到文本进行填充，但这就不是最初构想的那样的，因此还需要额外的训练，这就是微调、来自人类老师的强化学习，以及其他形式的AI协助可以发挥作用的地方。

　　但这不是教授新的知识，而是与它交流，向它传达我们希望它变成什么样，其中也包括了边界。这个过程做得越好，神经网络就越有用越可靠，边界的保真度也就越高。