GPT-4太强，OpenAI也不懂！智能到底是怎么突然「涌现」的？

　　Coinbase首席执行官抨击美国SEC“不公平不合理”

　　3月23日消息，加密货币交易所Coinbase Global Inc.首席执行官Brian Armstrong在一连串推文中表示，他欢迎美国证券交易委员会(SEC)对该加密货币交易所采取执法行动的计划，因为这是一个对簿公堂的机会，还可以揭露监管机构在和数字资产打交道时既不“公平、合理，甚至目的都缺乏严肃性”。

　　李彦宏：中国基本不会再出一个OpenAI

　　上周正式发布类ChatGPT的大语言模型生成式人工智能(AI)产品文心一言后，百度CEO李彦宏本周三回应媒体有关AI的疑问。

　　对于中国会不会再出一个打造ChatGPT的组织OpenAI，李彦宏认为基本不会。他说OpenAI诞生是因为美国大厂都不看好这个方向，但现在中国的大厂都看好AI大模型，都在做这个方向。创业公司重新做一个ChatGPT其实没有多大意义，基于大语言模型开发应用机会很大，没有必要再重新发明一遍轮子。

　　腾讯高管谈生成式AI：有可能纳入微信和QQ

　　3月22日消息，在腾讯财报发布后的电话会议中，腾讯高管表示，生成式AI可以用来提升腾讯旗下旗舰产品的用户体验。未来可能每一个用户都会有人工智能助理，如果效果好，有可能将生成式AI纳入微信和QQ。

　　京东工业完成B系列优先股交易，总额3亿美元

　　近日，京东集团旗下从事工业供应链技术与服务业务的子集团——京东工业宣布完成B系列优先股交易，总额3亿美元。其投资人阵容强大，由阿布扎比主权基金Mubadala和阿布扎比投资基金42XFund共同领投，大型资管集团M&G、全球私募巨头EQT旗下的亚洲平台BPEA EQT(原霸菱亚洲投资)和老股东红杉中国跟投。交易完成后京东集团仍为京东工业的控股股东。

　　腾讯控股发2022年财报：TO B业务成最大收入板块

　　3月22日消息，腾讯控股(00700.HK)发布2022年第四季度及全年财报。财报显示，腾讯第四季度营收1449.5亿元，同比增长1%;净利润(Non-IFRS)297.11亿元，同比增长19%。这是腾讯自2021年三季度以来，首度恢复两位数增长。

　　其中，腾讯TO B业务上的成绩亮眼，已经成为最大收入板块。数据显示，金融科技及企业服务四季度收入472.44亿元，占总收入33%。从2021年第一季度开始，来自金融科技及企业服务的收入，已经连续7个季度占总收入比超30%。

　　英伟达CEO黄仁勋：AI的“iPhone时刻”来临

　　3月21日，在英伟达举办的2023 GTC(GPU TECHNOLOGY CONFERENCE)会议上，英伟达CEO黄仁勋提出，“AI的iPhone时刻来临”，表示AI行业已经到达了像iPhone横空出世时为手机行业带来的革命性颠覆的时间点。

　　作为以图形显示芯片(GPU)起家的科技企业，英伟达凭借其产品不断进步的算力，在AI领域布局颇多。虽然C端用户大多只接触到了英伟达的RTX系列独立显卡产品，但实际上英伟达早已成为人工智能计算行业里最重要的玩家之一。

　　Adobe加入生成式AI战局

　　3月22日消息，Adobe公司推出名为“萤火虫”(Firefly)的创意生成式AI，进入AIGC商业化赛道。除了通过文字描述生成图片外，该服务还具备生成艺术字体、给目标物体重新上色等功能。

　　TikTok首席执行官发布视频，呼吁用户发声

　　3月22日消息，TikTok首席执行官周受资发布视频称，该应用程序现在拥有超过1.5亿美国月活跃用户，几乎占该国人口的一半。但已经有越来越多政客呼吁禁止TikTok，“这对我们来说是一

　　2023年至今，ChatGPT和GPT-4始终霸占在热搜榜上，一方面外行人都在惊叹于AI怎么突然如此强大，会不会革了「打工人」的命;另一方面，其实内行人也不明白，为什么模型规模在突破某一界限后，突然就「涌现」出了惊人的智能。

　　出现智能是好事，但模型不可控、不可预测、不可解释的行为，却让整个学术界陷入了迷茫与深思。

　　突然变强的超大模型

　　先出一道简单的题目，下面这几个emoj代表了什么电影?

　　最简单的语言模型往往只能续写出「The movie is a movie about a man who is a man who is a man」;中等复杂度模型的答案则更接近，给出的答案是「The Emoji Movie」;但最复杂的语言模型只会给出一个答案：海底总动员「Finding Nemo」

　　实际上这个prompt也是为测试各种大型语言模型能力而设计的204项任务之一。

　　Google Research的计算机科学家Ethan Dyer参与组织了这次测试，他表示，虽然构建BIG-Bench数据集的时候我已经准备好了迎接惊喜，但当真的见证这些模型能做到的时候，还是感到非常惊讶。

　　惊讶之处在于，这些模型只需要一个提示符：即接受一串文本作为输入，并且纯粹基于统计数据一遍又一遍地预测接下来是什么内容。

　　计算机科学家曾预计，扩大规模可以提高已知任务的性能，但他们没有预料到模型会突然能够处理这么多新的、不可预测的任务。

　　Dyer最近参与的一项调研结果显示，LLM 可以产生数百种「涌现」(emergent)能力，即大型模型可以完成的任务，小型模型无法完成，其中许多任务似乎与分析文本无关，比如从乘法计算到生成可执行的计算机代码，还包括基于Emoji符号的电影解码等。

　　新的分析表明，对于某些任务和某些模型，存在一个复杂性阈值，超过这个阈值，模型的功能就会突飞猛进。

　　研究人员也提出了涌现能力的另一个负面影响：随着复杂性的增加，一些模型在回答中显示出新的偏见(biases)和不准确性。

　　斯坦福大学的计算机科学家 Rishi Bommasani 表示，我所知道的任何文献中都没有讨论过语言模型可以做这些事情。

　　去年，Bommasani 参与编制了一份包含几十种涌现行为的清单，其中包括在Dyer的项目中发现的几种行为，并且这个名单还在继续变长。

　　论文链接：https://openreview.net/pdf?id=yzkSU5zdwD

　　目前研究人员不仅在竞相发现更多的涌现能力，而且还在努力找出它们发生的原因和方式，本质上是试图对不可预测性进行预测。

　　理解涌现可以揭示围绕人工智能和一般机器学习的深层次问题的答案，比如复杂模型是否真的在做一些新的事情，或者只是在统计方面变得非常擅长，它还可以帮助研究人员利用潜在的优势和减少涌现风险。

　　人工智能初创公司 Anthroic 的计算机科学家Deep Ganguli表示，我们不知道如何判断哪种应用程序的危害能力将会出现，无论是正常出现的还是不可预测的。

　　涌现的涌现(The Emergence of Emergence)

　　生物学家、物理学家、生态学家和其他科学家使用「涌现」一词来描述当一大群事物作为一个整体时出现的自组织、集体行为。

　　比如无生命的原子组合产生活细胞; 水分子产生波浪; 椋鸟的低语以变化但可识别的模式在天空中飞翔; 细胞使肌肉运动和心脏跳动。

　　重要的是，涌现能力在涉及大量独立部分的系统中都有出现，但是研究人员直到最近才能够在 LLM 中发现这些能力，或许是因为这些模型已经发展到了足够大的规模。

　　语言模型已经存在了几十年，但直到五年前最强大的武器还是基于循环神经网络(RNN)，训练方法就是输入一串文本并预测下一个单词是什么;之所以叫循环(recurrent)，是因为模型从自己的输出中进行学习，即把模型的预测反馈到网络中，以改善性能。

　　2017年，谷歌大脑的研究人员引入了一种名为Transformer的全新架构，相比循环网络逐字分析一个句子，Transformer可以同时处理所有的单词，也就意味着Transformer可以并行处理大量文本。

　　通过增加模型中的参数数量以及其他因素，Transformer使语言模型的复杂性得以快速扩展，其中参数可以被认为是单词之间的连接，模型通过在训练期间调整这些连接的权重以改善预测结果。

　　模型中的参数越多，建立联系的能力就越强，模拟人类语言的能力也就越强。

　　正如预期的那样，OpenAI 研究人员在2020年进行的一项分析发现，随着模型规模的扩大，它们的准确性和能力都有所提高。

　　论文链接：https://arxiv.org/pdf/2001.08361.pdf

　　随着 GPT-3(拥有1750亿参数)和谷歌的 PaLM (可扩展至5400亿参数)等模型的发布，用户发现了越来越多的涌现能力。

　　一位 DeepMind 的工程师甚至报告说，他可以让 ChatGPT 认为自己是一个 Linux 终端，并运行一些简单的数学代码来计算前10个素数。值得注意的是，ChatGPT可以比在真正的 Linux 机器上运行相同的代码更快地完成任务。

　　与电影Emoji符号任务一样，研究人员没有理由认为一个用于预测文本的语言模型可以模仿计算机终端，许多涌现行为都展现了语言模型的Zero-shot或Few-shot学习能力，即LLM可以解决以前从未见过或很少见过的问题的能力。

　　大批研究人员发现了 LLM 可以超越训练数据约束的迹象，他们正在努力更好地掌握涌现的样子以及它是如何发生的，第一步就是完全地记录下来。

　　超越模仿游戏

　　2020年，Dyer 和Google Research的其他人预测，LLM 将产生变革性影响，但这些影响具体是什么仍然是一个悬而未决的问题。

　　因此，他们要求各个研究团队提供困难且多样化任务的例子以找到语言模型的能力边界，这项工作也被称为「超越模仿游戏的基准」(BIG-bench，Beyond the Imitation Game Benchmark)项目，名字来源于阿兰 · 图灵提出的「模仿游戏」，即测试计算机是否能以令人信服的人性化方式回答问题，也叫做图灵测试。

　　正如所预料的那样，在某些任务上，随着复杂性的增加，模型的性能平稳且可预测地得到改善;而在其他任务中，扩大参数的数量并没有产生任何改善。

　　但是，在大约5% 的任务中，研究人员发现了所谓的「突破」(breakthroughs)，即在一定阈值范围内，性能出现了快速、戏剧性的跃升，该阈值随任务和模型的不同而变化。

　　例如，参数相对较少(只有几百万)的模型不能成功地完成三位数加法或两位数乘法的问题，但对于数百亿个参数，某些模型的精度会大幅提高。

　　其他任务也出现了类似的跳跃，包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的结合)段落中的冒犯性内容，以及生成类似于斯瓦希里谚语的英语对等词。

　　但是研究人员很快意识到模型的复杂性并不是唯一的驱动因素，如果数据质量足够高，一些意想不到的能力可以从参数较少的较小模型中获得，或者在较小的数据集上训练，此外query的措辞也会影响模型回复的准确性。

　　去年，在该领域的旗舰会议 NeurIPS 上发表的一篇论文中，Google Brain的研究人员展示了如何让模型利用提示对自己进行解释(思维链推理)，比如如何正确地解决math word问题，而同样的模型如果没有提示就不能正确地解决。

个关键时刻。”周受资站在国会大厦前说，“这可能会把TikTok从你们1.5亿人手中夺走。”他呼吁TikTok使用者在这条视频下面留言，告诉美国立法者他们喜爱这款应用程序的原因。目前该条视频的播放量已超过350万人，留言也已过千。