为什么ChatGPT没有诞生在中国？三只「拦路虎」｜CCF C³

　　ChatGPT爆火之后，算力问题也被推到了风口浪尖。

　　根据OpenAI CEO的说法，每调用一次ChatGPT就会消耗几美分。那么如果全球每人都搜索一下，为什么OpenAI不会破产?

　　全国的A100显卡就那么几万卡，如果大家都去炼大模型，算力不够用怎么办?

　　……

　　CCF CTO Club发起的最新一期CCF C³活动就来到并行科技，话题聚焦于“算力网络赋能人工智能”，以ChatGPT这一热门话题为引子，展开了一场多维度的主题分享和讨论。

　　据统计，线上约有9500人围观了此次活动。

　　所以，具体都讲了些什么?

　　训练千亿大模型，至少面临三大挑战

　　活动最先开始的主题分享环节，北京大学人工智能研究院助理教授(博导)杨耀东讲了一个非常有趣的东西，即微软最新公布的一个研究项目。

　　该项目直接将ChatGPT的输出接到一个机械臂以及一个微机上。然后通过人与ChatGPT交互，来控制机械臂完成特定任务，比如用一堆方块拼成一个微软的logo。

　　杨耀东告诉大家，这项研究非常有意义。

　　如下图所示，以往我们要完成类似任务，需要人去编程。

　　现在有了ChatGPT之后，我们要做的就不再是设计程序，而是设计一个prompt或者是一个instruct，让ChatGPT通过这个prompt或instruct去编程，进而完成对机械臂的控制。

　　ChatGPT还有这种妙处?着实让人感到惊喜。

　　那么问题来了：

　　这么一个好东西，为什么没有先在中国诞生?是我们完全没有关注这件事情吗?

　　北京智谱华章科技有限公司的CEO张鹏，在ChatGPT爆火后经常被问到这个问题。

　　对此，他想说，并非没有关注，国内如华为、达摩院、清华大学等机构一直在做类似的事情。

　　比如清华大学知识工程实验室(KEG)与智谱AI共同研发的大规模中英文预训练语言模型GLM-130B。

　　它可与GPT-3基座模型对标，在同等运算速度与精度的要求下，GLM-130B对显存资源的消耗可节省75%，自2022年8月发布以来，已收到41个国家266个研究机构的使用需求。

　　在Stanford报告的世界主流大模型评测中，它更是中国唯一入选的模型，其准确性、恶意性与GPT-3持平，鲁棒性和校准误差在所有模型中表现最佳。

　　但，不得不承认，ChatGPT的实力确实非常强大。

　　而我们要想训练类似一个千亿大模型，至少要面临三大挑战：

　　一、高昂的训练成本。比如ChatGPT的算力需求就是“A100x1000块x30天”。

　　二、人力投入极大。比如谷歌PaLM 530B团队，前期准备29人，训练过程11人，整个作者列表68人，而目前国内可用做大模型的高精尖人才不超过百人。

　　三、训练过程不稳定，且调试困难，容易出现训练不收敛现象。

　　张鹏指出，在这些问题之中，算力绝对是非常重要的因素。

　　他曾经估算过，从GPT3开始到ChatGPT的诞生，中间用来训练模型用的算力，达到了亿美金以上的规模。

　　更别说这还只是对“成功部分”的估计，如果算上训练失败和试错的成本，这个数字肯定又要翻几番。

　　因此，我们要想搞千亿大模型，算力问题一定不可忽视。

　　算力网络实现算力全国共享

　　根据IDC发布的报告，中国AI算力规模增长飞速，2022年为268EFLOPS，到2026年则可达1271.4EFLOPS。