ChatGPT爆火之后,算力问题也被推到了风口浪尖。
根据OpenAI CEO的说法,每调用一次ChatGPT就会消耗几美分。那么如果全球每人都搜索一下,为什么OpenAI不会破产?
全国的A100显卡就那么几万卡,如果大家都去炼大模型,算力不够用怎么办?
……
CCF CTO Club发起的最新一期CCF C³活动就来到并行科技,话题聚焦于“算力网络赋能人工智能”,以ChatGPT这一热门话题为引子,展开了一场多维度的主题分享和讨论。
据统计,线上约有9500人围观了此次活动。
所以,具体都讲了些什么?
训练千亿大模型,至少面临三大挑战
活动最先开始的主题分享环节,北京大学人工智能研究院助理教授(博导)杨耀东讲了一个非常有趣的东西,即微软最新公布的一个研究项目。
该项目直接将ChatGPT的输出接到一个机械臂以及一个微机上。然后通过人与ChatGPT交互,来控制机械臂完成特定任务,比如用一堆方块拼成一个微软的logo。
杨耀东告诉大家,这项研究非常有意义。
如下图所示,以往我们要完成类似任务,需要人去编程。
现在有了ChatGPT之后,我们要做的就不再是设计程序,而是设计一个prompt或者是一个instruct,让ChatGPT通过这个prompt或instruct去编程,进而完成对机械臂的控制。
ChatGPT还有这种妙处?着实让人感到惊喜。
那么问题来了:
这么一个好东西,为什么没有先在中国诞生?是我们完全没有关注这件事情吗?
北京智谱华章科技有限公司的CEO张鹏,在ChatGPT爆火后经常被问到这个问题。
对此,他想说,并非没有关注,国内如华为、达摩院、清华大学等机构一直在做类似的事情。
比如清华大学知识工程实验室(KEG)与智谱AI共同研发的大规模中英文预训练语言模型GLM-130B。
它可与GPT-3基座模型对标,在同等运算速度与精度的要求下,GLM-130B对显存资源的消耗可节省75%,自2022年8月发布以来,已收到41个国家266个研究机构的使用需求。
在Stanford报告的世界主流大模型评测中,它更是中国唯一入选的模型,其准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳。
但,不得不承认,ChatGPT的实力确实非常强大。
而我们要想训练类似一个千亿大模型,至少要面临三大挑战:
一、高昂的训练成本。比如ChatGPT的算力需求就是“A100x1000块x30天”。
二、人力投入极大。比如谷歌PaLM 530B团队,前期准备29人,训练过程11人,整个作者列表68人,而目前国内可用做大模型的高精尖人才不超过百人。
三、训练过程不稳定,且调试困难,容易出现训练不收敛现象。
张鹏指出,在这些问题之中,算力绝对是非常重要的因素。
他曾经估算过,从GPT3开始到ChatGPT的诞生,中间用来训练模型用的算力,达到了亿美金以上的规模。
更别说这还只是对“成功部分”的估计,如果算上训练失败和试错的成本,这个数字肯定又要翻几番。
因此,我们要想搞千亿大模型,算力问题一定不可忽视。
算力网络实现算力全国共享
根据IDC发布的报告,中国AI算力规模增长飞速,2022年为268EFLOPS,到2026年则可达1271.4EFLOPS。