0°

为什么ChatGPT没有诞生在中国?三只「拦路虎」|CCF C³

  ChatGPT爆火之后,算力问题也被推到了风口浪尖。

  根据OpenAI CEO的说法,每调用一次ChatGPT就会消耗几美分。那么如果全球每人都搜索一下,为什么OpenAI不会破产?

  全国的A100显卡就那么几万卡,如果大家都去炼大模型,算力不够用怎么办?

  ……

  CCF CTO Club发起的最新一期CCF C³活动就来到并行科技,话题聚焦于“算力网络赋能人工智能”,以ChatGPT这一热门话题为引子,展开了一场多维度的主题分享和讨论。

  据统计,线上约有9500人围观了此次活动。

  所以,具体都讲了些什么?

  训练千亿大模型,至少面临三大挑战

  活动最先开始的主题分享环节,北京大学人工智能研究院助理教授(博导)杨耀东讲了一个非常有趣的东西,即微软最新公布的一个研究项目。

  该项目直接将ChatGPT的输出接到一个机械臂以及一个微机上。然后通过人与ChatGPT交互,来控制机械臂完成特定任务,比如用一堆方块拼成一个微软的logo。

  杨耀东告诉大家,这项研究非常有意义。

  如下图所示,以往我们要完成类似任务,需要人去编程。

  现在有了ChatGPT之后,我们要做的就不再是设计程序,而是设计一个prompt或者是一个instruct,让ChatGPT通过这个prompt或instruct去编程,进而完成对机械臂的控制。

  ChatGPT还有这种妙处?着实让人感到惊喜。

  那么问题来了:

  这么一个好东西,为什么没有先在中国诞生?是我们完全没有关注这件事情吗?

  北京智谱华章科技有限公司的CEO张鹏,在ChatGPT爆火后经常被问到这个问题。

  对此,他想说,并非没有关注,国内如华为、达摩院、清华大学等机构一直在做类似的事情。

  比如清华大学知识工程实验室(KEG)与智谱AI共同研发的大规模中英文预训练语言模型GLM-130B。

  它可与GPT-3基座模型对标,在同等运算速度与精度的要求下,GLM-130B对显存资源的消耗可节省75%,自2022年8月发布以来,已收到41个国家266个研究机构的使用需求。

  在Stanford报告的世界主流大模型评测中,它更是中国唯一入选的模型,其准确性、恶意性与GPT-3持平,鲁棒性和校准误差在所有模型中表现最佳。

  但,不得不承认,ChatGPT的实力确实非常强大。

  而我们要想训练类似一个千亿大模型,至少要面临三大挑战:

  一、高昂的训练成本。比如ChatGPT的算力需求就是“A100x1000块x30天”。

  二、人力投入极大。比如谷歌PaLM 530B团队,前期准备29人,训练过程11人,整个作者列表68人,而目前国内可用做大模型的高精尖人才不超过百人。

  三、训练过程不稳定,且调试困难,容易出现训练不收敛现象。

  张鹏指出,在这些问题之中,算力绝对是非常重要的因素。

  他曾经估算过,从GPT3开始到ChatGPT的诞生,中间用来训练模型用的算力,达到了亿美金以上的规模。

  更别说这还只是对“成功部分”的估计,如果算上训练失败和试错的成本,这个数字肯定又要翻几番。

  因此,我们要想搞千亿大模型,算力问题一定不可忽视。

  算力网络实现算力全国共享

  根据IDC发布的报告,中国AI算力规模增长飞速,2022年为268EFLOPS,到2026年则可达1271.4EFLOPS。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论