ChatGPT不开源是说不过去的

　　3月15日，由机械工业出版社、中国计算机学会联合主办的《开源创新：数字化转型与智能化重构》新书发布会在北京举行。陆首群教授在会后对中国开源发展历程、企业数字化转型、当下人工智能热点等话题进行回答了多家媒体的提问。

　　以下是本次采访的精彩要点，未经授权不得转载。

　　问：《开源创新：数字化转型与智能化重构》这本书的创作动机以及定位是什么?

　　答：这本书的定位，可以说是面向全球各行各业各阶层。另外，也照顾到国际同行，国际上有好多开源大师，有好多专家，也值得让他们看一看。之前的一个活动中，国外的开源大师看这本书时也津津有味，因为这个书里有很多照片，即使看不懂文字，他们也能通过照片里的人，了解大概在研究什么问题。要给这本书准确定位的话，就比较复杂了。现在各方面都在拥抱开源，所以开源就发展得很快了，不是说几个专业单位、开源社区、开源基金会关心开源，还有很多人都在研究开源，像官员、教师，都是能受益的。

　　总体来说，写这本书的动机就是把开源进一步普及，进一步提高，促进开源的崛起;背景就是开源热，大家都很关心，包括你们出版行业，也很关心，我就希望写个比较广泛的内容，总的来说还是希望讲清开源观念。

　　问：能否讲讲您理解的ChatGPT?

　　答：人类很喜欢让计算机跟人来对话。机器能“翻译”人说的话，但目前还不够准确，所以在这种情况开发了ChatGPT，但是还有些麻烦。机器不能识别很多综合性的东西，举个例子，比如汽车，其实训练一个三四岁的小孩两三个月，他不管是红汽车、绿汽车、蓝汽车，他认为都是汽车，这是人类的思考。计算机可不行，绿汽车和红汽车是两码事，蓝汽车更是另外一回事。有好多程序的东西，计算机不识别，就卡在那里，缺一个什么东西?缺一个知识的逻辑特例，得推理，要是把概念弄在一块了就推理不了了。所以OpenAI一开始搞了个类似字典的东西，就会把蓝汽车、红汽车都叫汽车，甚至把卡车也叫汽车，那这个字典不行于是就用大数据，把字典换成语料库，里面是语义，这样一来精确度就很高了。这些都是基于机器学习，或者叫深度学习。如果想更准确，那就把由语义构成的“字典”弄厚一些，但它终究还是弱人工智能，还是做不到强人工智能的事情。

　　问：书的第二章中，您列举了一些重要事件，您个人认为其中最难最艰辛的事件是什么?

　　答：开源是一个学术体系。这个体系跟原来我们传统的体系完全不一样，它的法律概念也不一样。比如说美国有美国用的法律，英国有英国用的法律，我们中国也有中国用的法律，它们基本上还是在一个大的体系里。但是开源不一样，所以有人就把传统的法律体系称为右版体系，而开源所在的是左版体系，有时候对于某件事，右版体系认为它违法了，开源认为它没有违法;开源认为合法的，右版体系可能又认为违法了，所以好多概念就不一样。

　　因此，最关键的就是要理解开源的概念，理解开源的观念，理解开源的本质，这个是最难的。

　　问：您构想的未来的人工智能是什么样子?

　　答：这个问题在全世界都有争论。现在的人工智能属于弱人工智能，其中的代表技术叫机器学习、深度学习，这个是弱的。现在的人工智能能做到的什么事呢?比如人脸识别、语音识别、图像识别，自动驾驶也是可以的，一些新的药和新的材料的发现，也能够依靠人工智能去解决。但进一步的，现在都做不到。我认为人工智能发展到未来会怎么样呢，现在看起来，接下来的挑战是类人人工智能，也就是和人的思考是类似的，这方面的研究现在有一些苗头了。如果再进一步，能不能是超人人工智能，现在谁也说不准，如果人工智能超过人，那么人就变成人工智能的奴隶了，听起来恐怕有点夸大其词。但是，现在看起来，弱人工智能迈向强人工智能，这一步是很艰难的。

　　问：陆教授您好，我是想问，因为近些年来数字出版的发展它也是突飞猛进，特别是像一些传统出版机构也在积极的开展数字化的转型，尤其是随着元宇宙产业的兴起，无论是作为虚拟空间还是作为技术的这种集合，都将极大的推动出版融合的走向深入。那么刚才我也注意到您的发言里面也讲到了，说开源已经运用到能源、农业、金融，那么您能不能帮我们再分析一下在出版行业应该如何拥抱开源，也就是说开源技术在出版行业有哪些应用场景?

　　答：现在也大有可为，像5G、AR/VR现在发展得都很不错。现在还有一个关键的问题，就是有一个概念，现在我们老说信息化，但是我们这个社会不是信息社会，信息社会还没到来，现在仍然是工业社会，在工业社会搞创新，就存在一个阶梯型的社会，高阶社会的动能，高阶社会的资源，作用到能让低阶社会的业态发生一个爆炸性的变化，也就是发生了0到1的变化。在出版这个行业，恐怕要走的也是这个路。

　　问：陆教授好，您从20世纪90年代就已经投入到开源中了，到今天已经30多年，中国整体开源的发展历程发生了哪些变化?

　　答：我从90年代初就开始搞开源，工作的几条线都是平行的。一个是“信息技术”这条线。现在我们叫深度信息技术，也叫新一代的信息技术，包括云计算、区块链、大数据、人工智能，现在我们要把开源跟这些结合在一起，这些技术只要基于开源发展就会更好。另外一个是“互联网技术”，我们中国发展互联网建设也要结合开源往上推进。

　　很多技术都离不开开源，这里我举个人工智能的例子。2015年，美国在人工智能方面搞得好的四大企业：谷歌、微软、Facebook、IBM。后来它们发现人工智能搞不下去了，达到瓶颈了。这四家大企业就把所有的人工智能框架、工具、软件内容通通开源了，一下子解决了人工智能的发展瓶颈。

　　联合国在研究互联网的治理问题时，曾经找过几家组织：第一家是印度政府;第二家是谷歌公司;第三家是我们中国开源软件推进联盟;第四家是哈佛商学院;第五家是GitHub。这五家组织共同来讨论互联网的治理下一步怎么做。

　　我们联盟在这次会议的讨论中，举了一个百度“阿波罗”无人驾驶项目的开源案例。有人就问我说，技术开源给别人了，我们还有什么优势?我说你放心好了，这是两码事。

　　百度的阿波罗成为全球最活跃的自动驾驶跟无人驾驶的平台之一，汇集了7个国家的65,000名志愿开发者一块来开发，完成了60万行的开源代码。另外它还跟全世界的210家合作伙伴建立了供应关系，这个就是开源的优势。你本来1个人开发，现在有10个人帮你一块来开发，效果就好多了。

　　问：最近几年，国内越来越重视开源，如果我们想更好地构建国产化的开源生态体系，还需要各方做出哪些努力?

　　答：开源生态跟开源发展的关系非常之大。拿华为来说，我认为华为手机必须国际化，不能只在中国卖，要有国际化的生态。从技术层面上，华为要搞生态是没问题的，但这里面有好多因素在干预。开源有一个重要的特征叫协同。企业自己要主动，也要在国内找开源组织，帮企业一块来链接生态。

　　问：陆教授您好。首先我想问一下关于开源的商业化的问题，构建一个良好的开源社区的生态和实现一个开源项目的商业化盈利之间怎么把握平衡?

　　答：关于开源商业化的问题，国内一些企业还是没有搞清楚。现在叫社区开发的版本都是开源的、免费的，是可以从网上自由下载的。但如果我们从头到尾都免费拿走，谁还搞产业?这样开源是发展不起来的。

　　所以就有了从社区版发展而成的企业的商业发行版，这里包含了社区版，但是又不同于社区版。当企业要引领产业的时候，要在这个上面加一个透明的环，这个环是什么呢?就是针对原来社区版的框架改造，由于社区版不够成熟，稳定性不好，所以还要进一步测试。另外还要做好维护，因为不管是开源还是闭源软件，都会产生大量的Bug，所以这里面有个维护的工作。另外生态建设也包含几个方面：硬件的生态，软件的生态。生态建设有开源的也有闭源的，因为它不是产品本身。其次产品还要有安全模块和质量认证保障，这些也不一定是开源的。所以要把开源的社区版本跟开源的商业发行版本区别开来。

　　将来要引领产业的主要是商业版本，不是开源版本。中国现在有几种情况，一种是我拿到你的开源社区版，我自己就搞产品了，别的东西不要了，这个是不行的。第二种是企业拿到社区版本后自己封起来了，这个更不行。所以在开源发展的概念和做法要明确，这样的话才能保证开源发展引领产业。

　　问：ChatGPT到目前为止还没有开源，但市面上已经出现了一些开源的替代品，有人说开源最终会吞噬人工智能，您怎么看这个问题?

　　答：最近很多专家问我这个问题。ChatGPT现在不开源，是因为公共保障还没有完善，因为你真的要在市场上面宣布全面开源，还要做好多事情，法律的、商业的、技术的，现在还顾不上这些问题，但我估计它是肯定要开源的。ChatGPT是基于机器学习的，机器学习技术是开源的，ChatGPT不开源是说不过去的。

　　问：陆教授好，看您在包括国务院信息联席会议办公室，还有吉通公司等等任过很多高职。那么从您的经验和您从事这么多年的研究来看，企业面对现在的数字化浪潮，怎么样利用开源来进行一个转型升级和创新?

　　答：我个人的观点是，现在的中国要从工业社会向信息社会发展，但是现在从工业社会向信息社会发展还缺少条件，因为我们现在连个试点地区都没有。我们现在是工业社会，再进一步发展是后工业级社会，比如像美国现在已经进入后工业级社会，当然它也不是信息社会，而只是有信息技术。

　　另外关于创新的问题，我希望是社会各界来把它重新演变，所以这里面就要找两个空间，一个是虚拟化的数字空间，一个是现实的物理空间。这样可以解决工业社会的业态到现代化的创新，一种从0到1的创新。

　　高阶社会是信息社会，空间也是信息空间，低阶社会是工业社会，也是现实的空间，物理空间。信息社会实际上也是分层次的，底层是数据层或者数字层，数字层上面是信息层，信息层上面是知识层，知识层上面是智能层。这4个层次里面，最基础的、最关键的就是数据层。按照欧洲人的说法，就叫Cyber-Physical(信息物理)。

　　现在我们都说搞数字化就是这个意思。数字化再扩大一点，就是数字网络化，再扩大才是数字经济。数字化实际上是代表信息化，从底层到高层基本上是这样一个概念。

　　问：您是20世纪30年代生人，1953年上大学，现在快90岁了，精神状态这么好，实现了清华的“为祖国健康工作50年”，请问您是怎么做到的?

　　答：我1953年进北京，到八几年的时候，我已经工作了好几十年了。清华电机系很有名，那时候没有计算机系，也没有自动化系，电机系是最有名的，我是奔着清华电机系去的。那时的清华大学，在教育战线上的目标是要培养又红又专的红色工程师。那时我们分配工作，祖国需要我们到哪个地方去，我们就去哪里。我们甚至愿意到西藏去，到边疆去，没有二话的。生命力跟年龄有关系，但是更主要的跟你的精神状态有关系。

　　问：您对新知识包括ChatGPT这些还能保持这么敏锐的捕捉度，随时能跟上现代知识的更新，您是怎么做到的?

　　答：我的学习有个特点，就是干哪一行，就把原来干的跟这个无关的都抛掉，抛掉之后我就钻进去研究这一行，我必须要弄清楚它的基本概念以及整个行业的思路，否则的话就别搞这个东西。

　　比如数学，我当时学数学还是下功夫的。我曾经就统计数学的相关理论在日本做过讲义，也曾与斯坦福大学数学系主任进行过深入的学术探讨。有一次在我国举办的数学年会上，会议筹办过程中，日方问工作人员“你们有一位陆先生，怎么不请他参加?他在日本还挺有声望的”。工作人员说：“哪一位陆先生，我们大学里没有陆先生，科学家也没有陆先生。”后来才知道，这位“陆先生”不在教育领域，也不在科研领域，这个人在工业领域。

　　问：您喜欢理论数学还是应用数学?

　　答：应用数学。

　　问：您觉得人工智能是应用的还是理论的或者两个在一块?

　　答：现在国内好多人都在搞人工智能，现在的人工智能是弱人工智能，它的一个理论是统计理论。人工智能当时在我国发展较缓慢，在这种情况下，我们自己就办两件事，一个我自己在这里面进行研究，另外一个是得从头到尾弄清楚人工智能的发展情况，这些你只要下点功夫就行。于是，我们搞了一个平台，通过这个平台展现人工智能发展的情况，同时也促进国内外业内人士的交流。

　　问：Linux系统目前的部分代码存在于美国的一些托管平台，如果因为地缘政治的关系，托管平台不对中国开放了，那中国的企业应该如何应对?

　　答：这有几个条件。第一，Linux系统是开源的;第二，Linux系统现在发展很快。当初，Linus搞出来操作系统以后，以现在的视角来看，当初的开源发展是有问题的。作为一个产品，Linus告诉我，最初的社区是不收费的，后来我知道的也只是收取很少的费用，所以这种情况下，开发者都是利用业余时间从事开发，平时需要找一份工作，来满足生活、家庭和开发的需求。这些问题是要解决的，后来Linus搞出来操作系统后，他也在一家公司打工，后来有了IBM等多家公司提供资金支持研究后，Linux的发展才开始加速。

　　我还跟你们谈一个事情，我们有个圆桌会议，讨论现在美国IT领域排名前20%的企业。曾经搞开发，80%~100%是企业内部开发，现在则大多是企业外部开发，就是因为有开源的资源，它们等于站在巨人的肩膀上向前走，所以开发速度很快。我国还不能完全利用外面的资源，为了解决这个问题，首先，不仅要把开源发展好，还要把科学国际关系发展好;其次，我现在组织了一个开源高地，开源高地也是科技的高地，也是新兴的高地，也是人才的高地。我希望将来的开源，能沟通全世界。