近期ChatGPT这类AI聊天机器人产品,毫无疑问已经让已经冷却了许久的人工智能重新吸引了大量的关注,孰强孰弱也成为了大家关注的重点。为了验证这些AI对话引擎的性能,安兔兔特别进行了一期针对性测试。
在AI领域,安兔兔之前就推出过针对手机NPU的AI性能专业测试软件“安兔兔AI评测(AITUTU)”。所以对于AI相关测试来说,安兔兔的AI专家相对于普通用户理解会相对更多一点,因此,我们此次测试的关注点和能力考察相对于普通测试会有些区别。
此次测试,安兔兔基于AI对话引擎能力点要求的不同,将测试分成了六大模块。这些模块分别是:“1.语言理解 \ 2.任务完成 \ 3.常识问题 \ 4.逻辑数学 \ 5.代码能力 \ 6.专业领域”。
这些模块的设计主要遵循了循序渐进的规则,例如语言理解是NLP对话基础的基础,一个AI引擎能否读懂用户发出的内容,决定了后续的工作能不能完成。而任务完成,则是考察从基础任务到相对困难的任务,AI引擎的具体执行能力。剩下的常识问题,逻辑数学,更多是考察引擎灌入训练的数据集是否足够庞大,再往后的代码能力和专业领域知识,则像是考察更加拔高的能力水平。我们换个说法,这就像是一个人从咿呀学语到蹒跚学步,再到学有所成,成长为专业人才的过程。
具体每个模块下,又有诸多细分,具体考题的评判标准分为四档:0/1/2/3,其中0为最差,3为最好,通过这样的分数能够直观的判断AI能力的差异。具体评分细节会在分类中给出。
但需要注意的是,由于无论百度的ERNIE 3.0、还是OpenAI的GPT-3.5 turbo和GPT-4均未开源,所以它们的底层逻辑是如何实现、RLHF调优是如何做到的,目前都处于黑箱状态,而且每次的回答均为机器实时运算得来,我们并不能确保每次的答案都完全相同。所以完全客观就变得难以实现,因此我们无法避免在部分模块中完全排除主观因素的影响,特此注明。
根据以上打分规则和考察内容,我们先揭晓结果,这三款引擎的总成绩如下:
很多人看到这个结果可能会说,这个结果我们也能猜到。但具体的原因,大概就不会有很多人了解了。下面的内容,安兔兔就为大家详细解析每项测试的具体测试目的,以及产生这样结果的原因。
详细测试过程和分模块成绩
1. 语言理解
可以说语言理解能力是NLP的主战场,这一部分的表现是各个大模型的基本盘。我们的测试既包括常见NLP的任务,比如文本摘要,阅读理解,关键信息抽取等,还有一些大模型擅长的文本生成能力,像写作生成等。由于大模型强大的端到端的处理能力,我们并未测试只关注中间结果的部分传统NLP的任务,比如实体识别,语法分析等。我们认为随着大模型的能力的提升,一些研究中间结果的NLP任务会逐渐弱化。此外,本次测试我们只关注中文的效果,并未考虑模型的多语言能力。
我们在这项测试中,细分了六项内容,分别为:
1. 写作生成:给一个简短要求,生成一定数量的文字。
2. 阅读理解:根据给定文本回答问题。
3. 复杂语义理解:双关类,修辞类,中文分词类,情绪类,谜语等问题。
4. 摘要生成:提供一定长度的话,让引擎产生摘要。
5. 信息提取:复杂文本中关键信息提取。
6. 多轮理解能力:3-10轮左右对话,对话内容主题有跳转,问题不考察太复杂的推理和常识。
对于每一道题来说,如果完全没理解问题则得0分;问题理解有偏差,回答出现部分错误则得1分;问题理解基本正确得2分;问题理解准确,回答超出预期则获得3分的满分。
先看结论
从此模块的结论上看,ChatGPT 4.0不出意外夺得魁首,但我们发现百度文心一言在此次评测中的表现其实并不算差,大部分项目都能与GPT-3.5 turbo持平,甚至某些项还略有超出。它的能力弱势,则主要集中在摘要生成和信息提取环节,这些大幅拉低了最终的得分,导致结果不太理想。
举个具体的例子,就能发现问题。
例如摘要生成环节中,我们用《史记》中的一篇《萧相国世家》原文854字内容作为输入,让AI产出摘要。此时ChatGPT的两版AI引擎均能精练、并总结翻译内容得出112字和199字的摘要,但文心一言似乎完全没看到我们在文章结尾“这段话产生摘要”的提示,直接将这篇古文的全文翻译、整个贴了过来,而且因为1000字的字数限制,只到1000字就意犹未尽的结束了对话。所以在这道题目的测试中,ChatGPT拿到了3分,文心一言则是0分。这样的结果就像在学生时代的考试,老师在评价试卷时会一而再、再而三的怒斥,“读题!请认真读题!”是的,文心一言此时就是那个不认真读题的孩子。
更有甚者,我们在测试中还见到了这样的情况,当一道题文心一言不会时,就会很实诚的说到, “作为一个人工智能语言模型,我还没学习如何回答这个问题,您可以向我问一些其它的问题,我会尽力帮您解决的。” 要知道ChatGPT的原则,是每个问题都会给出回答,即便不会、也会给乱编一通。 这让我不禁想到了当年语文老师曾经说过的话,“不会就编啊,随便编一些,多少也会给点分!”
说过差的部分,我们再来看看文心的优势项。例如多轮理解,就是考察的是AI聊天机器人颇受关注的一项能力。对于寻求答案的用户,一个简单的关键词往往难以概括所思所想,此时多轮对话能力就可以帮助他们来整理思绪,并在此过程中获得更适合自己的结果。而AI理解用户的深层意图、并提供反馈,这是多轮理解能力的核心。在这项测试中,我们发现百度文心一言在涉及到古文和中国传统内容时,输出的内容就丝毫不弱ChatGPT。
我们认为,在这个环节文心需要改进的地方在于,首先,当面对用户进行超长内容输入时,应该尽量关注在文字最后结尾处的内容(条件),也就是用户对以上文字所提出的要求。而不要被过长的文字内容所干扰,故而造成回答错误。其次,未尝不可学习一下ChatGPT不要脸的部分,当一道题不会的时候,也可以根据当前已知数据的判断,一本正经的编个答案出来,毕竟,有答案就有可能不是0分,而不回答,肯定拿不到分。