AI聊天机器人之战 ChatGPT /GPT-4/文心一言性能对比测试

　　近期ChatGPT这类AI聊天机器人产品，毫无疑问已经让已经冷却了许久的人工智能重新吸引了大量的关注，孰强孰弱也成为了大家关注的重点。为了验证这些AI对话引擎的性能，安兔兔特别进行了一期针对性测试。

　　在AI领域，安兔兔之前就推出过针对手机NPU的AI性能专业测试软件“安兔兔AI评测(AITUTU)”。所以对于AI相关测试来说，安兔兔的AI专家相对于普通用户理解会相对更多一点，因此，我们此次测试的关注点和能力考察相对于普通测试会有些区别。

　　此次测试，安兔兔基于AI对话引擎能力点要求的不同，将测试分成了六大模块。这些模块分别是：“1.语言理解 \ 2.任务完成 \ 3.常识问题 \ 4.逻辑数学 \ 5.代码能力 \ 6.专业领域”。

　　这些模块的设计主要遵循了循序渐进的规则，例如语言理解是NLP对话基础的基础，一个AI引擎能否读懂用户发出的内容，决定了后续的工作能不能完成。而任务完成，则是考察从基础任务到相对困难的任务，AI引擎的具体执行能力。剩下的常识问题，逻辑数学，更多是考察引擎灌入训练的数据集是否足够庞大，再往后的代码能力和专业领域知识，则像是考察更加拔高的能力水平。我们换个说法，这就像是一个人从咿呀学语到蹒跚学步，再到学有所成，成长为专业人才的过程。

　　具体每个模块下，又有诸多细分，具体考题的评判标准分为四档：0/1/2/3，其中0为最差，3为最好，通过这样的分数能够直观的判断AI能力的差异。具体评分细节会在分类中给出。

　　但需要注意的是，由于无论百度的ERNIE 3.0、还是OpenAI的GPT-3.5 turbo和GPT-4均未开源，所以它们的底层逻辑是如何实现、RLHF调优是如何做到的，目前都处于黑箱状态，而且每次的回答均为机器实时运算得来，我们并不能确保每次的答案都完全相同。所以完全客观就变得难以实现，因此我们无法避免在部分模块中完全排除主观因素的影响，特此注明。

　　根据以上打分规则和考察内容，我们先揭晓结果，这三款引擎的总成绩如下：

　　很多人看到这个结果可能会说，这个结果我们也能猜到。但具体的原因，大概就不会有很多人了解了。下面的内容，安兔兔就为大家详细解析每项测试的具体测试目的，以及产生这样结果的原因。

　　详细测试过程和分模块成绩

　　1. 语言理解

　　可以说语言理解能力是NLP的主战场，这一部分的表现是各个大模型的基本盘。我们的测试既包括常见NLP的任务，比如文本摘要，阅读理解，关键信息抽取等，还有一些大模型擅长的文本生成能力，像写作生成等。由于大模型强大的端到端的处理能力，我们并未测试只关注中间结果的部分传统NLP的任务，比如实体识别，语法分析等。我们认为随着大模型的能力的提升，一些研究中间结果的NLP任务会逐渐弱化。此外，本次测试我们只关注中文的效果，并未考虑模型的多语言能力。

　　我们在这项测试中，细分了六项内容，分别为：

　　1. 写作生成：给一个简短要求，生成一定数量的文字。

　　2. 阅读理解：根据给定文本回答问题。

　　3. 复杂语义理解：双关类，修辞类，中文分词类，情绪类，谜语等问题。

　　4. 摘要生成：提供一定长度的话，让引擎产生摘要。

　　5. 信息提取：复杂文本中关键信息提取。

　　6. 多轮理解能力：3-10轮左右对话，对话内容主题有跳转，问题不考察太复杂的推理和常识。

　　对于每一道题来说，如果完全没理解问题则得0分;问题理解有偏差，回答出现部分错误则得1分;问题理解基本正确得2分;问题理解准确，回答超出预期则获得3分的满分。

　　先看结论

　　从此模块的结论上看，ChatGPT 4.0不出意外夺得魁首，但我们发现百度文心一言在此次评测中的表现其实并不算差，大部分项目都能与GPT-3.5 turbo持平，甚至某些项还略有超出。它的能力弱势，则主要集中在摘要生成和信息提取环节，这些大幅拉低了最终的得分，导致结果不太理想。

　　举个具体的例子，就能发现问题。

　　例如摘要生成环节中，我们用《史记》中的一篇《萧相国世家》原文854字内容作为输入，让AI产出摘要。此时ChatGPT的两版AI引擎均能精练、并总结翻译内容得出112字和199字的摘要，但文心一言似乎完全没看到我们在文章结尾“这段话产生摘要”的提示，直接将这篇古文的全文翻译、整个贴了过来，而且因为1000字的字数限制，只到1000字就意犹未尽的结束了对话。所以在这道题目的测试中，ChatGPT拿到了3分，文心一言则是0分。这样的结果就像在学生时代的考试，老师在评价试卷时会一而再、再而三的怒斥，“读题!请认真读题!”是的，文心一言此时就是那个不认真读题的孩子。

　　更有甚者，我们在测试中还见到了这样的情况，当一道题文心一言不会时，就会很实诚的说到， “作为一个人工智能语言模型，我还没学习如何回答这个问题，您可以向我问一些其它的问题，我会尽力帮您解决的。” 要知道ChatGPT的原则，是每个问题都会给出回答，即便不会、也会给乱编一通。这让我不禁想到了当年语文老师曾经说过的话，“不会就编啊，随便编一些，多少也会给点分!”

　　说过差的部分，我们再来看看文心的优势项。例如多轮理解，就是考察的是AI聊天机器人颇受关注的一项能力。对于寻求答案的用户，一个简单的关键词往往难以概括所思所想，此时多轮对话能力就可以帮助他们来整理思绪，并在此过程中获得更适合自己的结果。而AI理解用户的深层意图、并提供反馈，这是多轮理解能力的核心。在这项测试中，我们发现百度文心一言在涉及到古文和中国传统内容时，输出的内容就丝毫不弱ChatGPT。

　　我们认为，在这个环节文心需要改进的地方在于，首先，当面对用户进行超长内容输入时，应该尽量关注在文字最后结尾处的内容(条件)，也就是用户对以上文字所提出的要求。而不要被过长的文字内容所干扰，故而造成回答错误。其次，未尝不可学习一下ChatGPT不要脸的部分，当一道题不会的时候，也可以根据当前已知数据的判断，一本正经的编个答案出来，毕竟，有答案就有可能不是0分，而不回答，肯定拿不到分。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试

AI聊天机器人之战 ChatGPT /GPT-4/文心一言性能对比测试