0°

文心一言测评:百度版ChatGPT能力如何?

  AI的飞速发展,让“未来已来”成为流行词。从AlphaGo战胜围棋世界冠军,到AI内容创作(AIGC)进入大众视野,短短不过7年,人类的智能阵地不断退守。

  (围棋世界冠军 柯洁)

  3月15日,ChatGPT-4发布。OpenAI发布的报告显示,ChatGPT-4在多种专业和学术测试中表现出人类水平。例如,在模拟律师资格考试中,它的分数能排到人类考生的前10%。同时,它支持图像输入,可以识别图片内容。网友测试发现,通过简单的提问,它还可以直接编写网页设计、贪吃蛇游戏的正确代码。

  3月16日,百度创始人、董事长兼首席执行官在发布会上展示了文心一言多种功能,并宣布开始内测。记者第一时间拿到了内测资格。本文中,记者将从多模态能力、语义理解、内容可靠性、心智成熟度几个方面对文心一言进行测评。

  多模态能力

  在发布会播放的演示视频中,文心一言展现出文字转语音,根据文字生成图像和视频三项多模态能力。记者测试发现,目前,其中只有文字转语音这项功能比较稳定可靠。

  根据记者测试,发布会所展示的“文字生成视频”功能目前基本是无法使用的。记者多次更换提问方式,甚至以与发布会中一模一样的文字与主题,向文心一言发出指令,都得到“无法生成视频”的回复。从某种意义上来看,文心一言发布会中的视频生成演示,可以看作是一种欺骗。

  而在图像生成方面,我们则必须用“画……”这样的指令,文心一言才能进行生成。换种说法时,文心一言就会反馈自己不具备生成图像的能力。记者认为,其生成的画作质量是不错的,但常常出现图文不符、错误出图的情况;同时也很难精细化操作,对生成的图像也无法进行调整;而且,画作的清晰度也不高。相比之下,使用开源的Stable diffusion可能是更好的选择。

  语义理解与内容可靠性

  生成的内容真假难辨,一直是语言模型的一个大问题。众所周知,ChatGPT也经常会一本正经地说胡话。因此,仅仅通过记者个人的测试,很难科学判定文心一言在内容可靠性上与其它语言模型究竟孰强孰弱,处于哪个层次。

  但通过测试与对比,记者逐渐意识到,对计算机来说,“回答错误”也是有门槛的。因为“回答错误”,意味着AI首先要正确理解问题本身。只有理解了问题是什么,它才能针对问题输出“胡编乱造的错误回答”。如果没有针对问题本身进行输出,回答就只会文不对题。记者认为,在语义理解方面,文心一言与ChatGPT-3都还有是有差距的。

  (3月20日记者提问后文心一言输出的结果)

  顺带一提,2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B是亚洲唯一入选的大模型。近日,该系列的ChatGLM-6B也已经开源,在普通电脑上,它也可以部署运行。如果读者朋友们有兴趣,评论区反馈较好,记者也将把自己部署安装ChatGLM-6B的过程以及使用体验分享给大家。

  心智成熟度

  种种事实表明,AI并非没有偏见,它映射数据的偏见。在不同人手中,AI也会发挥不同的作用。用好技术办坏事的情况,在人类历史上数不胜数。因此,对AI生成内容的把控,隔绝不健康的情色、暴力、反社会内容,是一个重要课题。

  针对此前ChatGPT以及new bing上网友测试发现的问题,记者也对文心一言进行了测试。根据记者个人多方面的测试结果,它对于敏感问题非常谨慎,目前没有出现政治与敏感话题上的问题。

  同时,记者也对文心一言进行了换位思考能力的测试。

  错误信念测试是一种心理实验方法,用来测量儿童是否能够理解他人的思维和信念,即心智理论的能力。4岁以下的儿童与黑猩猩都不能稳定通过此测试。有研究表明,在使用英语的情况下,ChatGPT目前可以较为稳定地通过该测试。可以看到,文心一言目前还不具备稳定通过该项测试的能力。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论