0°

DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”

  时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。

  DALL·E 3 的巨大飞跃主要体现在两大方面。

  第一,只需要提示词,ChatGPT 可自动对词语进行拓展,极大地弱化了提示工程的约束,生成图画细节更多、描述更精准。

  第二,Chat GPT 原生,模型在理解用户指令及将文本转化为图片的能力增加了。OpenAI 表示,DALL·E 3 比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。

  可以看到,DALL·E 3 不仅在推理能力上更强大了,同时用起来也更加简单,给了大家无限的创作可能性。

  1

  DALL·E 3 的巨大飞跃

  DALL·E 3 最大的突破,无疑是将文生图模型与 ChatGPT 的结合,极大地降低了提示词的门槛。

  用户只需要输入简单的词语,ChatGPT 可自动对提示词进行扩展、生成定制的详细提示,从简单的句子到详细的段落,勾画出一副细节感满满的画面。

  来看几张由 DALL·E 3 生成的图片:

  满月映照下的繁华都市街道,熙熙攘攘的行人正享受着夜生活。

  在街角的摊位上,一位满头红发、身着天鹅绒斗篷的年轻女子正在与脾气暴躁的老摊主讨价还价。

  这位脾气暴躁的小贩身材高大、为人老练,他穿着笔挺的西装、留着引人注目的小胡子,正兴致勃勃地用他的蒸汽朋克电话在交谈。

  拟人化的秋叶组成了一支民间乐队,在乡村的森林中,它们演奏着传统的蓝草音乐,点缀着满月撒下的柔和月光。

  荔枝纹风格的球形椅子,具有凹凸不平的白色外观和豪华的内部,衬托着热带壁纸。

  精彩的细节刻画,加上精致的图像画面,可以看到,DALL·E 3 在弱化了提示词约束的同时,还具备了 ChatGPT 原生的优势,用语言指导大型神经网络执行各种文本生成任务。

  目前来看,DALL·E 3 在理解用户命令和文生图方面都展现了更为出色的能力,这也是此前 AIGC 领域存在的短板之一。一位 OpenAI 研究员也表示,语言的进步使 DALL·E 3 能够更好地解析复杂指令,避免混淆详细请求中的元素。

  而如果出现图像与文本描述不相符的情况时,用户可在 ChatGPT 中随时进行调整。

  关于 DALL·E 3 更多细节,Sam Altman 还分享了一个可爱的宣传视频。

  视频中,家长通过向 ChatGPT 提问“5 岁小朋友口中的‘超级向日葵刺猬’的样子是什么样?”,获得了四段不同风格的提示词,并由 DALL·E 3 生成对应图像。

  由用户选定了图像风格、并为小刺猬起名 Larry 后,ChatGPT 又为故事添加了更多丰富的元素,包括森林的背景、小房子、以及带有 Larry 名字的小信箱等等,ChatGPT 综合了前面的信息后,还可以生成一个完整的故事情节。

  可以说,从童话故事到插图,ChatGPT 和 DALL·E 3 全包了!有网友评价称,Sam Altman 放出的小刺猬 demo 视频,是《30 分钟做一本儿童绘本》的实例。

  而与此前 DALL·E 系列模型相比,根据同一句提示词“一名篮球运动员扣篮、被描绘成一个星云爆炸的油画”,使用 DALL·E2 和 DALL·E3 分别进行图片生成。可以看到,两代模型在生成图片的效果存在明显的差异。

  和左侧相比,DALL·E 3 图片中的细节描绘、场景明亮度等效果都更好。

  在 DALL·E 2 发布的一年多时间,期间 Stable Diffusion 掀起了一阵扩散模型热潮,后者一时风光两无。

  如今,OpenAI 带着最新版的 DALL·E 3 汹汹来袭,似乎将要改变这一局面。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论