OpenAI终于Open一回：DALL-E 3论文公布，作者一半是华人

　　打开 ChatGPT 就能用 DALL・E 3 生成图片了，OpenAI 还罕见地发布了一些技术细节。

　　终于，「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后，一位网友感叹说。

　　DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于，它可以利用 ChatGPT 生成提示(prompt)，然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说，这一改进大大提高了 DALL・E 3 的使用效率。

　　此外，与 DALL・E 2 相比，DALL・E 3 生成的图质量也更高。

　　DALL・E 2 与 DALL・E 3 的生成效果对比。对于同样的 prompt「一幅描绘篮球运动员扣篮的油画，并伴以爆炸的星云」，左图 DALL・E 2 在细节、清晰度、明亮度等方面显然逊于右图 DALL・E 3。

　　即使与当前最流行的文生图应用 Midjourney 相比，DALL・E 3 也能打个平手甚至超越 Midjourney。而且与 Midjourney 相比，DALL・E 3 不需要用户自己掌握复杂的 Prompt 编写知识，使用起来门槛更低。

　　DALL・E 3 vs. Midjourney 文生图效果。prompt：这幅插画描绘了一颗由半透明玻璃制成的人心，矗立在惊涛骇浪中的基座上。一缕阳光穿透云层，照亮了心脏，揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字「Find the universe within you」。

　　这一模型的发布引发了不小的轰动，也再次巩固了 OpenAI 技术领头羊的形象。一时间，所有人都很好奇，这么炸裂的效果是怎么做到的?不过，令人失望的是，当时 OpenAI 并没有透露技术细节，就像之前发布 GPT-4 时一样。

　　不过，一个月后，OpenAI 还是给了大家一些惊喜。在一份篇幅达 22 页的论文中，他们阐述了针对 DALL・E 3 所做的改进。论文要点包括：

　　模型能力的提升主要来自于详尽的图像文本描述(image captioning);

　　他们训练了一个图像文本描述模型来生成简短而详尽的文本;

　　他们使用了 T5 文本编码器;

　　他们使用了 GPT-4 来完善用户写出的简短提示;

　　他们训练了一个 U-net 解码器，并将其蒸馏成 2 个去噪步骤;

　　文本渲染仍然不可靠，他们认为该模型很难将单词 token 映射为图像中的字母