毫末智行，首推自动驾驶「ChatGPT」

　　2 月 17 日，毫末智行预告了即将发布自动驾驶生成式大模型 DriveGPT。与近几个月大火的 ChatGPT 一样，DriveGPT 同样都所采用了 Transformer 模型，同时也使用了 RLHF(人类反馈强化技术)算法进行强化训练;与 ChatGPT 使用自然语言文本进行训练不同，DriveGPT 使用的是驾驶场景数据进行模型训练，并通过不断引入真实人驾接管数据，让模型自我优化，逐步训练自己不断给出更高质量的答案。

　　昨天(4 月 11 日)，在第八届 HAOMO AI DAY 上，毫末正式对行业首发了 DriveGPT 自动驾驶生成式大模型，同时也公布了其中文名「雪湖・海若」。

　　毫末智行董事长张凯

　　毫末智行 CEO 顾维灏表示：「DriveGPT 雪湖・海若的目标是实现端到端自动驾驶，现阶段主要用于解决自动驾驶的认知决策问题，后续持续会将毫末多个大模型的能力整合到 DriveGPT。」

　　毫末智行CEO顾维灏

　　同时，毫末还在现场宣布雪湖・海若的首发车型是魏牌新摩卡 DHT-PHEV，后续将落地到魏牌蓝山。这意味着雪湖・海若将在 2023 年智能驾驶产品竞争中，起到关键作用。

　　「2023 年将是智能驾驶冲刺之年、大考之年。」毫末智行董事长张凯判断，「2023 年智驾产品进入全线爆发期，大模型开启在车端的落地应用，车主的使用频率和满意度成为产品竞争力的重要衡量标准。」

　　按照毫末的判断，这次 DriveGPT 雪湖・海若大模型的发布，也代表其将加速从软件驱动的 2.0 时代，跨向大模型、大数据、大算力为特点的数据驱动的自动驾驶 3.0 时代。

　　什么是 DriveGPT?

　　GPT 的全称是生成式预训练 Transformer 大模型，主要应用在 NLP 领域，本质上是不断求解下一个词(Token)出现的概率。然后再将这个词作为下一个时间步的输入，如此往复进行生成，最终获得一个连贯、通顺的文本。

　　最近广受关注的 ChatGPT 就属于语言类生成式大模型，主要是模拟人类语言行为，根据输入的文字或图片生成回答，与用户交互。而 DriveGPT 雪湖・海若则是用于自动驾驶场景的生成式大模型，所以毫末智行把 ChatGPT 输入的自然语言文本串，换成智能驾驶感知到的过去场景，输出也就变为了包括自车决策规控、障碍物预测以及决策逻辑链等条件在内的未来场景。

　　在这之中，一个重点就是如何将智能驾驶场景，变为和自然语言一样的 Token，毫末智行给出的答案是 Drive Language。其基于毫末智行的 CSS 场景库理论，利用 BEV 网格来做整个空间的离散化，将每一个网格定义为一个固定大小的词表，这样输入代表已发生场景的 Token 序列，就可以根据历史生成未来的 Token 序列。

　　目前，毫末智行 Token 化后的词表空间，已经达到了 50 万量级。最终，一连串的 Token 拼起来就是一个完整的驾驶场景时间序列，包括了未来某个时刻的完整交通环境状态和自车状态。

　　顾维灏介绍：「DriveGPT 可以按概率生成很多个这样的场景序列，每一个场景序列都是未来有可能发生的一种实际情况，这是它的第一个特性。它的第二个特性是在所有场景序列都产生的情况下，能把场景中我们最关注的自车行为轨迹给量化出来，也就是生成场景的同时，便会产生自车未来的轨迹信息。」