导读:随着自动驾驶行业发展对于大数据量处理的强大需求,其要求处理数据的模型需要不断积累丰富的处理经验。自动驾驶中的大模型处理作为当前 AI 领域最为火热的前沿趋势之一,可赋能自动驾驶领域的感知、标注、仿真训练等多个核心环节。同时,也可以有效的提升感知精确度,有利于后续规划控制算法的实施,促进端到端自动驾驶框架的发展。
实际上,要想在自动驾驶中应用好大模型训练和学习,就必须为其建立夯实的理论基础,尽量规避其所带来的负面效应。因为,大模型建得越来越大,结构种类、数据源种类、训练目标种类也越来越多,这些模型的性能提升到底有多少?在哪些方面我们仍需努力?
本文将针对大模型学习中可能遇见的问题进行分析梳理,以帮助开发者在利用大模型在自动驾驶场景处理中学习更好的策略,利用有关大模型性能评价的问题,制定一个科学的标准去判断大模型的长处和不足。比如可以通过逐层汇集模型在不同指标、数据集、任务和能力上的得分系统地评估模型在不同方面的表现,在大模型应用中择优避短。要讲清楚这些问题,首先我们需要从“what”、“how”、“why”三个层面做引导分析。
大模型为何是智驾AI发展的必然?
为了讲清楚这个问题,我们这里以最早且应用最好的特斯拉为例说明整个技术变迁过程中如果利用大模型进行有效训练和学习的。
实际上,特斯拉在整个研发领域上经历了4个阶段的技术变迁:
第一阶段:使用常规的骨干网结构,采用2D检测器进行特征提取,训练数据为人工标注。这是一种相对比较原始和传统的模型学习和训练方式;
第二阶段:采用了HydraNet结构,加入特征提取网络BiFPN,将处理图像从图像空间直接转化为向量空间。这种方式能够有效的能执行多任务并行处理,相较于FPN,BiFPN能够更加充分的进行特征融合并且赋予不同特征权重,这样就在很大程度上避免了图像到向量空间中映射偏差。
第三阶段:为了更好的应用AI处理模型,主张去掉雷达,而使用纯视觉方案进行环境感知。并且在图像处理中加入Transformer,骨干网结构中加入了RegNet,同时数据标注中引入自动标注算法。这样更加简单、易理解,不仅解决了CNN算法在BEV遮挡区域的预测问题,保证在降低高复杂计算量的同时提升算法性能和准确度。此外,也能够快速得到高精度地图数据。
第四阶段:在时序感知方面,增加了时空序列与时序信息融合等能力,在空间感知方面,使用占用网络和Lanes Network。性能增强的AI大模型应用也不再受限于视觉感知的处理端口,为了增强汽车感知能力,考虑到4D雷达的效果与成本,AI大模型感知也会将相应的4D雷达点云作为输入数据进行模型训练。
实际上,纵观整个特斯拉自动驾驶算法向AI大模型变迁的整个过程不难看出,其核心在于使用Occupancy Networks(占用网络)进行感知以及使用Lanes Network(车道网络)进行矢量地图绘制。占用网络需要使用多个摄像机拍摄的图像进行3D处理,因此,它可以通过3D物体检测的方式来估计行驶中其他环境目标、物体的位置和大小,即使是动态占用也可以计算出来并且运行效率较高。而车道网络通过对离散空间的预测,能够以自回归的方式将所有的车道线节点进行生成,从而获取更精确的车道线拓扑结构。这两类典型的AI大模型学习算法机制是对自动驾驶领域中应用的最好体现。
实际上,大模型主流网络架构Transformer是早在2017年就提出了。随着模型规模增长,也不难看到其性能提升出现边际递减的情况,那么Transformer是不是AI大模型的终极框架,能否找到比Transformer更好、更高效的网络框架呢?这是后续AI大模型值得探索的基础问题。
实际上,深度学习的人工神经网络的建立受到了神经科学等学科的启发,面向下一代人工智能网络架构,我们也可以从相关学科获得支持和启发。例如,有学者受到数学相关方向的启发,提出非欧空间Manifold网络框架,尝试将某些几何先验知识放入模型,这些都是最近比较新颖的研究方向。
也有一些研究方向偏向于首先建立空间状态模型State Space Model(SSM)用于处理长距离依赖,提升自回归推理速度和远程推理性能;其次,构建动态响应系统Dynamical System(DS)从动力系统的角度看神经网络的方法,该方法在 Delta Tuning Survey 中通过最优控制解释 Delta调谐的方法等,这些计算方向偏向于尝试尖峰神经网络架构。
大模型如何进行训练和学习?
业界发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性。常规的为大众熟知的学习模型包括:少样本/零样本学习、情境学习、思维训练等,还有一些先进一点的算法策略还未被公众广泛关注,这些被称为德尔塔调整(Delta Tuning)。比如突发应对学习、适度预测、参数有效性学习、稀疏激活和功能分区特性等等。
以典型的AI感知大模型为例,当前以“BEV+Transformer”范式开始在自动驾驶领域得到广泛使用。
首先,BEV统一了多模态数据处理维度,将多个摄像头或雷达数据转换至 3D 视角,再做目标检测与分割,从而降低感知误差,并为下游预测和规划控制模块提供更丰富的输出。
其次,BEV实现时序信息融合,BEV 下的 3D 视角相较于 2D 信息可有效减少尺度和遮挡问题,甚至依靠真值信息采集则可通过先验知识“脑补”被遮挡的物体,有效提高自动驾驶安全性。
最后,通过神经网络直接完成端到端优化,统一将感知和预测放到3D 空间中进行计算,从而有效地降低传统感知任务中感知与预测串行的误差累积。
Transformer 的注意力(Attention)机制可帮助实现 2D 图像数据至 3D BEV 空间的转化。Transformer 的网络结构在嫁接2D 图像和 3D 空间时借鉴了人脑的注意力(Attention)机制,在处理大量信息时能够只选择处理关键信息,以提升神经网络的效率,因此 Transformer 的饱和区间很大,Transformer 相比于传统 CNN,具备更强的序列建模能力和全局信息感知能力,这样对于AI大模型中的大数据训练需求是十分有利的。
将BEV视觉处理中结合Transformer的策略主要是将一幅完整的图像拆分为一系列不重叠的子图,然后将这些子图通过线性投影变化后输入Transformer编码器。Transformer编码器由几个自注意层和前馈层组成。自注意力机制允许网络关注图像中的相关补丁,而忽略不相关的补丁。卷积层用于降低图像的空间分辨率,而自注意力层则捕获了补丁之间的长程依赖关系。
大模型如何高效解决计算问题?
要想说清楚大模型如何高效的解决自动驾驶系统在环境探测、轨迹预测和行为决策中的处理过程,就需要从如下几个角度进行全面分析。
1)模型训练
随着模型规模不断增大(Scaling)的过程,如何掌握训练大模型的规律,其中包含众多问题,例如数据如何准备和组合,如何寻找最优训练配置,如何预知下游任务的性能等等。这些KnowHow都是大模型需要关注的问题。
训练模型是在收集到传感器传送回的图像数据后,需先对数据进行清洗,再对其中的车辆、行人、道路标识、车道线等元素进行标注。相较于此前的人工标注,大模型通常采用自动标注的方式进行,这样可以大幅提升工作效率。除感知层外,大模型还有望显著提升后端训练中数据清洗标注的效率,并助力生成新场景以赋能仿真训练。
2)基础运算效率
现在大模型随着自动驾驶行业各车企逐渐将大数据采集闭环纳入设计开发环节,这包含十亿、百亿甚至千亿参数数据也会对计算和存储成本产生巨大的消耗。因此,大模型的这种高效计算体系,会将计算能耗作为综合设计和训练人工智能模型的重要考虑因素,这也是势在必行的。
要想解决大模型运算过程中的运算存储资源问题,需要建立更加高效的分布式训练算法体系,一些高性能的模块算法被提出来了。比如,通过各种并行算法(模型、流水线)将大模型参数分散到不同的GPU计算单元,GPU自身可通过张量卸载、优化器卸载等技术将计算总体分解到不同的CPU和内存上。基于自动调优算法选择分布式算子策略等,通过混合精度训练利用Tensor Core提升模型训练效率,这样可以很好的降低显存开销。
3)推理效率
大模型推理是在模型训练之后进行的,大模型一旦训练好准备投入使用时,就需要充分考虑工程化思路对推理效率的要求。提升效率的方法有多种,其一是将训练好的模型在不损失基础性能的情况下进行模型压缩。
如上图所示,模型压缩的过程包括模型剪枝、知识蒸馏、参数量化等。最后裁剪后的稀疏结构和MAC阵列匹配上,这样就可以根据稀疏激活模式对神经元进行聚类分组,分组后的计算单元只需要调用少量神经元输入模型即可完成计算,这样便可以轻松提升矩阵计算效率。
4)如何高效适配下游任务
在自动驾驶对大模型的应用中不难看出,如何更好的使用训练好的模型是非常重要的。考虑到模型多样性,就需要更多的计算和存储资源。实际上,如何将不太充分的车载计算资源更好的应用到大模型运算和适配中也是我们需要重点考虑的问题。对这种模型适配的探索可以从以下方案中提升模型适配效率。
方案一:提示学习
用附加上下文包装原始输入,使大模型执行预训练任务,即统一训练模型与下游任务接口,从而提升模型适配效率。将下游任务投影到预训练目标处,这里可以举个例子说明大模型如何进行提示学习的。为了提升智驾感知大模型对环境和人类意图理解能力,可通过工程编写合适的提示来激发模型输出。我们在生成执行转向指令并发送给执行端时,就需要产生能更好的适配下游处理模块的指令,结合历史转向响应和手力矩参照模型化思路有效的进行转向前馈指令微调(Instruction Tuning)就显得比较重要了,这样就可以在发送端考虑执行效率以便生成更有效的执行指令用于模型适配。
方案二:Delta微调
这种方式只针对大模型的部分关键参数进行微调,保留大部分参数不变。这种针对性的调谐可以最大限度的节省计算和存储资源。特别是针对当基础模型规模较大且特征较为集中时,这种优势尤其明显。
方案三:模型跟随
这种方式是通过提示微调(Instruction Tuning)提升大模型意图理解能力,这层意图理解包含理解环境目标意图和理解自车驾驶员输入并进行反馈。同时,也可以通过提示工程编写合适的触发指令激活模型中对应的输出。此外,对于一些复杂的驾驶任务,利用思维链等技术来控制模型生成也是一项重要的手段。
方案四:认知学习
大模型的高级认知能力体现在复杂任务的解决能力,有能力将从未遇到过的复杂任务拆解为已知解决方案的简单任务,然后基于简单任务的推理最终完成任务。实际上,大模型在理解复杂数据和场景方面,已经初步具备类人的推理规划能力。在这个过程中,并不谋求将所有信息都已记录在大模型中,而是让大模型善于利用已有的工具模块进行推理,标准化属于称之为“大模型工具学习范式”。该范式核心在于将专业工具与大模型优势相融合,实现更高的准确性、效率和自主性。有望解决模型时效性不足的问题,增强专业知识,提高端到端自动驾驶的可解释性。
写在最后
大模型已呈现出强烈的通用性趋势,具体体现为日益统一的Transformer网络架构,以及各领域日益统一的基础模型,这为建立标准化的大模型系统,使人工智能能力低门槛的部署到自动驾驶专业。同时,考虑到自动驾驶系统中通常需要处理来自不同传感器类型数据。因此,从多种模态数据中学习更加开放和复杂的知识,将会是未来拓展大模型能力边界及提升智能水平的重要途径。从更多模态更大规模数据中学习知识,是大模型技术发展的必由之路。
现有的工作通常针对通用的深度神经网络设计优化策略,如何结合Transformer 大模型的特性做针对性的优化有待进一步研究。未来,如何在大量的优化策略中根据硬件资源条件自动选择最合适的优化策略组合,是值得进一步探索的问题。
来源:焉知汽车