正如生物的智力进化史一样,从低智生物到高智生物,对应的是神经元的持续集中化,并最终进化出大脑。随着自动驾驶逐步驶入量产快车道,从L2到L4每提升一级,AI对算力的需求将跃升一个数量级。我们看到,计算集中化的进程正在加速,汽车电子电气架构也从分布式ECU架构向域控制器以及中央计算架构演进。WWW大手笔网—中国第一文化门户网站
地平线征程系列车规级AI芯片
为支持更高级别自动驾驶应用,向软件定义汽车提供高性能、大算力的整车智能中央计算平台,地平线选择的路径是通过软硬结合,面向应用场景驱动软件创新,继而从软件创新驱动新的芯片架构,即「从场景中来,到场景中去」。
基于双核贝叶斯BPU的征程5芯片
以场景为中心
打造更高效的BPU
针对高等级自动驾驶需求,地平线结合征程2、征程3大规模前装量产的经验,并通过多轮微架构迭代,打造颠覆式的第三代BPU专用处理器架构——贝叶斯。
作为一款从设计之初就开始考虑算法演进趋势的先进架构,贝叶斯经过较长研发周期后,仍然能够保证地平线征程5快速适应最新的主流算法,并使之随着算法迭代演进始终保持高效的利用率,让终端用户真正受益于软件算法创新带来的价值。
那么,贝叶斯是如何始终保障高效性的呢?答案就在于“软硬结合”这一核心技术路径。基于对自动驾驶技术演进的洞察,地平线深入挖掘下一代自动驾驶典型场景,前瞻性地将计算特点融入到贝叶斯架构的具体设计中,具体而言主要体现在以下三点:
1、聚焦领先算法趋势,持续优化
针对高效神经网络进行深度优化,同时协同映射指导芯片架构设计。为满足高等级自动驾驶多功能、多场景的计算需求构建贝叶斯,保证地平线征程5更好满足未来自动驾驶相关算法在BPU上的适用性,以达成实际最佳AI计算效能。
2、面向自动驾驶场景的垂直打穿
精度、带宽和稳定性是自动驾驶的天然诉求,贝叶斯聚焦以上问题进行了大量的专项优化,例如:通过对精度和性能的折中优化以降低内存占用和访问量,保证低延迟;结合完整数据链路,提升前后处理和网络加速的协同性;通过任务优先级判断实现多模型的灵活调度;避免计算瓶颈和访存冲突,保障网络加速与应用的直接配合。
自动驾驶场景面临的挑战
3、软硬联合设计,协同优化
协同优化算法、编译器、计算架构,利用地平线在AI加速计算的深厚积累将并行计算发挥到极致,大幅提高AI计算效率,优化计算密度和能效。
软硬联合,协同设计
五大关键创新
破解自动驾驶计算效率难题
自动驾驶迭代过程中,传感器数量、运行设计域、神经网络模型复杂度随之增加;同时自动驾驶任务环节更为复杂,非线性计算量递增,这对AI芯片提出了极大计算挑战。为实现更强计算效率,高效使用内存带宽,大规模的高并行计算便成为架构设计的必要考虑因素。
而人工智能算法中最消耗运算量的地方是矩阵运算,即乘积累加运算Multiply Accumulate(MAC)。贝叶斯的独特性设计能够将并行计算发挥到极致,以更少内存、更高MAC利用率来执行更多任务。这源于三项围绕它的核心技术:
1、大规模异构计算:自动驾驶涉及大量异构计算,贝叶斯针对场景为每种类型提供了最佳计算模式配比。小容量L0 Memory保证每个计算单元的数据访问极致高效,大容量L1 Memory以2D阵列方式存储,由所有计算单元共享,降低本地数据移动频次。结合跨层聚合(Layer binning)技术,实现本地化计算多个模型层级,从而进一步提升数据的利用效率,很多数据可以重复大量的计算。
2、高灵活大并发数据桥:地平线专门设计的高带宽数据传输通路,将多个计算单元和L1 2D存储阵列灵活相连,特征压缩节省了数据带宽和存储空间,提供各计算单元所需的高数据吞吐,从而提高计算单元的利用率。
3、脉动张量计算核:计算单元从存储器(Memory)读取数据进行处理并回传的过程中,存取的速度往往大大低于数据处理的速度。如图,芯片将来自L0 Memory的数据流经MAC阵列,在数据的交叉流动过程中完成计算,大幅降低了L1 Memory访问次数,从而降低计算功耗、延迟和所需数据带宽。
当然,除了硬件架构特性,AI芯片还需要编译器层面的优化调度才可以发挥出极致效能。在编译器中,地平线机器人通过多维数据拆分重组,指令流水和异构并发调度,以及跨层计算融合,在复杂的组合排列中寻找出最优化组合。另外,地平线机器人通过软硬件协同优化极大提升了L1 Memory中的数据复用效率,在达到高度并行计算的同时将数据溢出到DDR的数量降到极致,这也是底层意义上的软硬结合。
面对自动驾驶真实复杂场景的检测问题,BPU在设计过程中进行了全方面的系统思考,使得地平线征程5得以对先进模型代表的AI任务进行高效计算。在进行自动驾驶典型任务(EfficientNet模型)测试时地平线的软硬结合得到了充分体现,各精度下征程5平均帧率(FPS)和能效比(FPS/Watt)表现均优于Nvidia Xavier、Nvidia Orin。自动驾驶芯片不能单纯追求算力,还需要关注芯片真实的运行效率。
此外,自动驾驶应用除了高效的AI计算外,对低延迟也非常敏感。在紧急制动情景下,100毫秒意味着近1.7-3.3米的刹车距离,延迟问题将直接关乎驾驶安全。
贝叶斯在设计之初就考虑即时处理模式和复合型、灵活的优先级调度机制。即一方面支持高度并行计算,同时小批量实施即时的数据处理,并通过时间切片优先调度关键任务,从而实现了极致的流水线优化压缩。基于征程5实测,8M单目前视感知结构化输出延迟小于60毫秒,这一指标远优于行业,极大提升了驾驶安全性。
唯一可获得的量产级
全场景整车智能计算平台
可量产是检验技术领先性与有效性的最高标准,伴随着征程®5的成功推出,地平线成为业内唯一覆盖L2-L4全场景整车智能量产级解决方案的公司,能够向客户与合作伙伴提供软硬结合的平台级方案。
地平线征程5
全场景整车智能中央计算芯片
基于双核贝叶斯架构的征程®5得到了业界广泛关注,被认为是面向高级别自动驾驶打造的集高效、开放、安全于一体的专用AI芯片,能够支持自动驾驶所需要的多传感器感知、融合、预测、规划等需求。
依托征程5打造的Matrix®5整车智能中央计算平台,现已联合多家合作伙伴推出基于该平台参考设计的多款硬件平台产品,可大幅提升上层应用开发与车型量产落地速度。
Horizon SuperDrive
全场景整车智能解决方案
地平线可提供基于征程5,集全场景自动驾驶、多模人机交互和车内外联动于一体的Horizon SuperDrive®全场景整车智能解决方案,能够帮助客户和合作伙伴打造更具智能化、人性化的人车共驾新体验。
截至2021年底,地平线征程系列芯片累计出货超过百万片。未来,地平线将坚持定位Tier-2,持续以软硬协同、灵活开放的商业合作模式与广泛的行业伙伴深度合作、协同创新,致力于为消费者创造美好的智能驾驶体验。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。