10月17日,在汽车机器人极越01正式上市前夕,极越发布了其国内首个BEV+Transformer“纯视觉”高阶智驾技术方案,现已在上海城区道路实现领航辅助驾驶。同时,极越与百度联合研发的国内首个占用网络技术(Occupancy Network,“OCC”)也首次对外公布,该技术的引入将进一步提升汽车机器人“纯视觉”高阶智驾能力。
此外,极越还展示了全球领先的智能汽车智舱交互能力,智能AI伙伴SIMO能完成整车几乎所有功能操控。百度董事长兼首席执行官李彦宏表示:“基于百度AI底层能力全面开放赋能的极越01,将成为目前最聪明、最懂你的汽车机器人。”
极越“纯视觉”高阶智驾方案 跑通上海城区道路
作为行业首个Apollo高阶自动驾驶能力全面赋能的智能汽车,极越01搭载双NVIDIA DRIVE Orin芯片,其高阶智驾已覆盖高速、城市、泊车场景下的“多域融通”。
在1.0阶段,极越研发了“纯视觉为主+激光雷达”融合的高阶智驾方案,两套双独立系统互为备份、相互补充。而随着底层AI视觉算法能力的快速升级,极越高阶智驾已经进入2.0阶段,不再借助激光雷达,并逐步降低对高精地图的依赖程度,基于BEV+Transformer的“纯视觉”技术方案高度成熟,为全国范围内更大城市规模的场景泛化奠定了基础。
目前,极越高阶智能辅助驾驶系统的核心功能——点到点领航辅助PPA凭借纯视觉能力就已跑通上海城区主要核心道路。在极越官方社交账号发布的一段城市领航辅助驾驶路试视频中,一台仅搭载纯视觉感知架构的极越01“一镜到底”跑完了上海陆家嘴-外滩-南浦大桥等路段,全程零接管,从容应对各种复杂路况,充分展示了国际头部梯队应有的实力。
为进一步拉高“纯视觉”技术方案的能力上限,也为更安全、更放心的用户体验,极越与百度联合研发了OCC占用网络技术。BEV+Transformer的“纯视觉”方案+OCC占用网络技术会成为极越高阶智驾的完整体系,现已具备量产能力,很快就会实现落地应用,代表国内高阶智驾绝对领先水平。
凭借BEV+Transformer的“纯视觉”,能够快速、精准地预测道路参与者的位姿轨迹,配合业内领先的OCC占用网络技术能够帮助汽车机器人更准确还原3D场景,可以获取比激光雷达点云分辨率更高的三维结构信息,还能减少漏检、误检并弥补视觉所不具备的空间高度信息,突破能力上限和提升安全保障的同时,完全替代了激光雷达,大幅提升了泛化能力。
在极越发布的OCC占用网络技术演示视频中,OCC技术在汽车机器人的视觉世界里,实时重建还原3D场景。极越01的感知系统用体素清晰展示了栏杆、绿植、路障等标准障碍物,同时还精准识别出了施工中的工程车、树木中的路灯等异形障碍物,能适应更复杂场景和不同环境。
极越CEO夏一平表示:“为始终保持汽车机器人领先一代的智能化竞争力,极越纯视觉方案端到端的训练正在以‘周更’的速度快速迭代。接下来,随着交付量的快速攀升,基于高效数据闭环体系将让极越高阶智驾呈现指数级进化。”
“类人”的自然交流 最聪明的汽车机器人
作为全球首台“AI汽车机器人”,除了拥有全球领先的高阶智能驾驶能力外,极越01还具备卓越的智舱语音交互能力,国内首发搭载高通第4代骁龙汽车数字座舱平台8295芯片,并首次完全启用双NPU。得益于超强算力,35.6英寸6K超清一体大屏交互丝滑不卡顿,业界率先做到语音AI算法全量本地化,全域全离线语音识别速度快至500ms,并支持主驾免唤醒、四音区同时聊等功能,脱离网络依然极速交互。
在10月17日的百度世界大会上,百度董事长兼首席执行官李彦宏展示了在百度AI全面赋能之下,极越01全球领先的语音交互能力。极越01的智能座舱最大程度取消了物理按键,用户仅使用语音指令就能操控整车几乎所有功能。
在演示中,极越01的语音交互完美诠释了“快、准、稳”,不仅覆盖车内车外、四路同说、连续对话等复杂场景,还融合语音、手势、视觉识别等多模态交互,根据用户喜好和习惯带来个性化的体验。一句SIMO,即可让再模糊的指令也表现出最聪明的交互结果。未来,极越01还将搭载车端语音大模型,助力“自然交流”再进阶。
极越01将于10月底正式上市,并同步开启交付,所有高阶智能化能力均可做到业界领先的“开箱即用”。目前,汽车机器人极越01已于9月19日开启预售,预售价25.99万元起,24小时订单超1.5万台。10月8日,极越01首批量产车已批量发运全国线下体验中心,即将面向广大用户开启全功能试驾体验。
关于极越
极越是高端智能汽车机器人品牌,致力于打造智能化领先的汽车机器人,以高阶智驾、智舱产品和创新数字化服务,为用户创造标杆级智能科技出行体验。
延伸信息 - OCC占用网络技术
占用网络技术,以视觉信号为基础,在传统3D目标识别能力之上,通过体素(Voxel)化的方式理解和处理空间信息。由于增加了体素占用的感知,感知系统可以对3D物理空间的可通行区域进行高保真度还原,不需要考虑物体是什么,只考虑体素是否被占用,从根本上避免传统视觉对非训练集内物体的漏检问题,使模型的泛化能力大幅提升,能更好适应不同场景和环境。相比激光雷达产生的稀疏且不连续的点云,高清摄像头采集的信息内容更丰富,让占用网络更好地将3D几何信息与语义信息融合,帮助汽车机器人更准确还原3D场景。