【技术深度】百车同时“趴窝”:自动驾驶系统性过载背后的并发困境

2024年3月31日晚,武汉街头出现了罕见一幕:近百台萝卜快跑无人车同时在道路中央停滞,双闪灯集体亮起,乘客被困车内动弹不得。交警次日确认系“系统故障”。这并非孤例——同年12月,旧金山全城停电期间,数十台Waymo无人车同样在路口集体停摆。

 【技术深度】百车同时“趴窝”:自动驾驶系统性过载背后的并发困境 IT技术

作为一名长期关注功能安全领域的技术观察者,我试图从技术架构层面拆解这一事件。

功能安全:自动驾驶的底层逻辑

理解这次事件,必须先理解“功能安全”(FunctionalSafety)这一概念。在汽车电子电气系统中,功能安全部门负责定义车辆在异常状态下的行为准则。他们的核心原则简洁到近乎冷酷:一旦检测到可能危及人身安全的异常,系统必须立即进入“最小风险状态”。

举例而言,正常情况下电机应输出100Nm扭矩,若实际输出达到150Nm,功能安全系统会立即切断电机电源,强制车辆减速停靠。这一逻辑看似激进,却是以“最保守策略换取最大安全边际”的工程哲学体现。

并发过载:冗余机制失效的技术根源

萝卜快跑在武汉部署了数百人的地勤团队和云端远程接管系统,这套“冗余机制”在1%偶发接管场景下运转良好。然而,当近百台车辆同时遭遇异常,系统面临的不再是“单点故障”,而是“并发风暴”。

云端安全员的并发处理能力存在物理上限。当异常请求数量突破临界点,冗余设计反而成为新的瓶颈——每个安全员需要同时响应多个告警,信息过载导致决策质量下降,响应时间急剧延长。

 【技术深度】百车同时“趴窝”:自动驾驶系统性过载背后的并发困境 IT技术

L4准入门槛:断网环境下的MRC能力

根据SAE对L4级自动驾驶的定义,车辆必须在系统失效时自动进入“最小风险状态”(MinimalRiskCondition,MRC)。这意味着真正的L4车辆必须具备“断网也能靠边停车”的兜底能力。

技术实现层面,这依赖于线控底盘的冗余设计。即便中央决策系统断网,底盘的局部控制单元应能基于惯性导航和周边感知,自主完成“蹭到路边”的避险动作,而非原地“自闭”。萝卜快跑选择的失效模式是“原地开启双闪停车”,这一策略在公共安全层面是负责任的,但在用户体验层面显然还有优化空间。

技术路线与系统性过载的关系

有观点认为,高精地图+规则AI的技术路线在面对未知场景时只能选择“停车”而非“靠边”。但这一论断需要审慎评估。即便采用这一技术路线,通过合理的功能安全设计,理论上完全可以实现靠边停车的MRC能力。技术路线并非决定性因素,系统架构的冗余设计才是关键。

行业启示:扩张速度与安全冗余的平衡

萝卜快跑已在26个城市运营,累计订单超2000万单,扩张速度不可谓不快。但这次事件暴露的恰恰是:安全冗余的建设速度未能匹配运营规模的增长。这不是百度一家的困境,而是所有L4运营方必须面对的命题。

解决路径并非“增加更多人力冗余”,而是提升单车的“局部自治能力”。只有当接管率再降一至两个数量级,一个云端安全员能同时管理数十台车辆时,Robotaxi的商业模式才能真正跑通。

对于普通用户而言,日常通勤场景乘坐萝卜快跑是可靠的;但在赶会议、赶飞机等时间敏感场景,建议预留充足的冗余时间以应对极端情况。