【技术深度】百车同时“趴窝”：自动驾驶系统性过载背后的并发困境

2024年3月31日晚，武汉街头出现了罕见一幕：近百台萝卜快跑无人车同时在道路中央停滞，双闪灯集体亮起，乘客被困车内动弹不得。交警次日确认系“系统故障”。这并非孤例——同年12月，旧金山全城停电期间，数十台Waymo无人车同样在路口集体停摆。

作为一名长期关注功能安全领域的技术观察者，我试图从技术架构层面拆解这一事件。

功能安全：自动驾驶的底层逻辑

理解这次事件，必须先理解“功能安全”（FunctionalSafety）这一概念。在汽车电子电气系统中，功能安全部门负责定义车辆在异常状态下的行为准则。他们的核心原则简洁到近乎冷酷：一旦检测到可能危及人身安全的异常，系统必须立即进入“最小风险状态”。

举例而言，正常情况下电机应输出100Nm扭矩，若实际输出达到150Nm，功能安全系统会立即切断电机电源，强制车辆减速停靠。这一逻辑看似激进，却是以“最保守策略换取最大安全边际”的工程哲学体现。

萝卜快跑在武汉部署了数百人的地勤团队和云端远程接管系统，这套“冗余机制”在1%偶发接管场景下运转良好。然而，当近百台车辆同时遭遇异常，系统面临的不再是“单点故障”，而是“并发风暴”。

云端安全员的并发处理能力存在物理上限。当异常请求数量突破临界点，冗余设计反而成为新的瓶颈——每个安全员需要同时响应多个告警，信息过载导致决策质量下降，响应时间急剧延长。

根据SAE对L4级自动驾驶的定义，车辆必须在系统失效时自动进入“最小风险状态”（MinimalRiskCondition,MRC）。这意味着真正的L4车辆必须具备“断网也能靠边停车”的兜底能力。

技术实现层面，这依赖于线控底盘的冗余设计。即便中央决策系统断网，底盘的局部控制单元应能基于惯性导航和周边感知，自主完成“蹭到路边”的避险动作，而非原地“自闭”。萝卜快跑选择的失效模式是“原地开启双闪停车”，这一策略在公共安全层面是负责任的，但在用户体验层面显然还有优化空间。

有观点认为，高精地图+规则AI的技术路线在面对未知场景时只能选择“停车”而非“靠边”。但这一论断需要审慎评估。即便采用这一技术路线，通过合理的功能安全设计，理论上完全可以实现靠边停车的MRC能力。技术路线并非决定性因素，系统架构的冗余设计才是关键。

萝卜快跑已在26个城市运营，累计订单超2000万单，扩张速度不可谓不快。但这次事件暴露的恰恰是：安全冗余的建设速度未能匹配运营规模的增长。这不是百度一家的困境，而是所有L4运营方必须面对的命题。

解决路径并非“增加更多人力冗余”，而是提升单车的“局部自治能力”。只有当接管率再降一至两个数量级，一个云端安全员能同时管理数十台车辆时，Robotaxi的商业模式才能真正跑通。

对于普通用户而言，日常通勤场景乘坐萝卜快跑是可靠的；但在赶会议、赶飞机等时间敏感场景，建议预留充足的冗余时间以应对极端情况。