用深度学习为自动驾驶汽车构建大脑

感知方面,deepcar后装套件中的传感器包括多个摄像头、雷达和激光雷达,这样的组合可以在某一传感器出现错误或故障的情况下提供一定冗余度,譬如摄像头和雷达可以在雨雪雾等极端天气中精度严重下降的激光雷达提供环境感知。值得一提的是,大部分自动驾驶技术提供商采用高精度地图来弥补传感器缺陷、为自动驾驶提供数据支持路线规划,而Drive.ai则想避免使用维护和运营成本很高、且临时变量不可控的高精度地图,目前使用的是自己收集数据生成的、不包含3D空间内物体信息的2D地图,未来会和第三方地图供应商合作。

决策方面,不同于一些起步较早、技术路线基于传统机器人学的自动驾驶技术提供商,deepcar使用的是基于非规则学习的深度学习网络模型,这有三项优势。其一,场景泛化。规则学习虽然可以快速建立起应对八九成场景的决策系统,面对新的和罕见的情况却很难可靠应对;非规则学习的泛化能力让它可以更好地即时理解数据并解决此类长尾问题。其二,复杂决策。大量算例支持下的非规则学习有复杂决策方面的优势,这已经在AlphaGo等深度学习程序中体现出来。未来会有很长一段时间,路面上会有自动驾驶车辆和人工驾驶车辆共存,而自动驾驶所需的复杂决策(是否超车、变道等等)与围棋相似——基于对方的动作,进行自己的下一步动作,合理地获得路权。其三,硬件需求。自动驾驶过程中,传感器每小时会采集几十GB的数据流,存储和计算都是很大的挑战。利用非规则学习而非现成的知识库进行决策,对计算芯片的效能要求相对较低,在计算能力相当于个人电脑的车载设备上即可完成核心数据处理。

非规则学习的核心、也是进展难点,是海量标注的数据,以及海量的实验试错。Drive.ai的数据源包括采集车收集的真实数据,和模拟器生成的各种场景(包含极端情况)的模拟数据。对这些场景中出现的物体(如车辆、行人、自行车等)进行标注,是个技术瓶颈——每小时车程收集的数据需要800个小时的人工标注,而王弢告诉36氪,deepcar利用自己的标注系统来进行半自动的识别和标注,比其他公司快20倍,能够在短时间内提取到更多有用的数据。在实验方面,Drive.ai的团队同样有较多积累。譬如在使用大规模显卡(CPU+GPU)集群进行大规模神经网络训练方面,Drive.ai就拥有市面上最快的大规模并行计算软硬件基础架构。此前谷歌曾使用千余台机器完成了当时世界最大的深度学习神经网络,Drive.ai彼时在斯坦福的团队用16台机器、十分之一的成本实现了重建。

图像识别智能小车

非规则学习的问题在于算法不可解释:“端到端”的训练中,策略规划有不透明的区域,原理和机制并不明确(“黑盒”)。针对这个问题,Drive.ai采用的是当下学界主流的生成式对抗网络(GANs),将完整的端到端系统拆分开来,在涵盖绝大多数场景的标准化测试机上,对决策机制的不同部分进行验证和测试。

在实现自动驾驶功能之外,deepcar认为自动驾驶车辆与其他通勤者的沟通同样重要,因此设计了包括LED显示屏和声音系统来向行人和自行车示意自己的行为。这些人车交互(HRI, human-robot interaction)部分的设计还在持续开发中。