端到端自动驾驶学习实践规划-ClaudeAI 建议
基于你的背景(Python/ML/CV 经验扎实,硬件弱),我给你整理一份针对性的完整路线图。
你的优势定位
你已经跳过了 60% 的入门障碍——深度学习基础、Python、CV 算法都有。端到端自动驾驶对你来说主要是领域知识迁移,而不是从零学起。你需要补的是:BEV 感知、Transformer 在驾驶场景中的应用、规划控制、仿真环境动手实验。
推荐学习路线(按阶段)
第一阶段:核心论文 + 开源代码动手跑(2-4 周)
这是最重要的一步,以下是必读/必跑的开源项目,都有完整代码:
1. UniAD(CVPR 2023 最佳论文)
上海 AI 实验室开源的 Planning-oriented 自动驾驶框架,是端到端领域的里程碑,提出了感知决策一体化的通用大模型架构。 GitHub 地址:OpenDriveLab/UniAD,有完整训练和推理代码,建议优先跑通。
2. OpenDriveLab 端到端综合资源库
上海 AI 实验室维护的 OpenDriveLab/End-to-end-Autonomous-Driving 仓库,对应一篇 IEEE T-PAMI 2024 综述,汇聚了 270+ 篇相关论文、在线课程、工作坊资料、代码框架和示例。 这是目前最系统的一站式资源入口,强烈建议收藏作为主线索。
3. DriveLM(ECCV 2024 Oral)
在 nuScenes 和 CARLA 上构建了 VLM 驾驶数据集,提出了基于图 VQA 的端到端驾驶基线方案,是 VLA 方向(对标小鹏 VLA)的重要参考。
4. NAVSIM 基准
NAVSIM 框架通过在短时序范围内的 BEV 抽象建模,实现了高效开环评测,并与闭环评估保持一致,是目前最接近真实评测的数据驱动仿真基准。 CVPR 2025 挑战赛仍在使用,直接参与是最好的实战训练。
第二阶段:系统课程(付费/社区,1-2 个月)
自动驾驶之心(国内最推荐)
讲师们有量产落地经验,课程中包含实际动手项目,涵盖感知、BEV、规划控制等方向,有一门专门针对工业级的端到端算法与实战教程。
旗下知识星球是国内首个自动驾驶全栈学习社区,涵盖 BEV 感知、Occupancy、端到端、世界模型、轨迹预测、TensorRT 部署等近 30+ 方向学习路线,目前约 4000 名从业者在内交流。
具体推荐课程模块(对你有用的优先级排序):
- 首个面向工业级的端到端算法与实战教程(最直接对口)
- BEV 感知全栈系列(BEVFormer 等,感知侧必备)
- 规划控制理论 & 实战(PNC,搞懂 waypoint 到控制信号的链路)
- CUDA/TensorRT 部署实战(量产落地必备,但你可以后期再补)
第三阶段:仿真环境实战(持续进行)
CARLA 仿真器(免费,最重要的实战平台)
CARLA Leaderboard 2.0 是目前闭环评测的标准基准,nuPlan 和 NAVSIM 用于开环评测,这些都是学术界验证端到端模型的主流平台。
你的实战路径:
- 本地部署 CARLA,跑通 Transfuser / InterFuser 等开源基线
- 在 nuScenes 数据集上跑 UniAD / SparseDrive
- 参加 NAVSIM 挑战赛(有 GitHub 代码框架,直接 fork 改进)
第四阶段:对标 FSD/VLA 的前沿方向
对标特斯拉 FSD 的技术路线:
FSD 的核心是从传感器输入到规划甚至控制信号输出(即 Photon to Control)中间所有步骤都端到端可导,整个系统作为一个大模型进行梯度下降训练。 对应的开源工作是 Transfuser、MILE、Think Twice 系列。
对标小鹏 VLA 2.0 的技术路线:
VLA(视觉-语言-动作模型)方向,DriveLM 和 DriveLM-Agent 是目前最接近的开源参考实现,将语言推理与端到端驾驶结合,在 CARLA 上有完整的挑战赛代码框架。
推荐必读论文清单(按顺序)
| 论文 | 意义 |
|---|---|
| UniAD (CVPR 2023 Best Paper) | 端到端感知规划统一框架,必读 |
| VAD (CVPR 2023) | 矢量化端到端,效率高,代码干净 |
| SparseDrive (清华×地平线) | 目前开源 SOTA,代码质量高 |
| Hydra-MDP (NVIDIA, CVPR 2024 冠军) | 新规划范式,有讲解视频 |
| DriveLM (ECCV 2024 Oral) | VLA 方向,语言+驾驶 |
| NAVSIM | 闭环评测框架,直接上手 |
学习资源汇总
| 资源 | 地址 | 类型 |
|---|---|---|
| OpenDriveLab 综合库 | github.com/OpenDriveLab/End-to-end-Autonomous-Driving |
开源免费 |
| 自动驾驶之心 | zdjszx.com |
付费课程 |
| 自动驾驶之心 GitHub | github.com/autodriving-heart |
开源资料 |
| CARLA 仿真器 | carla.org |
免费仿真 |
| NAVSIM 挑战赛代码 | GitHub 搜 autonomousvision/navsim |
开源实战 |
实际建议
考虑到你有 CV 和 ML 基础,最高效的路径是:直接 clone UniAD 或 SparseDrive,在本地或 Colab 上把训练跑通,边跑代码边对照论文理解架构——这比先看完所有课程要快得多。硬件不懂没关系,端到端自动驾驶的核心是算法,用云 GPU(AutoDL、趋动云)可以完全绕开硬件问题。
推荐
看到课程列表了。根据你的背景(有 CV/ML 经验、讨厌纯理论、想快速上手端到端),给你规划一条最省时、最不容易放弃的路径:
建议学习顺序
第一步:端到端算法与实战(最先开始)
这门课是你整个学习的主线。它直接对准你的目标(端到端),而且叫"实战"的课程通常有代码跑起来,不会一直讲理论。
以你的 Python + CV 背景,大部分内容你会上手很快,遇到不懂的概念再回头补——不要试图先把所有基础补全再开始,那是最容易放弃的方式。
第二步:BEV 感知全栈算法(配合主线并行学)
端到端的输入几乎都是 BEV 表征(类似 FSD 的 BEV space),不懂 BEV 你会在看端到端代码时频繁卡住。这门课可以遇到问题时针对性地翻,而不是从头到尾看完。
重点看:BEVFormer 的 Transformer + 多视角融合部分,其他可以先跳过。
第三步:自动驾驶 VLA 与大模型实战课程(进阶)
对标小鹏 VLA 2.0 的技术路线,等主线跑通之后再来。这门课讲语言模型和驾驶结合的最新方向,你到时候会有更好的感受。
暂时不用碰的课程
| 课程 | 原因 |
|---|---|
| TensorRT 模型部署、BEV 模型部署 | 硬件/部署方向,你当前阶段不需要 |
| 规划控制就业课程 | 对纯算法研究意义有限,可以后期按需补 |
| 自动驾驶产品经理 | 不适合你 |
| 融合感知标定全栈 | 偏硬件/工程,先跳过 |
实践建议(防止放弃的关键)
边学边跑代码,不要等"学完"再动手。每看完一节课就去 GitHub 找对应的开源实现(UniAD、SparseDrive、VAD 都有),把代码跑起来哪怕只是推理一下,立刻会有成就感。
有具体卡在哪里的问题可以随时问我。
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)