用BEVformer来卷自动驾驶-1

最新推荐文章于 2026-06-27 15:24:39 发布

原创

最新推荐文章于 2026-06-27 15:24:39 发布 · 1.3k 阅读

·

25

·

本文介绍了BEV（Bird's-Eye-View）在自动驾驶中的重要性，通过将多组2D特征映射到3D空间进行融合，实现鸟瞰视角。BEVformer利用Transformer进行特征级别的融合，解决了前后融合的问题，为自动驾驶提供了一种新的框架。加入了时间维度后，BEV能够处理速度、轨迹预测等任务，确保在视线受阻时仍能做出合理决策。

之所以是-1，是因为大概率1篇文章写不完，但是又不知道应该用几篇来说事，先写着看

按照惯例，上论文地址：2203.17270v1.pdf (arxiv.org)

什么是BEV， Bird's -Eye-View的意思，就是鸟瞰

比如稍微传统一些的自动驾驶，大部分的实现。如果靠纯CV的方案的话，那么基本上不管你做什么下游任务，物体检测也好，还是分割图像也好，就看到你眼前这一块，或者说摄像头里这一块视野，然后分别对自己摄像头里的任务产生的结果做决策

鸟瞰就不一样了，让你能开上帝视角，参见特斯拉的那种行驶界面

如上图所示，中间的图才配称得上是鸟瞰图，它可以感知周遭的一切环境，无死角的感知，进而来实现最合理的驾驶action（和高精地图的方案是不一样的，高精地图只有对主观路况的呈现，记得是主观路况的呈现，而不是感知，同时如果不配合雷达或者其他的方案是无法对同一物理时间的周遭其他对象进行感知的）

下面说它的实现方式

标签

#自动驾驶 #人工智能 #机器学习

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。