Realsense D435i相机多模态图像采集与坐标系解析

最新推荐文章于 2026-05-03 05:29:56 发布

原创

最新推荐文章于 2026-05-03 05:29:56 发布 · 359 阅读

标签

#Realsense #图像采集 #计算机视觉 #深度相机

1. 从拆解相机开始：D435i的“三只眼”到底在看什么？

第一次拿到Realsense D435i的时候，你可能和我当初一样，看着它前面板上那几个并排的“小眼睛”有点懵。这玩意儿到底是怎么同时看到彩色世界和深度信息的？别急，咱们今天不聊那些复杂的数学公式，就用大白话把它掰开揉碎了讲清楚。

D435i本质上是一个“三合一”的视觉系统。它最核心的部分是三个独立的镜头：一个RGB彩色相机，两个红外（IR）相机。你把它拿在手里，从左到右看，通常左边那个是左红外相机，中间是RGB彩色相机，右边是右红外相机。在它们旁边，还有一个不起眼的红外激光投射器（Emitter），你可以把它想象成一个结构光“手电筒”，用来在弱光环境下给物体“打光”，帮助红外相机看清纹理。不过，在咱们今天要讲的图像采集里，为了看到最原始的红外图像，我通常会先把这个投射器关掉，这个后面写代码时会提到。

这三个镜头各司其职，但又紧密协作。两个红外相机构成了一个经典的立体视觉系统，就像我们人的两只眼睛。它们同时拍摄两幅略有视角差的红外图像，通过计算同一个点在两幅图像中的位置偏差（视差），就能精确地算出这个点离相机有多远，从而生成整张深度图。而中间的RGB相机，就是用来获取我们人眼看到的彩色照片。

这里有个关键点，也是新手最容易混淆的地方：深度图和彩色图，来自于两个不同的“视角”。因为RGB相机和左红外相机在物理上并不在同一个位置，它们之间有几厘米的偏移。所以，同一个物体在深度图上的像素坐标和在彩色图上的像素坐标，天然就是对不齐的。这就引出了我们今天要解决的核心问题：如何理解并处理这两个坐标系之间的关系？以及如何让它们“同步”工作，采集到时间上和空间上都匹配的多模态数据？

2. 坐标系“连连看”：深度与彩色世界的空间对话

理解了相机硬件，我们再来聊聊软件和算法层面最重要的概念——坐标系。你可以把每个相机镜头都想象成一个独立的小世界，它有自己的原点（镜头的光心）和XYZ轴方向。要让深度信息和彩色信息能“对上号”，就必须搞清楚这几个小世界之间的“地图”和“转换规则”。

2.1 深度坐标系：以左红外相机为“老大”

在Realsense的设定里，深度坐标系的原点，是左红外相机的光心。这是整个空间计算的基准点。它的坐标轴定义非常直观：

X轴：从左红外相机的光心，水平指向右红外相机的光心。这很好理解，因为深度计算的核心就是靠左右眼的横向视差。
Y轴：在相机平面内，垂直向下。也就是图像中从上到下增加的方向。
Z轴：垂直于相机镜头的平面，指向相机正前方。这个方向就是深度值的方向，Z值越大，表示物体离相机越远。

所以，任何一个由深度相机计算出来的三维点（X, Y, Z），其坐标值都是相对于这个“左红外光心坐标系”而言的。

2.2 彩色坐标系：RGB相机的独立视角

彩色图像也有自己的坐标系，它的原点在RGB相机的光心。它的X、Y、Z轴正方向定义，与深度坐标系保持一致。也就是说，如果我们想象把RGB相机平移到左红外相机的位置，它们的坐标轴方向是完全重合的。这纯粹是为了计算方便而做的约定。

那么问题来了：既然原点不同，一个点在深度坐标系下的坐标(Xd, Yd, Zd)，怎么变到彩色坐标系下的坐标(Xc, Yc, Zc)呢？这就需要用一个外参矩阵（Extrinsics），它描述了两个坐标系之间的旋转和平移关系。对于D435i，这个外参矩阵就是从深度坐标系（左红外）到彩色坐标系（RGB）的刚体变换矩阵。这个矩阵是相机出厂时就标定好的，我们可以通过SDK直接获取。它本质上就是一个4x4的矩阵，包含了旋转部分R（3x3）和平移部分t（3x1），能把一个点从深度坐标系变换到彩色坐标系：[Xc, Yc, Zc, 1]^T = T * [Xd, Yd, Zd, 1]^T。

2.3 内参矩阵：从3D世界到2D像素的“投影仪”

有了三维坐标，我们还需要知道它对应到图像上的哪个像素。这个映射关系由内参矩阵（Intrinsics）决定。每个镜头都有自己的内参矩阵，它包含了镜头的焦距(fx, fy)、光学中心(cx, cy)以及畸变系数。

这里有一个非常重要的细节，也是我踩过坑的地方：内参矩阵和图像分辨率强相关！ 比如，你把RGB相机设为1280x720，和设为640x360，它的内参矩阵（特别是cx, cy）是完全不同的。因为cx, cy表示的是光心在图像像素坐标系中的位置，分辨率一变，这个像素坐标自然就变了。原始文章里提到的配置（RGB: 1280x720， IR: 848x480）是D435i的常用配置，能较好地平衡视野和性能。如果你改了分辨率，就必须重新获取对应分辨率下的内参，否则后续的坐标对齐、点云生成都会出错。

为了方便理解，我把这两个核心坐标系的关系整理成了下面这个表格：