【论文笔记】视觉重定位 DSAC – Differentiable RANSAC for Camera Localization && CVPR 2017

最新推荐文章于 2026-03-02 10:12:21 发布

原创

最新推荐文章于 2026-03-02 10:12:21 发布 · 4.6k 阅读

·

2

·

DSAC方法克服了RANSAC不可微的问题，实现端到端的相机位姿预测，显著提升视觉定位精度。基于场景坐标回归森林，利用深度神经网络与DSAC改进模型，适用于相机定位。

通讯作者：Carsten Rother

第一作者：Eric Brachmann

研究机构：德累斯顿工业大学，微软

代码地址：DSAC

自己的想法：

随机森林的思想在很多需要解决歧义性和多解的问题中出现，如果一个预测器没法分辨出相似的两种情况，那就训练多个预测器。

论文解决的问题

解决了RANSAC方法不可微因而无法应用到深度学习中的问题。

首先介绍下RANSAC：

该算法用于将模型拟合到一组存在噪声的数据上的任务，已经有多种RANSAC的变种被提出，这里只介绍基础版本。

通过对数据的最小子集进行采样来生成一组模型假设
基于某种相似性的量度对模型假设进行打分
选择分数最高的模型假设
使用其他数据点来优化完善所选择的模型假设

算法不可微，因此RANSAC不能参与到深度学习模型的训练过程中去。

现有方法的不足 & 本文贡献

现有的基于RANSAC的相机位姿预测方法都没有能够端到端训练的。

本文提出了两种克服RANSAC不可微的方法，其中效果较好的一种叫做DSAC。为了证明DSAC的有效性，作者将其应用到相机定位问题中，显著提升了视觉定位的精度（高出SOTA 7.3%）。

论文方法介绍

具体的，作者基于场景坐标回归森林（SCoRF）的方法，使用深度神经网络和DSAC对其改造，论证了DSAC的效果。

标注说明：

$I、\ i$ 分别表示输入图像和像素的index，

$y(I,i)、\ y_i$ 均表示像素 $i$ 的三维坐标的预测值，

$Y(I)、\ Y$ 均表示对图像$I $的所有像素的三维坐标的预测值。

$\tilde{h}$ 表示模型参数

模型概述：

在这里插入图片描述

如上图，

首先使用W网络对输入图像进行预测，得到每一个像素点的三维坐标预测值（correspondences）。
每个最小坐标子集 $Y_J$ 包含4个correspondences（通过随机采样获得），通过PNP算法每个最小坐标子集可以得到一个模型假设。通过这种方法得到一个假设集 ${h_i\}$
使用基于重投影误差的标量函数S对每个假设模型打分。
选择得分最高的一个假设模型 $h_{AM}$ ，使用剩余的correspondences对该最佳假说模型进行优化。

$重投影误差：\quad e_i=‖pi−Ch_Jy_i‖\quad pi为像素i的坐标，C是相机的投影矩阵\\当重投影误差小于设定的阈值时该点即被视为inlier，否则视为outlier\\标量函数 s(h_J,Y) 统计了假说h_J的inlier数目作为打分数值\\$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。