通讯作者:Carsten Rother
第一作者:Eric Brachmann
研究机构:德累斯顿工业大学,微软
代码地址:DSAC
自己的想法:
随机森林的思想在很多需要解决歧义性和多解的问题中出现,如果一个预测器没法分辨出相似的两种情况,那就训练多个预测器。
解决了RANSAC方法不可微因而无法应用到深度学习中的问题。
首先介绍下RANSAC:
该算法用于将模型拟合到一组存在噪声的数据上的任务,已经有多种RANSAC的变种被提出,这里只介绍基础版本。
- 通过对数据的最小子集进行采样来生成一组模型假设
- 基于某种相似性的量度对模型假设进行打分
- 选择分数最高的模型假设
- 使用其他数据点来优化完善所选择的模型假设
算法不可微,因此RANSAC不能参与到深度学习模型的训练过程中去。
现有的基于RANSAC的相机位姿预测方法都没有能够端到端训练的。
本文提出了两种克服RANSAC不可微的方法,其中效果较好的一种叫做DSAC。为了证明DSAC的有效性,作者将其应用到相机定位问题中,显著提升了视觉定位的精度(高出SOTA 7.3%)。
具体的,作者基于场景坐标回归森林(SCoRF)的方法 ,使用深度神经网络和DSAC对其改造,论证了DSAC的效果。
标注说明:
I 、 i I、\ i I、 i 分别表示输入图像和像素的index,
y ( I , i ) 、 y i y(I,i)、\ y_i y(I,i)、 yi均表示像素 i i i的三维坐标的预测值,
Y ( I ) 、 Y Y(I)、\ Y Y(I)、 Y均表示对图像$I $的所有像素的三维坐标的预测值。
h ~ \tilde{h} h~ 表示模型参数
模型概述:

如上图,
- 首先使用W网络对输入图像进行预测,得到每一个像素点的三维坐标预测值(correspondences)。
- 每个最小坐标子集 Y J Y_J YJ包含4个correspondences(通过随机采样获得),通过PNP算法每个最小坐标子集可以得到一个模型假设。通过这种方法得到一个假设集 { h i } \{h_i\} { hi}
- 使用基于重投影误差的标量函数S对每个假设模型打分。
- 选择得分最高的一个假设模型 h A M h_{AM} hAM,使用剩余的correspondences对该最佳假说模型进行优化。
重 投 影 误 差 : e i = ‖ p i − C h J y i ‖ p i 为 像 素 i 的 坐 标 , C 是 相 机 的 投 影 矩 阵 当 重 投 影 误 差 小 于 设 定 的 阈 值 时 该 点 即 被 视 为 i n l i e r , 否 则 视 为 o u t l i e r 标 量 函 数 s ( h J , Y ) 统 计 了 假 说 h J 的 i n l i e r 数 目 作 为 打 分 数 值 重投影误差:\quad e_i=‖pi−Ch_Jy_i‖\quad pi为像素i的坐标,C是相机的投影矩阵\\当重投影误差小于设定的阈值时该点即被视为inlier,否则视为outlier\\标量函数 s(h_J,Y) 统计了假说h_J的inlier数目作为打分数值\\ 重投影误差:ei=‖pi−ChJyi‖pi为像素i的坐标,C是相机的投影矩阵当重投影误差

DSAC方法克服了RANSAC不可微的问题,实现端到端的相机位姿预测,显著提升视觉定位精度。基于场景坐标回归森林,利用深度神经网络与DSAC改进模型,适用于相机定位。

1003

被折叠的 条评论
为什么被折叠?



