VGGT 论文
输入是 N 个 RGB 图像 I i ∈ R 3 × H × W I_i\in\mathbb{R}^{3×H×W} Ii∈R3×H×W 的序列 ( I i ) i = 1 N (I_i)^N_{i=1} (Ii)i=1N,观察相同 3D 场景。
VGGT 的 Transformer 是一个映射函数,将此序列映射为一组对应的 3D 标注, f ( ( I i ) i = 1 N ) = ( g i , D i , P i , T i ) i = 1 N f\left((I_i)^N_{i=1}\right)=(g_i,D_i,P_i,T_i)^N_{i=1} f((Ii)i=1N)=(gi,Di,Pi,Ti)i=1N 。将每个图像 I i I_i Ii 映射到其相机参数 g ∈ R 9 g\in\mathbb{R}^9 g∈R9 (内参和外参)、深度图、点图和用于跟踪的 C 维特征网格。
- 相机参数 g = [ q , t , f ] g=[q,t,f] g=[q,t,f] 采用旋转四元数(


6904

被折叠的 条评论
为什么被折叠?



