目录 第6章 视觉感知与场景理解 6.1 视觉表示学习基础 6.1.1 从CNN到ViT:视觉骨干网络演进 6.1.2 自监督视觉表示:对比学习、掩码建模 6.1.3 多尺度特征金字塔 6.1.4 视觉预训练大模型 6.2 目标检测与分割 6.2.1 两阶段检测器:R-CNN系列 6.2.2 单阶段检测器:YOLO系列 6.2.3 实例分割:Mask R-CNN, SOLO 6.2.4 全景分割与统一架构 6.3 开放词汇与基础模型 6.3.1 CLIP:对比语言-图像预训练 6.3.2 开放词汇检测:Grounding DINO 6.3.3 分割一切:SAM与SAM 2 6.3.4 视觉提示与上下文学习 6.4 三维视觉感知 6.4.1 深度估计:单目、双目、多视图 6.4.2 点云处理:PointNet, PointNet++, Point Transformer 6.4.3 神经辐射场(NeRF)与3D高斯泼溅 6.4.4 显式vs隐式3D表示 6.5 动态视觉与视频理解 6.5.1 视频动作识别:I3D, SlowFast 6.5.2 目标跟踪:单目标、多目标、视觉目标跟踪 6.5.3 视频预测与物理直觉 6.5.4 视觉里程计与SLAM 第6章 视觉感知与场景理解 6.1 视觉表示学习基础 6.1.1 从CNN到ViT:视觉骨干网络演进 卷积神经网络(C