从分割万物到追踪万物：MASA如何用自监督与Adapter解锁跨域通用跟踪

原创

于 2026-03-09 00:34:25 发布 · 98 阅读

标签

#多目标跟踪 #自监督 #Adapter #CVPR2024

1. 从“分割一切”到“追踪一切”：MASA想解决什么难题？

大家好，我是老张，在AI和计算机视觉这个圈子里摸爬滚打了十几年，从早期的传统特征匹配，到后来的深度学习，再到如今这些动辄几十亿参数的“基础模型”，可以说是看着这个领域一步步“卷”过来的。今天想和大家聊聊一个让我眼前一亮的CVPR 2024工作——MASA。这名字挺有意思，Matching Anything by Segmenting Anything，翻译过来就是“通过分割万物来匹配万物”。说白了，它的野心就是把SAM（Segment Anything Model）那“看啥分啥”的逆天能力，直接转化成“看啥跟啥”的通用追踪器。

咱们先聊聊痛点。传统的多目标跟踪（MOT）技术，比如你在监控视频里追行人、在无人机画面里数车辆，其实都挺“挑食”的。什么意思呢？你训练一个在“行人数据集”上表现优异的跟踪模型，把它直接扔到“野生动物纪录片”里，让它去追斑马，它大概率就懵了。因为模型在学习过程中，已经深深地记住了“行人”这个特定领域（Domain）的外观、姿态、运动模式。一旦换了场景，模型学到的那些“知识”就不太管用了，这就是所谓的“域鸿沟”。

所以，业界一直有个梦想：能不能做一个“通用”的跟踪器？不挑食，不认生，给它看任何视频，无论是街景、手术室、显微镜下的细胞，还是足球比赛，它都能自动识别出里面的物体，并稳定地追踪下去。这听起来就像让一个只会下中国象棋的AI，突然也能下国际象棋和围棋一样难。核心挑战有两个：第一，数据从哪来？给“万物”都标注跟踪数据，成本是天文数字。第二，模型怎么学？如何让一个模型学会“追踪”这个抽象动作本身，而不是记住特定物体的长相？

MASA的聪明之处就在于，它巧妙地绕开了这两个大山。它发现，SAM这个“分割万物”的模型，本身就是一个取之不尽、用之不竭的“知识宝库”。SAM虽然不会跟踪，但它能在单张图片里，把任何物体都精准地抠出来。那么，如果我们能自己“制造”出跟踪所需要的“监督信号”呢？MASA给出的答案就是：自己跟自己玩。通过对一张图片进行各种“花样百出”的几何变换（比如旋转、裁剪、扭曲），然后让SAM去分割变换前和变换后的图片。因为变换规则是我们自己定的，所以同一个物体在变换前后的像素对应关系，我们心知肚明。SAM的分割结果，则把这些像素组织成了“物体实例”。这样一来，我们就免费获得了海量的、跨领域的“配对数据”：同一个物体，在两种不同视角下的样子。这就是MASA最核心的“自监督”信号来源，完全不需要人工标注。

有了这个思路，剩下的就是工程实现了：如何设计一个轻巧高效的模型，来学习这种“配对”能力，并最终用于视频帧与帧之间的跟踪？这就是MASA中另一个关键设计——**轻量级Adapter（适配器）**登场的时候了。它就像给SAM这个“全能大脑”接上了一个专精于“找相同”的“小脑”，让SAM的能力得以延伸。接下来，我们就一层层剥开MASA的技术洋葱，看看它是如何具体运作的。

2. 自监督信号制造厂：数据增强与SAM的梦幻联动

2.1 如何无中生有地创造跟踪数据？

MASA训练的核心燃料，不是标注好的跟踪视频，而是海量的静态图片。这个过程非常巧妙，我打个比方：这就好比你想教一个AI认识“苹果”，但你不直接告诉它“这是苹果”，而是给它看同一个苹果被从不同角度拍的照片、被切成两半的照片、被部分遮挡的照片，然后让AI自己琢磨：“哦，这些看起来不一样的东西，原来是同一个玩意儿。”

具体到技术细节，MASA的“自监督信号制造流水线”是这样工作的：