1. 从“分割一切”到“追踪一切”:MASA想解决什么难题?
大家好,我是老张,在AI和计算机视觉这个圈子里摸爬滚打了十几年,从早期的传统特征匹配,到后来的深度学习,再到如今这些动辄几十亿参数的“基础模型”,可以说是看着这个领域一步步“卷”过来的。今天想和大家聊聊一个让我眼前一亮的CVPR 2024工作——MASA。这名字挺有意思,Matching Anything by Segmenting Anything,翻译过来就是“通过分割万物来匹配万物”。说白了,它的野心就是把SAM(Segment Anything Model)那“看啥分啥”的逆天能力,直接转化成“看啥跟啥”的通用追踪器。
咱们先聊聊痛点。传统的多目标跟踪(MOT)技术,比如你在监控视频里追行人、在无人机画面里数车辆,其实都挺“挑食”的。什么意思呢?你训练一个在“行人数据集”上表现优异的跟踪模型,把它直接扔到“野生动物纪录片”里,让它去追斑马,它大概率就懵了。因为模型在学习过程中,已经深深地记住了“行人”这个特定领域(Domain)的外观、姿态、运动模式。一旦换了场景,模型学到的那些“知识”就不太管用了,这就是所谓的“域鸿沟”。
所以,业界一直有个梦想:能不能做一个“通用”的跟踪器?不挑食,不认生,给它看任何视频,无论是街景、手术室、显微镜下的细胞,还是足球比赛,它都能自动识别出里面的物体,并稳定地追踪下去。这听起来就像让一个只会下中国象棋的AI,突然也能下国际象棋和围棋一样难。核心挑战有两个:第一,数据从哪来?给“万物”都标注跟踪数据,成本是天文数字。第二,模型怎么学?如何让一个模型学会“追踪”这个抽象动作本身,而不是记住特定物体的长相?
MASA的聪明之处就在于,它巧妙地绕开了这两个大山。它发现,SAM这个“分割万物”的模型,本身就是一个取之不尽、用之不竭的“知识宝库”。SAM虽然不会跟踪,但它能在单张图片里,把任何物体都精准地抠出来。那么,如果我们能自己“制造”出跟踪所需要的“监督信号”呢?MASA给出的答案就是:自己跟自己玩。通过对一张图片进行各种“花样百出”的几何变换(比如旋转、裁剪、扭曲),然后让SAM去分割变换前和变换后的图片。因为变换规则是我们自己定的,所以同一个物体在变换前后的像素对应关系,我们心知肚明。SAM的分割结果,则把这些像素组织成了“物体实例”。这样一来,我们就免费获得了海量的、跨领域的“配对数据”:同一个物体,在两种不同视角下的样子。这就是MASA最核心的“自监督”信号来源,完全不需要人工标注。
有了这个思路,剩下的就是工程实现了:如何设计一个轻巧高效的模型,来学习这种“配对”能力,并最终用于视频帧与帧之间的跟踪?这就是MASA中另一个关键设计——**轻量级Adapter(适配器)**登场的时候了。它就像给SAM这个“全能大脑”接上了一个专精于“找相同”的“小脑”,让SAM的能力得以延伸。接下来,我们就一层层剥开MASA的技术洋葱,看看它是如何具体运作的。
2. 自监督信号制造厂:数据增强与SAM的梦幻联动
2.1 如何无中生有地创造跟踪数据?
MASA训练的核心燃料,不是标注好的跟踪视频,而是海量的静态图片。这个过程非常巧妙,我打个比方:这就好比你想教一个AI认识“苹果”,但你不直接告诉它“这是苹果”,而是给它看同一个苹果被从不同角度拍的照片、被切成两半的照片、被部分遮挡的照片,然后让AI自己琢磨:“哦,这些看起来不一样的东西,原来是同一个玩意儿。”
具体到技术细节,MASA的“自监督信号制造流水线”是这样工作的:



被折叠的 条评论
为什么被折叠?



