1. 从MUSIQ到MUSIQ++:为什么我们需要动态的Transformer?
如果你玩过手机拍照,肯定遇到过这种情况:同一张照片,在手机小屏幕上看着挺清晰,传到电脑大屏上,噪点和涂抹感就全出来了。反过来,一张在4K显示器上细节满满的风光照,缩成微信头像后,可能就只剩一团模糊的色彩。这就是图像质量评估(IQA)领域一个核心的挑战:图像质量是“多尺度”的。我们评价一张图好不好,既看它在原始大图上的纹理细节和清晰度,也看它在小尺寸缩略图上的整体观感和色彩和谐度。
传统的IQA模型,尤其是基于卷积神经网络(CNN)的,在处理这个问题时有点“力不从心”。它们通常要求输入图像的尺寸必须固定,比如一律缩放到224x224像素。这就好比要求所有观众,无论坐第一排还是最后一排,都必须戴同一副度数的眼镜看电影——前排的人觉得模糊,后排的人觉得晕。为了适配网络,图像不得不被强行拉伸、挤压或裁剪,这个过程本身就会引入失真,让模型去评估一个已经被“破坏”过的图像的质量,这显然不太合理。
2021年ICCV上提出的MUSIQ(Multi-scale Image Quality Transformer) 就是为了解决这个痛点而生的。它的核心思想非常直观:让模型能“看见”图像原本的样子。MUSIQ设计了一套巧妙的编码机制,能够同时处理原始分辨率图像和多个保持长宽比缩放的版本,将这些不同尺度的图像块(patch)编码成一个序列,然后送入Transformer进行理解。这样一来,模型既能捕捉大图上的局部瑕疵(比如一条边缘的锯齿),也能感知小图上的全局失调(比如整体对比度失衡)。它提出的基于哈希的二维空间嵌入(HSE) 和尺度嵌入(SCE),确保了不同尺度、不同位置的图像块信息能被准确、对齐地表达。
MUSIQ取得了很好的效果,但它依然存在一个可以优化的地方:它的多尺度处理策略在模型训练好后是相对固定的。比如,它可能预设了处理原图、1/2缩放、1/4缩放这三个固定尺度。但在真实世界里,我们遇到的图像分辨率千差万别,从手机拍的几百像素到专业相机上的几千万像素都有。一套固定的“尺子”去量所有东西,难免会有不匹配的时候。
这就是MUSIQ++ 登场的背景。作为MUSIQ在2024年CVPR上的升级版,它的核心进化在于 “动态Transformer适配”。你可以把它想象成一个更聪明的“多焦点眼镜”。MUSIQ是给你配了好几副固定度数的眼镜,看不同距离时换着戴;而MUSIQ++则是一副可以自动变焦的眼镜,它能根据眼前图像的具体情况(分辨率、内容复杂度),动态地调整自己的“观测模式”。这个“动态调整”主要就体现在对输入编码和Transformer注意力机制的灵活适配上,让模型对不同输入的自适应能力更强,从而在更复杂的场景下,实现更精准、更灵活的图像质量评估。
2. 动态Transformer适配:让模型学会“因地制宜”
那么,MUSIQ++具体是怎么实现这种“动态适配”的呢?这可不是简单地增加几个尺度那么简单,而是在模型架构的“思考方式”上做了升级。我们可以从几个关键层面来理解。
2.1 动态输入编码:告别“一刀切”的预处理
MUSIQ虽然能处理多尺度,但其图像块的划分和哈希网格的映射,在模型确定后,对于给定尺寸的图像,处理流程是确定的。MUSIQ++在这里引入了更强的动态性。它可能包含一个轻量级的前端分析网络或策略选择器。这个模块会先对输入图像进行一个快速的“扫描”,分析其分辨率分布、纹理密度、关键区域(如人脸、文字)的位置等信息。
基于这个快速分析,模型会动态决定:
- 尺度选择策略:并非所有图像都需要同样数量或同样缩放比例的尺度表示。对于一张内容简单、分辨率适中的图,可能只需要两个尺度(原图和一个小尺度)就足够了;而对于一张超高分辨率、细节丰富的医学图像或卫星图,则可能需要激活更多、更密集的尺度采样,以确保所有重要细节都被覆盖。
- 图像块划分的粒度:传统的做法是固定图像块大小(如16x16像素)。MUSIQ++可以探索动态的图像块划分,在纹理复杂的区域使用更小的图像块以捕捉细节,在平滑区域使用更大的图像块以提高计算效率。这类似于一个自适应的感受野。
- 哈希网格的粒度调整:还记得MUSIQ里那个GxG的哈希表T吗?G的大小是个权衡。MUSIQ++可以让这个G不再是固定的。对于空间结构特别复杂(比如很多细小物体)的图像,它可以动态关联到一个更精细的哈希网格(更大的G),以减少哈希碰撞,更精确地定位每个图像块的位置。反之,对于结构简单的图像,则使用相对粗糙的网格,节省计算资源。
这种动态编码机制,使得模型输入端的“特征提取器”不再是僵化的,而是能根据输入内容智能调整的,为后续的Transformer处理提供了更高质量、更具针对性的“食材”。


6097

被折叠的 条评论
为什么被折叠?



