[2024-CVPR] MUSIQ++: Enhancing Multi-scale Image Quality Assessment with Dynamic Transformer Adaptat

最新推荐文章于 2026-06-27 21:03:36 发布

原创

最新推荐文章于 2026-06-27 21:03:36 发布 · 183 阅读

标签

#图像质量评估 #Transformer #多尺度分析 #计算机视觉

1. 从MUSIQ到MUSIQ++：为什么我们需要动态的Transformer？

如果你玩过手机拍照，肯定遇到过这种情况：同一张照片，在手机小屏幕上看着挺清晰，传到电脑大屏上，噪点和涂抹感就全出来了。反过来，一张在4K显示器上细节满满的风光照，缩成微信头像后，可能就只剩一团模糊的色彩。这就是图像质量评估（IQA）领域一个核心的挑战：图像质量是“多尺度”的。我们评价一张图好不好，既看它在原始大图上的纹理细节和清晰度，也看它在小尺寸缩略图上的整体观感和色彩和谐度。

传统的IQA模型，尤其是基于卷积神经网络（CNN）的，在处理这个问题时有点“力不从心”。它们通常要求输入图像的尺寸必须固定，比如一律缩放到224x224像素。这就好比要求所有观众，无论坐第一排还是最后一排，都必须戴同一副度数的眼镜看电影——前排的人觉得模糊，后排的人觉得晕。为了适配网络，图像不得不被强行拉伸、挤压或裁剪，这个过程本身就会引入失真，让模型去评估一个已经被“破坏”过的图像的质量，这显然不太合理。

2021年ICCV上提出的MUSIQ（Multi-scale Image Quality Transformer） 就是为了解决这个痛点而生的。它的核心思想非常直观：让模型能“看见”图像原本的样子。MUSIQ设计了一套巧妙的编码机制，能够同时处理原始分辨率图像和多个保持长宽比缩放的版本，将这些不同尺度的图像块（patch）编码成一个序列，然后送入Transformer进行理解。这样一来，模型既能捕捉大图上的局部瑕疵（比如一条边缘的锯齿），也能感知小图上的全局失调（比如整体对比度失衡）。它提出的基于哈希的二维空间嵌入（HSE） 和尺度嵌入（SCE），确保了不同尺度、不同位置的图像块信息能被准确、对齐地表达。

MUSIQ取得了很好的效果，但它依然存在一个可以优化的地方：它的多尺度处理策略在模型训练好后是相对固定的。比如，它可能预设了处理原图、1/2缩放、1/4缩放这三个固定尺度。但在真实世界里，我们遇到的图像分辨率千差万别，从手机拍的几百像素到专业相机上的几千万像素都有。一套固定的“尺子”去量所有东西，难免会有不匹配的时候。

这就是MUSIQ++ 登场的背景。作为MUSIQ在2024年CVPR上的升级版，它的核心进化在于 “动态Transformer适配”。你可以把它想象成一个更聪明的“多焦点眼镜”。MUSIQ是给你配了好几副固定度数的眼镜，看不同距离时换着戴；而MUSIQ++则是一副可以自动变焦的眼镜，它能根据眼前图像的具体情况（分辨率、内容复杂度），动态地调整自己的“观测模式”。这个“动态调整”主要就体现在对输入编码和Transformer注意力机制的灵活适配上，让模型对不同输入的自适应能力更强，从而在更复杂的场景下，实现更精准、更灵活的图像质量评估。

2. 动态Transformer适配：让模型学会“因地制宜”

那么，MUSIQ++具体是怎么实现这种“动态适配”的呢？这可不是简单地增加几个尺度那么简单，而是在模型架构的“思考方式”上做了升级。我们可以从几个关键层面来理解。

2.1 动态输入编码：告别“一刀切”的预处理

MUSIQ虽然能处理多尺度，但其图像块的划分和哈希网格的映射，在模型确定后，对于给定尺寸的图像，处理流程是确定的。MUSIQ++在这里引入了更强的动态性。它可能包含一个轻量级的前端分析网络或策略选择器。这个模块会先对输入图像进行一个快速的“扫描”，分析其分辨率分布、纹理密度、关键区域（如人脸、文字）的位置等信息。

基于这个快速分析，模型会动态决定：

尺度选择策略：并非所有图像都需要同样数量或同样缩放比例的尺度表示。对于一张内容简单、分辨率适中的图，可能只需要两个尺度（原图和一个小尺度）就足够了；而对于一张超高分辨率、细节丰富的医学图像或卫星图，则可能需要激活更多、更密集的尺度采样，以确保所有重要细节都被覆盖。
图像块划分的粒度：传统的做法是固定图像块大小（如16x16像素）。MUSIQ++可以探索动态的图像块划分，在纹理复杂的区域使用更小的图像块以捕捉细节，在平滑区域使用更大的图像块以提高计算效率。这类似于一个自适应的感受野。
哈希网格的粒度调整：还记得MUSIQ里那个GxG的哈希表T吗？G的大小是个权衡。MUSIQ++可以让这个G不再是固定的。对于空间结构特别复杂（比如很多细小物体）的图像，它可以动态关联到一个更精细的哈希网格（更大的G），以减少哈希碰撞，更精确地定位每个图像块的位置。反之，对于结构简单的图像，则使用相对粗糙的网格，节省计算资源。

这种动态编码机制，使得模型输入端的“特征提取器”不再是僵化的，而是能根据输入内容智能调整的，为后续的Transformer处理提供了更高质量、更具针对性的“食材”。