【IQA技术专题】主客观结合的不完美IQA：A-FINE

原创于 2025-11-25 21:41:29 发布 · 1.1k 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#IQA #图像质量评价

IQA 专栏收录该内容

25 篇文章

订阅专栏

🔍 VisionCore Pro | 多模态智能语义分析平台

AI应用

PyTorch

CLIP

VisionCore Pro 是一款基于 OpenAI CLIP (Contrastive Language-Image Pre-training) 架构的企业级多模态视觉分析工具。通过先进的深度学习技术，该平台实现了图像与文本之间的深度语义对齐，支持零样本（Zero-shot）图像识别与分类，为企业视觉资产数字化、智能监控及内容审核提供高效的技术支撑。

在这里插入图片描述

本文将围绕《Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality Assumption》展开完整解析。
为解决传统全参考图像质量评估（FR-IQA）模型依赖 “参考图像质量完美” 这一不合理假设的问题，研究团队构建了包含约18 万张图像的大规模 IQA 数据库DiffIQA（涵盖比参考质量差、相似、更好的图像）和超分辨率 IQA 基准SRIQA-Bench（含 10 种主流超分方法生成的 1100 张图像及可靠人工标注），并提出广义 FR-IQA 模型A-FINE（这里广义IQA指的是泛化性更好的IQA，可以扩展到不完美的参考图像的IQA评价情况上，不完美指增强的图像部分区域的图像质量可能优于参考图像的图像质量）。该模型通过自适应结合图像保真度项与自然度项，在标准 IQA 数据集（TID2013、KADID-10K、PIPAL）、DiffIQA 和 SRIQA-Bench 上均优于现有模型，且在参考图像质量不完美时仍能有效评估，同时可在参考远优于测试图像时兼容传统 FR-IQA 模型。参考资料如下：
[1]. 项目地址

论文整体结构思维导图如下：
在这里插入图片描述

专题介绍

图像质量评价（Image Quality Assessment, IQA）是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究，更在影像相关行业内实现了完整的商业化应用，涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形，其重要程度可见一斑。

但随着算法侧的能力不断突破，AIGC技术发展火热，早期的IQA或已无法准确评估新技术的能力。另一方面，千行百业中各类应用对图像质量的需求也存在差异和变化，旧标准也面临着适应性不足的挑战。

本专题旨在梳理和跟进IQA技术发展内容和趋势，为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。

系列文章如下：
【1】🔥IQA综述
【2】PSNR&SSIM
【3】Q-Insight
【4】VSI
【5】LPIPS
【6】DISTS
【7】Q-align
【8】GMSD
【9】NIQE
【10】MUSIQ
【11】CDI
【12】Q-BENCH
【13】Q-Instruct

一、研究背景

文章观察到有一些参考数据集的图像质量不一定会比当前流行大模型增强后的质量要更高，如下图所示：
在这里插入图片描述
而现在大量的全参考IQA方法会基于参考图是完美质量为前提假设进行设计，这使得在一些情况下会判断出错，如图所示：

当参考图质量好时，大部分基于感知的方法可以跟本文以及人类的判断一致，但是当参考图质量不佳时，本文的方法仍然可以跟人类判断一致。
本文的贡献点总结为：

一个大规模的IQA数据集DiffIQA，打破了完美参考质量的假设。
广义FR-IQA模型A-FINE在完美和不完美参考条件下均优于现有方法。
A-FINE在标准IQA数据集和自建的数据集上都进行了广泛的实验证明。

二、A-FINE方法

2.1 DiffIQA数据集的构建

如下图所示：
在这里插入图片描述

首先使用基于Diffusion的增强模型，在修改退化和增强设置上调整，得到多张语义一致的增强测试数据。
针对前面得到的数据，开启主观测试，判断图像A与图像B的相对质量关系。
最后根据得到的比较结果（如果出现平局，即一票差、一票好、一票相似），排除无效的对比结果，得到最后的质量评估数据。

下面是作者给出的数据集情况，对比其他数据集有3个特征：
在这里插入图片描述

测试图像的数量和质量有明显优势，大规模的512图像搭配高质量的注释信息。
是基于扩散模型构建的失真数据集，其视觉特征与基于回归或基于gan的方法产生的图像特征不同。
最后，将质量优化参考图像的测试图像进行广义化，放宽了完美质量的假设。

这里作者还提出了一个SR-IQA-Bench数据集，包含1000张由10种SR方法生成的图像。

2.2 A-FINE模型

整体结构如下所示：包含两大块，（a）是A-FINE的模型结构，第二块是A-FINE的训练过程。
在这里插入图片描述
模型包含几个要点：

Feature Transformation：提取特征的过程，作者使用的是CLIP的vit image encoder。
Fidelity Assessment：主观评价的过程，使用的是FR-IQA中的DISTS方法，不熟悉的读者可以参考链接。
Naturalness Assessment：客观评价的过程，使用了一个网络结构（上图（a）的右半部分），对encoder提取的各个stage的特征求取global mean和variance，最后组合成一个评价指标。
类似sigmoid的符号：是一个soft-sigmmid。保真度项非线性映射公式如下所示： $F_{\eta}(x, y) = \frac{\eta_{1} - \eta_{2}}{1 + \exp\left(-\frac{F(x, y) - \eta_{3}}{|\eta_{4}|}\right)} + \eta_{2}$ 其中， $\eta_1 = 2$ 、 $\eta_2 = -2$ （定义映射上下界）， $\eta_3$ 、 $\eta_4$ 为可学习参数。
自然度项非线性映射如下所示： $N_{\gamma}(y) = \frac{\gamma_{1} - \gamma_{2}}{1 + \exp\left(-\frac{N(y) - \gamma_{3}}{|\gamma_{4}|}\right)} + \gamma_{2}$ 其中， $\gamma_1 = 2$ 、 $\gamma_2 = -2$ （定义映射上下界）， $\gamma_3$ 、 $\gamma_4$ 为可学习参数。
Adaptive Combination：组合主观和客观评价指标的过程，公式如下所示： $\lambda(x, y) \cdot N(y)$ $\lambda (x,y) = \exp\left( k(N(x)-N(y)) \right)$ 其中， $D (x, y)$ 为测试图像 $y$ 相对于参考图像 $x$ 的最终质量评分， $\lambda(x, y) \geq 0$ 为自适应权重函数， $F (x, y)$ 为图像保真度项， $N (y)$ 为图像自然度项；较小的 $D (x, y)$ 表示 $y$ 质量更优，较小的 $F (x, y)$ 和 $N (y)$ 分别表示保真度、自然度更优。

接下来是训练的过程：
在这里插入图片描述
得到数据集的过程，将前面得到的排序转换为分布，如下式所示： $\mid x) = \begin{cases} 1 & \text{if } Q(y \mid x) > Q(z \mid x) \\ 0.5 & \text{if } Q(y \mid x) = Q(z \mid x) \\ 0 & \text{otherwise} \end{cases}$ 其中， $(x, y, z)$ 为图像三元组 $x$ 为参考， $y$ 、 $z$ 为同内容测试图， $\mid x)$ 、 $\mid x)$ 分别为 $y$ 、 $z$ 相对于 $x$ 的主观平均意见分（MOS）， $\mid x)$ 为 $y$ 质量优于 $z$ 的ground-truth概率。损失的计算是两个分布之间的距离 $\ell (y,z \mid x;\theta ) = 1 - \sqrt{p(y,z \mid x)\hat{p}(y,z \mid x;\theta )} - \sqrt{(1-p(y,z \mid x))(1-\hat{p}(y,z \mid x;\theta ))}$ 其中， $\theta$ = $\{\phi, \varphi, \alpha, \beta, k, \eta, \gamma\}$ 为A-FINE所有可学习参数 $\phi$ 为ViT骨干参数， $\varphi$ 为自然度项参数， $\hat{p}(y,z \mid x;\theta )$ 为模型预测的 $y$ 优于 $z$ 的概率（基于Thurstone’s Case V模型，假设质量服从均值为A-FINE输出、方差为1的高斯分布）。

三、实验

定量实验如下所示：

在这里插入图片描述
上述实验表明DiffIQA对于FR-IQA是有益的，然而，微调后的模型在标准IQA数据集上的性能会有所下降。最后，A-FINE实现了最高的平均结果，这主要是归因于其对图像保真度和自然度项的自适应加权。

在SR-BENCH上的实验如下。
在这里插入图片描述

这表明对于基于回归的方法，大多数模型的表现还可，主要是因为这些基于回归的方法提升纹理不明显，因此参考图像质量会高于他们处理后的结果，相比之下，基于生成的方法可能输出更高质量的图像，如果还是以完美参考图像作假设的话，效果就不尽人意，但是经过DIFFIQA微调后也可以有所提升，且A-FINE获得了最好的综合性能，验证了有效性。

消融实验如下：