【IQA技术专题】人脸多任务IQA Benchmark：F-Bench

最新推荐文章于 2026-06-24 10:23:40 发布

原创最新推荐文章于 2026-06-24 10:23:40 发布 · 823 阅读

26 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#IQA #图像质量评价 #深度学习 #人脸

IQA 专栏收录该内容

25 篇文章

订阅专栏

在这里插入图片描述

人脸多任务IQA Benchmark：F-Bench（2025 ICCV）

专题介绍
一、研究背景
二、FaceQ 数据库构建
三、F-Bench 基准分析
四、F-eval模型设计与性能
五、实验
六、总结

该论文提出了首个大规模 AI 生成、定制及修复人脸质量评估数据库FaceQ，包含 12,255 张图像和 491,130 条多维度人工评分，基于该数据库构建了人脸生成、定制、修复模型的人类偏好基准F-Bench，同时设计了基于大型多模态模型（LMM）的一站式质量评估模型F-Eval。F-Bench 评估了 29 个主流模型的性能，揭示了各模型在质量、真实性、身份保真度和文本图像一致性等维度的优劣；F-Eval 通过双视觉编码器和多专家 LoRA 调优，在所有任务和维度上均实现了超越现有方法的性能，为 AIGC 人脸相关任务的质量评估提供了全面解决方案。参考资料如下：
[1]. 代码地址
[2]. 论文地址

论文整体结构思维导图如下：
在这里插入图片描述

专题介绍

图像质量评价（Image Quality Assessment, IQA）是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究，更在影像相关行业内实现了完整的商业化应用，涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形，其重要程度可见一斑。

但随着算法侧的能力不断突破，AIGC技术发展火热，早期的IQA或已无法准确评估新技术的能力。另一方面，千行百业中各类应用对图像质量的需求也存在差异和变化，旧标准也面临着适应性不足的挑战。

本专题旨在梳理和跟进IQA技术发展内容和趋势，为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。

系列文章如下：
【1】🔥IQA综述
【2】PSNR&SSIM
【3】Q-Insight
【4】VSI
【5】LPIPS
【6】DISTS
【7】Q-align
【8】GMSD
【9】NIQE
【10】MUSIQ
【11】CDI
【12】Q-BENCH
【13】Q-Instruct
【14】A-Fine
【15】MANIQA
【16】CLIPIQA

一、研究背景

论文作者抓住了现有人脸任务的痛点：AI 生成、定制、修复人脸常出现结构失真、身份偏移、文本图像不一致等问题，现有评估方法（通用 IQA、自然人脸 FQA）缺乏针对性，无法精准匹配人类偏好。下图总结了本文作者的贡献所在：
在这里插入图片描述
可以分为3点：

构建首个专属数据库FaceQ，覆盖多任务、多维度人工标注。从图中可以看到任务包含人脸生成、定制、复原任务；标注包含了多个维度，有质量、真实性、对应性等。
建立基准F-Bench，系统评估主流模型性能并揭示优劣。多个主流模型，都是熟悉的方法；
设计一站式评估模型F-Eval，实现多维度质量精准预测。此为作者设计的一个IQA模型，用LMM模型微调得来的。

二、FaceQ 数据库构建

FaceQ的数据提示词来自 MS-COCO 与 GPT-4o；参考图含自采与公开数据；低质图像含合成（模糊 / 噪声等）与真实（公开数据集）两类。
数据集的统计如下表：
在这里插入图片描述
可以看到FaceQ包含12,255 张图像，生成子集（4,032 张）、定制子集（4,200 张）、修复子集（4,023 张），491,130 条人工评分，最终生成 32,000+ MOS 值，评估维度包含以下4项：

质量：色彩、清晰度等整体感知；
真实性：接近真实照片的程度；
身份保真度：定制 / 修复任务中身份保留程度；
文本图像一致性：生成 / 定制任务与提示词的匹配度。

人工打分是由180 名正常视力参与者，经培训后评分；采用 0-5 分滑动条，按 ITU-R BT.50014 标准执行；3% 异常值剔除，Z-score 标准化至 0-100 分。得分公式如下所示：
$\text{MOS}_{\text{norm}}(i) = \frac{\text{MOS}(i) - \mu}{\sigma} \times 10 + 50$ 其中 $\text{MOS}(i)$ 代表第 $i$ 个样本的原始人工评分均值； $\mu$ 代表所有原始MOS值的全局均值； $\sigma$ 代表所有原始MOS值的全局标准差； $\text{MOS}_{\text{norm}}(i)$ 代表标准化后的MOS值（映射至0-100分区间）。

异常值剔除方法如下所示：
$\frac{x(i) - \bar{x}}{\text{std}(x)}$ 其中 $x (i)$ 代表第 $i$ 个标注者对某样本的评分； $\bar{x}$ 代表该样本所有标注者评分的均值； $\text{std}(x)$ 代表该样本所有标注者评分的标准差； $Z (i)$ 为Z-score值，本文剔除 $∣ Z (i) ∣ > 3$ 的异常评分。

以下是FaceQ的一些数据集示意：
在这里插入图片描述
左中右分别是人脸生成、定制以及复原任务的评估，每个任务会采取不同的维度，不会将4个维度全部评估，只会关注跟本任务相关的维度。

由于是benchmark，因此会评估比较多的方法，作者选了29 个主流模型（14 生成 + 6 定制 + 9 修复），含 Stable Diffusion 系列、Flux-dev、PhotoMaker 等。

三、F-Bench 基准分析

评估范围包含29 个人脸模型 + 26 种现有质量评估方法。
首先是各类任务的MOS评分分布结果如下图所示：
在这里插入图片描述
作者有以下几个发现：

生成任务：文本图像一致性得分最高（模型提示词理解能力强），真实性得分最低（ photorealism 不足）。
定制任务：质量维度整体最差（注入身份易牺牲画质），身份保真度呈双峰分布（人类判断非此即彼）。
修复任务：质量得分优于身份保真度，真实低质图像修复难度高于合成图像。

然后是不同模型的MOS结果表现：
在这里插入图片描述
有以下结论：

人脸生成：Flux-dev、SD3、Realistic Vision为领先模型，优势体现在真实性与质量平衡，提示词匹配精准。
人脸定制：IP-Adapter-FaceID-Plus、PhotoMaker、InstantID为领先模型，优势体现在身份保真度高，兼顾画质与文本一致性。
人脸复原：StableSR、CodeFormer、DiffBIR为领先模型，优势体现在细节保留好，身份还原准，鲁棒性强。

对生成类任务的提示词做了实验：
在这里插入图片描述
生成任务中，动作、表情、面部属性类提示词评分最低（复杂属性难精准生成），通用、背景类提示词评分最高。年龄维度：定制 / 修复任务中老年人图像质量波动大；性别维度：修复任务中男性图像表现略优。

四、F-eval模型设计与性能

F-eval是作者设计的一个IQA网络，如下图所示。
在这里插入图片描述
模型架构设计，输入是图像（单张 / 成对）、提示词、可选参考图；编码器选择Qwen-VL-2.5-ViT（视觉特征）+ ArcFace（人脸身份特征），均经微调；特征融合选择双投影器将视觉 / 人脸特征映射至语言空间，与文本特征拼接后输入 Qwen-VL2.5-7B；调优策略选择指令调优（适配多维度评估）+ 多专家 LoRA（4 个专家对应 4 个维度，路由器动态激活）。

五、实验

定量实验如下：
在这里插入图片描述
FaceQ-Gen 与 FaceQ-Cus 子集现有 QA 模型性能对比，结论如下：

传统 IQA 模型（如 NIQE、ILNIQE）在所有维度上表现最差，因这类模型针对自然图像退化设计，无法适配 AIGC 人脸的专属失真（如身份偏移、结构异常）。
深度学习 - based IQA 模型（如 MANIQA、PromptIQA）经 FaceQ 微调后性能显著提升，但在文本图像一致性维度仍有短板。
AIGC IQA 模型中，MINTIQA 微调后表现最优，但仍不及 F-Eval；CLIPScore、BLIPScore 因侧重高层语义，与人类偏好相关性低。
人脸 IQA 模型（如 DSL-FIQA）在质量维度有一定适配性，但身份保真度、文本图像一致性维度表现不足。
F-Eval 在所有任务和维度上的 SRCC、KRCC、PLCC 指标均最优，尤其是在身份保真度和文本图像一致性维度，优势显著。

FaceQ-Res 合成子集 QA 模型性能对比，结论如下：
在这里插入图片描述