FID(Fréchet Inception Distance)和 IS(Inception Score)是评价生成对抗网络(GAN)生成图像质量的两种常用指标。以下是它们的详细介绍,包括优点和局限性。
1. Fréchet Inception Distance (FID)
定义
FID 是一种基于分布差异的评价指标,用于量化生成图像与真实图像之间的差异。其核心思想是:
- 将图像通过预训练的 Inception 网络提取特征(通常是倒数第二层的特征向量)。
- 将这些特征看作符合多元高斯分布,计算真实数据和生成数据的分布差异。
FID 公式为:
FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)
FID = ||\mu_r - \mu_g||^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})
FID=∣∣μr−μg∣∣2+Tr(Σr+Σg−2(ΣrΣg)1/2)
-μr,Σr\mu_r, \Sigma_rμr,Σr:真实图像特征的均值和协方差矩阵。
-μg,Σg\mu_g, \Sigma_gμg,Σg:生成图像特征的均值和协方差矩阵。
-TrTrTr:矩阵的迹。
优点
- 反映分布差异:通过比较特征分布,可以量化生成图像和真实图像整体的相似性。
- 抗模式崩塌:FID 能检测生成图像是否覆盖了真实数据分布的所有模式。
- 对感知质量敏感:生成图像的细节和真实性直接影响 FID 分数。
局限性
- 依赖特征提取器:FID 的结果高度依赖于预训练的 Inception 网络,其特征可能不完全适合特定任务。
- 对噪声敏感:生成图像中的少量噪声可能显著影响 FID 分数。
- 计算成本较高:需要计算均值和协方差矩阵,尤其在数据量较大时较耗时。
分数范围
- 越低越好。理论上最优值为 0(生成分布与真实分布完全一致)。
2. Inception Score (IS)
定义
IS 通过评估生成图像的多样性和生成质量,量化生成模型的性能。它的核心思想是:
- 使用预训练的 Inception 网络对生成图像进行分类,得到预测概率分布p(y∣x)p(y|x)p(y∣x)。
- 假设高质量的生成图像具有明确的类别标签(熵低),而生成数据整体具有较大的多样性(熵高)。
IS 公式为:
IS=exp(Ex[DKL(p(y∣x)∣∣p(y))])
IS = \exp \left( \mathbb{E}_x [ D_{KL}(p(y|x) || p(y)) ] \right)
IS=exp(Ex[DKL(p(y∣x)∣∣p(y))])
-DKLD_{KL}DKL:KL散度,用于衡量p(y∣x)p(y|x)p(y∣x) 和p(y)p(y)p(y) 的差异。
-p(y)p(y)p(y):生成图像整体的类别分布,即p(y)=1N∑i=1Np(y∣xi)p(y) = \frac{1}{N} \sum_{i=1}^N p(y|x_i)p(y)=N1∑i=1Np(y∣xi)。
优点
- 直观易用:直接基于分类网络的输出概率分布,无需计算高斯分布参数。
- 兼顾质量和多样性:通过DKLD_{KL}DKL 同时评估生成图像的感知质量和类别多样性。
局限性
- 忽略真实数据分布:IS 仅评价生成图像本身,与真实数据分布无关。
- 对类别相关性敏感:如果生成图像分布的类别不平衡,可能导致 IS 分数偏高或偏低。
- 不抗模式崩塌:即使生成器仅生成少数高质量样本,IS 分数也可能很高。
分数范围
- 越高越好。较高的 IS 分数表明生成图像的质量和多样性较好。
- 无明确理论范围,但通常分数在 1 到 10 之间。
3. FID 和 IS 的对比
| 特性 | FID | IS |
|---|---|---|
| 是否依赖真实数据 | 是 | 否 |
| 质量评估 | 高 | 中 |
| 多样性评估 | 高 | 中 |
| 模式崩塌检测 | 能检测 | 无法检测 |
| 分数意义 | 越低越好 | 越高越好 |
| 计算复杂度 | 较高 | 较低 |
4. 选择指标的建议
- 如果需要全面评估生成图像的质量和多样性,同时检测模式崩塌,建议使用 FID。
- 如果只关注生成图像的类别多样性和直观质量,可以使用 IS。
- 在实际中,常结合使用 FID 和 IS 来综合评估生成模型的性能。

336

被折叠的 条评论
为什么被折叠?



